株式会社 Preferred Networks

深層学習計算基盤のインターコネクトネットワークをイーサネットに統合。二重投資の回避、ボトルネック解消を同時に実現

概要

課題

  • 深層学習計算基盤「MN-1」「MN-1b」は、ストレージアクセスに 10Gbps イーサネットを採用しており、ストレージアクセスでボトルネックが発生しやすかった
  • 次に構築する「MN-2」でボトルネックを解消する必要があったが、ノード間通信に利用している InfiniBand と高速イーサネットの二重投資は回避したかった
  • マルチノードの深層学習計算基盤では短時間のバーストトラフィックがノード間で発生するが、その可視化も行いたかった

ソリューション

  • マルチノード深層学習で必要な RDMA をイーサネット上に実装する「RoCEv2」を採用することで、ネットワークをイーサネットに統合
  • Cisco Nexus 9000 シリーズでリーフ&スパイン型ネットワークを構成することで十分な帯域を確保
  • Cisco Nexus 9000 シリーズの Network Processing Unit に組み込まれたハードウェアベースのストリーミングテレメトリによって、短時間のバーストトラフィックを可視化

結果~今後

  • ネットワーク統合によって二重投資を回避しながらボトルネックの解消に成功
  • シスコ製品は安定性が高く、ネットワークエンジニアも慣れ親しんでいるので問題発生時にも迅速な対応が可能
  • バーストトラフィックの可視化によって何がボトルネックになっているかが把握しやすくなり、次の投資判断が行いやすくなった

「MN-2 構築でまず求めたのは、ネットワークのボトルネックを解消すること。しかし InfiniBand と高速イーサネットへの二重投資は避けたいと考えていました」

─株式会社 Preferred Networks 執行役員 計算基盤担当 VP 博士(情報理工学) 土井 裕介 氏

 

株式会社 Preferred Networks

所在地 東京都千代田区
設立 2014 年(平成 26 年)3 月
従業員数   約 300 名(2020 年 3 月現在)
URL https://preferred.jp/

こちらもご覧ください。

Cisco Nexus 9000 シリーズ スイッチの詳細は、こちらを参照してください。