AGIの構築をビジョンとして掲げるMetaは、生成AIインフラをどう構築しているのか。公式エンジニアリングブログで最新の取り組みを紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AGI(汎用〈はんよう〉人工知能)の構築をビジョンとし、大規模言語モデル(LLM)の「Llama 2」などAI/ML(機械学習)の分野で成果を生み出しているMetaは、生成AIインフラをどう構築しているのか。
Metaは2024年3月12日(米国時間)、生成AIインフラをどのように構築しているのか、取り組みの詳細を公式エンジニアリングブログで紹介した。
Metaは2022年に、1万6000個のNVIDIA A100 GPUを搭載したAIスーパーコンピュータとして「AI Research SuperCluster(RSC)」を構築し、その詳細を明かしている。RSCは、LlamaおよびLalama 2の開発だけでなく、コンピュータビジョン、NLP(自然言語処理)、音声認識、画像生成、コーディングに至るまでさまざまなMetaのAI開発において重要な役割を果たしてきた。
MetaはRSCで培った成功と教訓に基づいて新たな2つのAIクラスタを設計、構築した。2万4576個のNVIDIA Tensor Core H100 GPU(NVIDIA H100)を搭載したAIクラスタだ。研究者や開発者の経験と生産性に重点を置き、エンドツーエンドのAIシステムとして構築されている。
「クラスタ内の高性能ネットワークファブリックの効率性、主要なストレージおよび各クラスタに搭載されたGPUの組み合わせは、RSCよりも複雑なモデルをサポートでき、生成AI製品開発とAI研究がより進歩するだろう」とMetaは述べている。
Metaは、新しいAIクラスタで使われている技術を次のように解説している。
Metaでは、1日当たり数百兆回のAIモデル実行を処理している。こうした大規模なサービスを提供するには、高度で柔軟なインフラが必要だ。
2つのAIクラスタのうち1つは、Arista 7800をベースに「RDMA over Converged Ethernet」(RoCE:Remote Direct Memory Access over Converged Ethernet)ネットワークファブリックを構成しており、もう1つは、NVIDIA Quantum2によるInfiniBandファブリックを特徴としている。いずれも400Gbpsでエンドポイントを相互接続できる。
これにより、異なるネットワークにおける相互接続のスケーラビリティを評価でき、より多くの洞察を得られた。また、ネットワーク、ソフトウェア、モデルアーキテクチャを入念に連携した設計により、RoCEクラスタとInfiniBandクラスタの両方を、大規模な生成AIワークロードに、ネットワークのボトルネックなしに使用することに成功した。
どちらのクラスタも、Open Compute Project(OCP)に貢献した自社設計のオープンGPUハードウェアプラットフォーム「Grand Teton」を使用して構築されている。
Grand Tetonは、電源、制御、コンピュート、ファブリックインタフェースを1つのシャーシに統合し、全体的なパフォーマンス、シグナルインテグリティ、熱性能を向上させる複数世代のAIシステムから得た知見に基づいて構築されている。シンプルな設計で迅速な拡張性と柔軟性を提供するため、データセンターフリートへの迅速な導入が可能で、保守や拡張も容易だ。
MetaのOpen Rackやラックアーキテクチャのような他のイノベーションと組み合わせることで、現在および将来のアプリケーションに特化した方法で新しいクラスタを構築できる。
ストレージはAIトレーニングにおいて重要な役割を果たすが、あまり話題にならない側面の一つだ。しかし、大量のデータを消費するようになると、データストレージの必要性が急速に高まる。
Metaのストレージは、自作のLinux Filesystem in Userspace(FUSE)APIを介して、AIクラスタのデータとチェックポイントのニーズに対応している。ストレージはフラッシュメディア用に最適化されたMetaの分散ストレージソリューション「Tectonic」に支えられている。Tectonicにより、何千ものGPUがチェックポイントを同期して保存、ロードすることが可能になり、同時にデータロードに必要な柔軟で高スループットのエクサバイト規模のストレージを提供できる。
Metaは、スタートアップのHammerspaceと提携して並列ネットワークファイルシステム(NFS)を共同開発した。Hammerspaceは、コードの変更が環境内の全てのノードに即座にアクセスできるため、エンジニアが何千ものGPUを使用してインタラクティブにジョブをデバッグできる。TectonicとHammerspaceを組み合わせることで、スケールに妥協することなく、高速な反復速度を実現している。
これら2つのAIクラスタは、MetaのAI戦略に向けたロードマップの一部だ。Metaは2024年末までに、35万個のNVIDIA H100を含むAIインフラの構築を目指している。これは約60万個のNVIDIA H100に匹敵する計算能力を特徴とするAIインフラになる予定だ。
Copyright © ITmedia, Inc. All Rights Reserved.