Metaが次世代AIインフラ構築計画の進捗状況を発表 カスタムAIアクセラレータチップ、次世代DCなど:AI研究用スーパーコンピュータは第2フェーズへ
Metaは、次世代AIインフラを構築する計画の最近の進捗状況を発表した。発表の目玉は、AIモデルを実行するための同社初のカスタムシリコンチップ、AIに最適化された新しいデータセンター設計、1万6000個のGPUを搭載するAI研究用スーパーコンピュータの第2フェーズだ。
次世代AIインフラを構築する野心的な計画を進めているMetaは2023年5月18日(米国時間)、この計画の最近の進捗(しんちょく)状況を発表した。発表の目玉は、AIモデルを実行するための同社初のカスタムシリコンチップ、AIに最適化された新しいデータセンター設計、1万6000個のGPUを搭載するAI研究用スーパーコンピュータの第2フェーズだ。
Metaは、自社がAI研究の新生面を開拓し、最先端のAIアプリケーションやAI体験を提供し、メタバースの長期ビジョンを構築する中で、自社のAI計算ニーズが今後10年間で著しく増大することを見越して、次世代AIインフラの構築に取り組んでいる。これにより、より大規模で洗練されたAIモデルを開発し、効率的かつ大規模に展開できるようになるとしている。
Metaのインフラの中核を担うAI
Metaのグローバルなインフラは、30億人以上のユーザーが毎日使う同社のアプリケーションファミリーを支えている。Metaは、「AIは長年にわたって、Metaのインフラの重要な部分を占めている」と述べ、その例として、2015年に発表したオープンソースハードウェア「Big Sur」や、同社が開発し、Linux Foundationの傘下に移管されたオープンソース機械学習ライブラリ「PyTorch」、同社のAI研究用スーパーコンピュータを挙げている。現在、以下のようなエキサイティングな新しい方法で、AIインフラを進化させていると、同社は説明している。
MTIA(Meta Training and Inference Accelerator)
推論ワークロード向けに自社で開発したカスタムアクセラレータチップファミリー。CPUよりも計算能力と効率に優れており、社内のワークロードに合わせてカスタマイズされている。Metaは、MTIAチップとGPUの両方を展開することで、各ワークロードについて、より優れたパフォーマンス、レイテンシの低減、効率の向上を実現できるとしている。
次世代データセンター
Metaの次世代データセンター設計は、Metaの現行製品をサポートすると同時に、トレーニングと推論の両方において、将来世代のAIハードウェアを可能にする。この新しいデータセンターは、AIに最適化された設計となり、液冷式のAIハードウェアと、データセンター規模のAIトレーニングクラスタ用に数千のAIチップを接続する高性能AIネットワークに対応する。また、より高速で、費用対効果の高い構築が可能となり、Meta初の自社開発ASIC(特定用途向け集積回路)「MSVP」(Meta Scalable Video Processor)などの新しいハードウェアを補完する。MSVPは、増加の一途をたどるMetaのビデオワークロードに対応するために設計された。
AIスーパーコンピュータ「Research SuperCluster(RSC)」
Metaが世界最速クラスのAIスーパーコンピュータとうたう同社の「RSC」(AI Research SuperCluster)は、新しい拡張現実(AR)ツール、コンテンツ理解システム、リアルタイム翻訳技術などを支える次世代の大規模AIモデルをトレーニングするために構築された。1万6000個のGPUを搭載し、これらは全て、2000のトレーニングシステムそれぞれにフル帯域幅を提供する、3レベルのIP Closネットワークファブリック経由でアクセスされる。
エンドツーエンドの統合スタックのメリット
Metaは、データセンターからサーバハードウェア、全てを稼働させ続ける機械システムまで、全てを設計、構築、運用している。スタックを上から下までコントロールしているため、自社の特定のニーズに合わせてスタックをカスタマイズすることが可能だ。例えば、GPU、CPU、ネットワーク、ストレージのコロケーションにより、ワークロードをよりよくサポートできる場合は、簡単にコロケーションを行える。その結果として、これまでとは異なる電源ソリューションや冷却ソリューションが必要になっても、1つのまとまったシステムの一部として、それらの設計を見直すことができると、同社は述べている。
Metaは、このことは今後、ますます重要になると考えている。「今後10年間で、チップ設計の専門化とカスタマイズが進み、目的やワークロードに応じたAIインフラや、大規模に展開される新しいシステムとツールが増加し、製品および設計サポートの効率が改善される」とみているからだ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Meta、6種類のデータを処理できるマルチモーダルAI「ImageBind」をオープンソースで公開
Metaは、明示的な監視を必要とせずに、6つのモダリティ(データ種別)のデータを一度に結合できる初のAIモデル「ImageBind」を開発し、オープンソースとして公開した。 - 大規模なインフラを自由に使えないAI研究者向けに、Metaが「小規模で高性能な言語モデル」を公開
Metaは、同社開発した言語モデル「LLaMA」(Large Language Model Meta AI)を研究者向けに公開した。「人間の文章生成に似た方法で文章を生成できる」という。 - Meta、画像や動画内のあらゆるオブジェクトを識別できるAIモデルを発表
Metaは画像や動画内のあらゆる物体を識別できる「Segment Anything Model」(SAM)とデータセットの「Segment Anything 1-Billion mask dataset(SA-1B)」を公開した。