Google Kubernetes Engine、1兆パラメーターのAIモデルに対応できるようにクラスタノード数を6万5000に拡大　実現するための技術とは？：今後も継続的にKubernetesへ投資予定

Google Cloudは、マネージドKubernetesサービス「Google Kubernetes Engine」がサポートするクラスタのノード数を1万5000から6万5000に拡大すると発表した。

» 2024年12月03日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Google Cloudは2024年11月14日（米国時間）、マネージドKubernetesサービス「Google Kubernetes Engine」（GKE）がサポートするクラスタのノード数を1万5000から6万5000に拡大すると発表した。Google Cloudは以下のように説明している。

　大規模言語モデル（LLM）の規模が拡大する中で、2024年現在のモデルは数千億のパラメーターに達し、最先端のものでは2兆に近づいている。計算能力の必要性はさらに高まることが予想される。実際、最新のアクセラレーターでこうした大規模モデルをトレーニングするには、既に1万ノードを超えるクラスタが必要になっている。

大規模のトレーニングや推論を実現

　6万5000ノードというスケールは、世界で最もリソースを消費するAI（人工知能）ワークロードにも十分な容量を提供できる。ノードのスケールが大きく広がることにより、アクセラレーターコンピューティング能力と組み合わせ、ユーザーがモデルのトレーニング時間を短縮したり、モデルを数兆パラメーター以上に拡張したりできるようになる。各ノードには複数のアクセラレーターが搭載（例えば、Cloud TPU v5eノードは4つのチップを搭載）することで、1つのクラスタで25万以上のアクセラレーターを管理できる。

　最先端のAIモデルを開発するためには、ユーザー自身が多様なワークロードにコンピューティングリソースを効率的に割り当てる必要がある。このプロセスには、モデルのトレーニングだけでなく、提供、推論、特定の目的のための研究、補助タスクの管理も含まれる。コンピューティング能力を最小限のクラスタに集中させることで、推論サービス、研究、トレーニングといったワークロードからの需要の変化に迅速に対応できるようになる。6万5000ノードをサポートすることで、GKEはGoogle Cloudが記録した過去最大規模のトレーニングジョブを、1つのクラスタで5つ実行できる。

6万5000ノードを実現するための技術

　ノード数の拡大は、さまざまな機能強化によって実現した。まず、GKEをオープンソースの分散キーバリューストアである「etcd」から、実質的に無制限のスケールを提供するGoogleの分散データベースである「Spanner」をベースとした、より堅牢（けんろう）な新しいキーバリューストアに移行した。この変更は、より大規模なGKEクラスタをサポートするだけでなく、クラスタ操作（クラスタの起動やアップグレードなど）のレイテンシを改善し、ステートレスなクラスタコントロールプレーンを提供することで、GKEユーザーに信頼性をもたらす。このテクノロジーを採用するに当たり、Spannerベースのストレージにetcd APIを実装した。これにより、後方互換性を確保し、Kubernetesのコアを変えることなく利用できる。

　GKEのコントロールプレーン管理を大幅に見直したことで、スケーリング速度が格段に向上し、デプロイの遅延が大幅に減少した。これにより、大容量のオペレーションでも一貫性と予測可能なレイテンシを維持できるようになった。このインフラストラクチャの改善は、SaaS（Software as a Service）、ディザスタリカバリー、フォールバック、バッチデプロイメント、テスト環境など、大規模で動的なアプリケーションにとって特に重要なものとなる。

　また、Google CloudをAIワークロードの構築に最適なプラットフォームにするため、IaaS（Infrastructure as a Service）とGKEの機能についても継続的にアップデートしている。この分野における最近のアップデートには、次のようなものがある。

セカンダリーブートディスク：コンテナイメージキャッシュによる高速なワークロード起動を実現
フルマネージドDCGM（Data Center GPU Manager）メトリクス：アクセラレーターモニタリングの向上
Hyperdisk ML：スケーラブルなアプリケーション向けの高性能ストレージソリューション（一般提供開始）
サーバレスGPU：「Cloud Run」で利用可能
カスタムコンピュートクラス：コンピュートリソースの割り当てとスケーリングをより柔軟に制御可能
第6世代TPU「Trillium」対応：高性能とエネルギー効率を実現するTPU
A3 Ultra VM対応：NVIDIA H200 Tensor Core GPUと新しいTitanium MLネットワークアダプターを搭載し、GPU間通信を3.2Tbpsで非ブロッキングに提供（RDMA over Converged Ethernet対応）。A3 Ultra VMは2024年12月中にプレビュー提供開始予定

オープンソースへの継続的なコミットメント

　Kubernetesのスケーリングに関しても、オープンソースコミュニティーに貢献、投資している。6万5000ノードのクラスタをサポートするのに必要な最適化と改良の全てを、コアのオープンソースKubernetesに組み込んでいる。

　KubernetesをAIプラットフォームにおける高水準の基盤とするための投資は、スケーラビリティにとどまらない。以下は、過去2年間のKubernetesプロジェクトへの貢献の一部だ。

Job API：大幅なオーバーホールを推進
K8S Batch Working Groupの設立：リサーチ、HPC（高性能計算）、AIワークロードに関するコミュニティーを構築し、Kubernetesにおけるジョブキューのデファクトスタンダードとなりつつある「Kueue.sh」のようなツールを生み出した
JobSetオペレーター作成：Kubeflowエコシステムへの統合を進め、異種ジョブ（例：ドライバーとエグゼキューター）の実行を支援する
Leader Worker Setコントローラー作成：マルチホスト推論のユースケース向け
JetStreamの公開：高度に最適化された内部モデルサーバ
Kubernetes Serving Working Groupの設立：モデルメトリクスの標準化、Serving Catalog、Inference Gatewayなど複数の取り組みを推進

Google Cloud、ローカルで生成AIモデルを簡単に動かせるサービスを発表
Google Cloudはエッジや企業・ローカルクラウドのデータセンターで、インターネットやGoogle Cloudへの接続なしに大規模言語モデルを動かせるソリューションを発表した。情報漏えいへの懸念やデータ主権に対応できるという。
「Kubernetes v1.31: Elli」公開　セキュリティ向上や運用の効率化につながる45の機能強化を発表
Kubernetesプロジェクトは、オープンソースのコンテナオーケストレーションプラットフォーム「Kubernetes」の最新バージョンである「Kubernetes v1.31」を公開した。
Kubernetesのオープンソース化から10年　Kubernetesの活用動向、現在の課題とは？　専門家527人が回答
Portworxと調査会社のDimensional Researchは共同で、Kubernetes専門家527人に対する調査結果をまとめたレポート「The Voice of Kubernetes Experts Report 2024」を発表した。