Google Cloudは、マネージドKubernetesサービス「Google Kubernetes Engine」がサポートするクラスタのノード数を1万5000から6万5000に拡大すると発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Google Cloudは2024年11月14日(米国時間)、マネージドKubernetesサービス「Google Kubernetes Engine」(GKE)がサポートするクラスタのノード数を1万5000から6万5000に拡大すると発表した。Google Cloudは以下のように説明している。
大規模言語モデル(LLM)の規模が拡大する中で、2024年現在のモデルは数千億のパラメーターに達し、最先端のものでは2兆に近づいている。計算能力の必要性はさらに高まることが予想される。実際、最新のアクセラレーターでこうした大規模モデルをトレーニングするには、既に1万ノードを超えるクラスタが必要になっている。
6万5000ノードというスケールは、世界で最もリソースを消費するAI(人工知能)ワークロードにも十分な容量を提供できる。ノードのスケールが大きく広がることにより、アクセラレーターコンピューティング能力と組み合わせ、ユーザーがモデルのトレーニング時間を短縮したり、モデルを数兆パラメーター以上に拡張したりできるようになる。各ノードには複数のアクセラレーターが搭載(例えば、Cloud TPU v5eノードは4つのチップを搭載)することで、1つのクラスタで25万以上のアクセラレーターを管理できる。
最先端のAIモデルを開発するためには、ユーザー自身が多様なワークロードにコンピューティングリソースを効率的に割り当てる必要がある。このプロセスには、モデルのトレーニングだけでなく、提供、推論、特定の目的のための研究、補助タスクの管理も含まれる。コンピューティング能力を最小限のクラスタに集中させることで、推論サービス、研究、トレーニングといったワークロードからの需要の変化に迅速に対応できるようになる。6万5000ノードをサポートすることで、GKEはGoogle Cloudが記録した過去最大規模のトレーニングジョブを、1つのクラスタで5つ実行できる。
ノード数の拡大は、さまざまな機能強化によって実現した。まず、GKEをオープンソースの分散キーバリューストアである「etcd」から、実質的に無制限のスケールを提供するGoogleの分散データベースである「Spanner」をベースとした、より堅牢(けんろう)な新しいキーバリューストアに移行した。この変更は、より大規模なGKEクラスタをサポートするだけでなく、クラスタ操作(クラスタの起動やアップグレードなど)のレイテンシを改善し、ステートレスなクラスタコントロールプレーンを提供することで、GKEユーザーに信頼性をもたらす。このテクノロジーを採用するに当たり、Spannerベースのストレージにetcd APIを実装した。これにより、後方互換性を確保し、Kubernetesのコアを変えることなく利用できる。
GKEのコントロールプレーン管理を大幅に見直したことで、スケーリング速度が格段に向上し、デプロイの遅延が大幅に減少した。これにより、大容量のオペレーションでも一貫性と予測可能なレイテンシを維持できるようになった。このインフラストラクチャの改善は、SaaS(Software as a Service)、ディザスタリカバリー、フォールバック、バッチデプロイメント、テスト環境など、大規模で動的なアプリケーションにとって特に重要なものとなる。
また、Google CloudをAIワークロードの構築に最適なプラットフォームにするため、IaaS(Infrastructure as a Service)とGKEの機能についても継続的にアップデートしている。この分野における最近のアップデートには、次のようなものがある。
Kubernetesのスケーリングに関しても、オープンソースコミュニティーに貢献、投資している。6万5000ノードのクラスタをサポートするのに必要な最適化と改良の全てを、コアのオープンソースKubernetesに組み込んでいる。
KubernetesをAIプラットフォームにおける高水準の基盤とするための投資は、スケーラビリティにとどまらない。以下は、過去2年間のKubernetesプロジェクトへの貢献の一部だ。
Copyright © ITmedia, Inc. All Rights Reserved.
Cloud Native Central 記事ランキング