GoogleがKubernetesクラスタでの生成AI推論の最適化機能を発表 6710億パラメーターモデルのマルチホスト推論を可能にする仕組みとはRed Hat、ByteDanceと共同で

GoogleはRed HatおよびByteDanceと共同で、大規模言語モデル(LLM)推論を実行するKubernetesクラスタにおいて、ロードバランシング、スケーリング、モデルサーバ性能を最適化する新機能を発表した。

» 2025年04月08日 13時15分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Googleは2025年4月3日(米国時間)、Red HatおよびByteDanceと共同で、大規模言語モデル(LLM)推論を実行するKubernetesクラスタにおいて、ロードバランシング、スケーリング、モデルサーバ性能を最適化する新機能を発表した。

 この新機能は、複数のPodをグループとして扱えるLeaderWorkerSet(LWS)APIの成功に基づいており、Kubernetes上でのAI(人工知能)推論の可能性を押し広げると、Googleは述べている。LWSは、AI/ML(機械学習)マルチノード推論ワークロードの一般的なデプロイ(展開)パターンに対応するKubernetes Deployment API。最先端のモデル(671B〈6710億〉パラメーターのモデルを含む)のマルチホスト推論を可能にする。

新機能の仕組み(提供:Google)

 Googleは、新機能で重要な役割を果たすオープンソースプロジェクトについて、次のように説明している。

Gateway API Inference Extension

 新しい「Gateway API Inference Extension」(推論拡張)は、ext-proc対応プロキシまたはゲートウェイ(Envoy Gateway、kGateway、GKE Gatewayなど)をアップグレードし、推論ゲートウェイとする。これにより、Kubernetes上でLLMをセルフホスティングする推論プラットフォームチームをサポートする。

 従来のラウンドロビンではなく、LLMを考慮したルーティングをサポートするため、LoRA(Low-Rank Adaptation)のような一般的なPEFT(Parameter-Efficient Fine Tuning)(※)手法を、より高い費用対効果で大規模に運用できるようになる。これは、ベースモデルを使用し、ユーザーニーズに基づいてファインチューニングされたモデル(「アダプター」)を動的にロードすることで可能になる。

(※)高パラメーター効率ファインチューニング。LLM内のパラメーターの一部のみを調整してリソースを節約する一連のトレーニング手法

 今回発表の新機能では、PEFTをネイティブにサポートするために、新しい「InferencePool API」と「InferenceModel API」も導入されている。

Inference Perf

 新しい「Inference Perf」(推論性能)プロジェクトは、生成AIの推論性能のベンチマーク基準を提供する。Kubernetes上での生成AI推論の拡大に伴い、モデルサーバ、アクセラレータ、Kubernetesオーケストレーションの性能とともに、サービングワークロードの性能を測定できるようにすることが重要になる。

Dynamic Resource Allocation

 Intelなどと共同開発されたDynamic Resource Allocation(DRA)は、Pod間およびPod内のコンテナ間でリソースを要求、共有するためのAPIだ。KubernetesがGPU(Graphics Processing Unit)やTPU(Tensor Processing Unit)などのデバイスをPodやワークロードに割り当ててスケジュールする方法を、簡素化、自動化する。vLLM推論およびサービングエンジンとともに使用することで、コミュニティーはスケジューリング効率とアクセラレータ間のポータビリティという点で恩恵を受ける。vLLMは、LLM推論およびサービングのための高速で使いやすいライブラリだ。

新機能の構成要素(提供:Google)

 Googleは、「これらのプロジェクトを組み合わせることで、顧客はInference Perfプロジェクトでアクセラレータの評価とベンチマークを実施し、Gateway API Inference ExtensionでLLMを考慮したルーティングによってスケールアウトアーキテクチャを運用し、DRAとvLLMにより、幅広いアクセラレータにわたってスケジューリングとファンジビリティ(代替可能性)の利点を持つ環境を提供できる」と説明している。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Cloud Native Central 記事ランキング

本日月間

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。