Google Cloudは、Google Cloudのフルマネージド開発環境「Cloud Workstation」や「クオンタイズドモデル(量子化されたモデル)」と、新しいオープンソースツール「localllm」を組み合わせることで、GPUを使わずに、LLM(大規模言語モデル)ベースのAIアプリケーションを開発する方法を公式ブログで紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Google Cloudは2024年2月7日(米国時間)、Google Cloudのフルマネージド開発環境「Cloud Workstation」や「クオンタイズドモデル(量子化されたモデル)」と新しいオープンソースツール「localllm」といった一般に利用可能なリソースを組み合わせることで、GPUを使わずに、LLM(大規模言語モデル)ベースのAI(人工知能)アプリケーションを開発する方法を公式ブログで紹介した。
Google Cloudは、「AIを取り巻く環境は変化が速く、開発者は、LLMベースのAIアプリケーションを開発する際にさまざまな課題に直面する。特に、これまでLLMの実行に必要とされてきたGPUの不足は、大きなハードルとなっている」との認識を示す。
Google Cloudが紹介した開発方法では、Cloud Workstation内のローカルなCPUとメモリでLLMのパワーを活用できる。ブログ記事では、Hugging Faceの「TheBloke」リポジトリから入手できるLLMを用いて、この方法の手順を説明している。このLLMは、LLMをCPUや非力なGPUで実行できるようにするための「クオンタイゼーション」(量子化)という手法と互換性がある。
この革新的なアプローチにより、GPUが不要になるだけでなく、シームレスで効率的なアプリケーション開発の可能性が広がると、Google Cloudは述べている。
Google Cloudは、Cloud Workstation、クオンタイズドモデル、localllmを組み合わせる開発方法の特徴を、以下のように説明している。
クオンタイズドモデルとは、計算リソースが限られたローカルデバイスでの実行に最適化されたAIモデルを指す。メモリとCPUをより効率的に使用するように設計されており、スマートフォンやノートPC、その他のエッジデバイスなどでスムーズに実行できる。クオンタイズドモデルは以下のようなメリットをもたらす。
クオンタイズドモデルは、標準的な32bit浮動小数点数ではなく、8bit整数などの低精度のデータ型を使用して計算するように最適化されている。これにより、より高速な計算が可能になり、リソースの限られたデバイスでのパフォーマンスが向上する。
クオンタイゼーション技術は、AIモデルのメモリ要件の削減と、モデルサイズの縮小に役立つ。
クオンタイズドモデルは、精度低下とモデルサイズの縮小により、計算をより高速に実行でき、これは推論の高速化につながる。
こうしたクオンタイズドモデルとCloud Workstationを組み合わせることで、Cloud Workstationの柔軟性、スケーラビリティ、費用対効果を活用できる。
LLMベースのアプリケーション開発において、リモートサーバやクラウドベースのGPUインスタンスに依存する従来のアプローチでは、レイテンシ、セキュリティ上の懸念、サードパーティーサービスへの依存が生じる場合がある。
Cloud Workstation内でローカルにLLMを活用できるソリューションを利用すれば、パフォーマンス、セキュリティ、データ管理を損なうことなく、多くの恩恵が受けられる。
localllmは、コマンドラインユーティリティーでHugging Face上のクオンタイズドモデルに簡単にアクセスできるツールとライブラリのセットだ。
localllmのGitHubリポジトリでは、Google Cloud Workstation内で、LLMをCPUとメモリでローカルに実行するための包括的なフレームワークとツールを提供している。
localllmを使ってGPUへの依存をなくすことで、LLMの可能性を最大限に引き出してアプリケーション開発ニーズに役立てることができる。
localllmの特徴とメリットは以下の通り。
localllmにより、CPUとメモリでLLMを実行でき、希少なGPUリソースが不要になる。パフォーマンスや生産性を損なうことなく、LLMをアプリケーション開発ワークフローに統合できる。
localllmにより、Google Cloudエコシステム内でLLMを直接使用できる。開発プロセスが効率化され、リモートサーバのセットアップや外部サービスへの依存に伴う複雑さが軽減される。
localllmを利用すれば、GPUプロビジョニングに関連するインフラコストを大幅に削減できる。Google Cloud環境内のCPUとメモリでLLMを実行できるため、リソース利用を最適化でき、コスト削減とROI(投資収益率)の向上につながる。
LLMをローカルのCPUとメモリで実行することで、機密データを管理下に置ける。これにより、データ転送やサードパーティーからのアクセスに関連するリスクを軽減できる。
localllmは、データストレージ、機械学習APIなど、さまざまなGoogle Cloudサービスと統合できるため、Google Cloudエコシステムをフル活用できる。
Google Cloudのブログ記事では、localllmとCloud Workstationをセットアップし、Hugging FaceのTheBlokeリポジトリからクオンタイズドモデルをダウンロードして、ローカルで実行して使用する手順が示されている。
Copyright © ITmedia, Inc. All Rights Reserved.