検索
ニュース

Google、GPUを使わずCPUだけで生成AIアプリを開発する方法を解説オープンソースツール「localllm」を利用

Google Cloudは、Google Cloudのフルマネージド開発環境「Cloud Workstation」や「クオンタイズドモデル(量子化されたモデル)」と、新しいオープンソースツール「localllm」を組み合わせることで、GPUを使わずに、LLM(大規模言語モデル)ベースのAIアプリケーションを開発する方法を公式ブログで紹介した。

Share
Tweet
LINE
Hatena

 Google Cloudは2024年2月7日(米国時間)、Google Cloudのフルマネージド開発環境「Cloud Workstation」や「クオンタイズドモデル(量子化されたモデル)」と新しいオープンソースツール「localllm」といった一般に利用可能なリソースを組み合わせることで、GPUを使わずに、LLM(大規模言語モデル)ベースのAI(人工知能)アプリケーションを開発する方法を公式ブログで紹介した。

 Google Cloudは、「AIを取り巻く環境は変化が速く、開発者は、LLMベースのAIアプリケーションを開発する際にさまざまな課題に直面する。特に、これまでLLMの実行に必要とされてきたGPUの不足は、大きなハードルとなっている」との認識を示す。

 Google Cloudが紹介した開発方法では、Cloud Workstation内のローカルなCPUとメモリでLLMのパワーを活用できる。ブログ記事では、Hugging Faceの「TheBloke」リポジトリから入手できるLLMを用いて、この方法の手順を説明している。このLLMは、LLMをCPUや非力なGPUで実行できるようにするための「クオンタイゼーション」(量子化)という手法と互換性がある。

 この革新的なアプローチにより、GPUが不要になるだけでなく、シームレスで効率的なアプリケーション開発の可能性が広がると、Google Cloudは述べている。

 Google Cloudは、Cloud Workstation、クオンタイズドモデル、localllmを組み合わせる開発方法の特徴を、以下のように説明している。

クオンタイズドモデルとCloud Workstationによる生産性向上

 クオンタイズドモデルとは、計算リソースが限られたローカルデバイスでの実行に最適化されたAIモデルを指す。メモリとCPUをより効率的に使用するように設計されており、スマートフォンやノートPC、その他のエッジデバイスなどでスムーズに実行できる。クオンタイズドモデルは以下のようなメリットをもたらす。

パフォーマンスの向上

 クオンタイズドモデルは、標準的な32bit浮動小数点数ではなく、8bit整数などの低精度のデータ型を使用して計算するように最適化されている。これにより、より高速な計算が可能になり、リソースの限られたデバイスでのパフォーマンスが向上する。

メモリフットプリントの削減

 クオンタイゼーション技術は、AIモデルのメモリ要件の削減と、モデルサイズの縮小に役立つ。

より高速な推論

 クオンタイズドモデルは、精度低下とモデルサイズの縮小により、計算をより高速に実行でき、これは推論の高速化につながる。

 こうしたクオンタイズドモデルとCloud Workstationを組み合わせることで、Cloud Workstationの柔軟性、スケーラビリティ、費用対効果を活用できる。

 LLMベースのアプリケーション開発において、リモートサーバやクラウドベースのGPUインスタンスに依存する従来のアプローチでは、レイテンシ、セキュリティ上の懸念、サードパーティーサービスへの依存が生じる場合がある。

 Cloud Workstation内でローカルにLLMを活用できるソリューションを利用すれば、パフォーマンス、セキュリティ、データ管理を損なうことなく、多くの恩恵が受けられる。

GPUを不要にするlocalllm

 localllmは、コマンドラインユーティリティーでHugging Face上のクオンタイズドモデルに簡単にアクセスできるツールとライブラリのセットだ。

 localllmのGitHubリポジトリでは、Google Cloud Workstation内で、LLMをCPUとメモリでローカルに実行するための包括的なフレームワークとツールを提供している。

 localllmを使ってGPUへの依存をなくすことで、LLMの可能性を最大限に引き出してアプリケーション開発ニーズに役立てることができる。

 localllmの特徴とメリットは以下の通り。

GPUなしでLLMを実行できる

 localllmにより、CPUとメモリでLLMを実行でき、希少なGPUリソースが不要になる。パフォーマンスや生産性を損なうことなく、LLMをアプリケーション開発ワークフローに統合できる。

生産性の向上

 localllmにより、Google Cloudエコシステム内でLLMを直接使用できる。開発プロセスが効率化され、リモートサーバのセットアップや外部サービスへの依存に伴う複雑さが軽減される。

コスト効率

 localllmを利用すれば、GPUプロビジョニングに関連するインフラコストを大幅に削減できる。Google Cloud環境内のCPUとメモリでLLMを実行できるため、リソース利用を最適化でき、コスト削減とROI(投資収益率)の向上につながる。

データセキュリティの向上

 LLMをローカルのCPUとメモリで実行することで、機密データを管理下に置ける。これにより、データ転送やサードパーティーからのアクセスに関連するリスクを軽減できる。

Google Cloudサービスとのシームレスな統合

 localllmは、データストレージ、機械学習APIなど、さまざまなGoogle Cloudサービスと統合できるため、Google Cloudエコシステムをフル活用できる。

 Google Cloudのブログ記事では、localllmとCloud Workstationをセットアップし、Hugging FaceのTheBlokeリポジトリからクオンタイズドモデルをダウンロードして、ローカルで実行して使用する手順が示されている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る