Google、GPUを使わずCPUだけで生成AIアプリを開発する方法を解説：オープンソースツール「localllm」を利用

Google Cloudは、Google Cloudのフルマネージド開発環境「Cloud Workstation」や「クオンタイズドモデル（量子化されたモデル）」と、新しいオープンソースツール「localllm」を組み合わせることで、GPUを使わずに、LLM（大規模言語モデル）ベースのAIアプリケーションを開発する方法を公式ブログで紹介した。

[＠IT] PC用表示関連情報

LINE

Hatena

　Google Cloudは2024年2月7日（米国時間）、Google Cloudのフルマネージド開発環境「Cloud Workstation」や「クオンタイズドモデル（量子化されたモデル）」と新しいオープンソースツール「localllm」といった一般に利用可能なリソースを組み合わせることで、GPUを使わずに、LLM（大規模言語モデル）ベースのAI（人工知能）アプリケーションを開発する方法を公式ブログで紹介した。

　Google Cloudは、「AIを取り巻く環境は変化が速く、開発者は、LLMベースのAIアプリケーションを開発する際にさまざまな課題に直面する。特に、これまでLLMの実行に必要とされてきたGPUの不足は、大きなハードルとなっている」との認識を示す。

　Google Cloudが紹介した開発方法では、Cloud Workstation内のローカルなCPUとメモリでLLMのパワーを活用できる。ブログ記事では、Hugging Faceの「TheBloke」リポジトリから入手できるLLMを用いて、この方法の手順を説明している。このLLMは、LLMをCPUや非力なGPUで実行できるようにするための「クオンタイゼーション」（量子化）という手法と互換性がある。

　この革新的なアプローチにより、GPUが不要になるだけでなく、シームレスで効率的なアプリケーション開発の可能性が広がると、Google Cloudは述べている。

　Google Cloudは、Cloud Workstation、クオンタイズドモデル、localllmを組み合わせる開発方法の特徴を、以下のように説明している。

クオンタイズドモデルとCloud Workstationによる生産性向上

　クオンタイズドモデルとは、計算リソースが限られたローカルデバイスでの実行に最適化されたAIモデルを指す。メモリとCPUをより効率的に使用するように設計されており、スマートフォンやノートPC、その他のエッジデバイスなどでスムーズに実行できる。クオンタイズドモデルは以下のようなメリットをもたらす。

パフォーマンスの向上

　クオンタイズドモデルは、標準的な32bit浮動小数点数ではなく、8bit整数などの低精度のデータ型を使用して計算するように最適化されている。これにより、より高速な計算が可能になり、リソースの限られたデバイスでのパフォーマンスが向上する。

メモリフットプリントの削減

　クオンタイゼーション技術は、AIモデルのメモリ要件の削減と、モデルサイズの縮小に役立つ。

より高速な推論

　クオンタイズドモデルは、精度低下とモデルサイズの縮小により、計算をより高速に実行でき、これは推論の高速化につながる。

　こうしたクオンタイズドモデルとCloud Workstationを組み合わせることで、Cloud Workstationの柔軟性、スケーラビリティ、費用対効果を活用できる。

　LLMベースのアプリケーション開発において、リモートサーバやクラウドベースのGPUインスタンスに依存する従来のアプローチでは、レイテンシ、セキュリティ上の懸念、サードパーティーサービスへの依存が生じる場合がある。

　Cloud Workstation内でローカルにLLMを活用できるソリューションを利用すれば、パフォーマンス、セキュリティ、データ管理を損なうことなく、多くの恩恵が受けられる。

GPUを不要にするlocalllm

　localllmは、コマンドラインユーティリティーでHugging Face上のクオンタイズドモデルに簡単にアクセスできるツールとライブラリのセットだ。

　localllmのGitHubリポジトリでは、Google Cloud Workstation内で、LLMをCPUとメモリでローカルに実行するための包括的なフレームワークとツールを提供している。

　localllmを使ってGPUへの依存をなくすことで、LLMの可能性を最大限に引き出してアプリケーション開発ニーズに役立てることができる。

　localllmの特徴とメリットは以下の通り。

GPUなしでLLMを実行できる

　localllmにより、CPUとメモリでLLMを実行でき、希少なGPUリソースが不要になる。パフォーマンスや生産性を損なうことなく、LLMをアプリケーション開発ワークフローに統合できる。

生産性の向上

　localllmにより、Google Cloudエコシステム内でLLMを直接使用できる。開発プロセスが効率化され、リモートサーバのセットアップや外部サービスへの依存に伴う複雑さが軽減される。

コスト効率

　localllmを利用すれば、GPUプロビジョニングに関連するインフラコストを大幅に削減できる。Google Cloud環境内のCPUとメモリでLLMを実行できるため、リソース利用を最適化でき、コスト削減とROI（投資収益率）の向上につながる。

データセキュリティの向上

　LLMをローカルのCPUとメモリで実行することで、機密データを管理下に置ける。これにより、データ転送やサードパーティーからのアクセスに関連するリスクを軽減できる。

Google Cloudサービスとのシームレスな統合

　localllmは、データストレージ、機械学習APIなど、さまざまなGoogle Cloudサービスと統合できるため、Google Cloudエコシステムをフル活用できる。

　Google Cloudのブログ記事では、localllmとCloud Workstationをセットアップし、Hugging FaceのTheBlokeリポジトリからクオンタイズドモデルをダウンロードして、ローカルで実行して使用する手順が示されている。