Google、「Gemma 3」の量子化認識トレーニング(QAT)モデルを公開高品質を維持しながらメモリ要件を抑え、量子化のネックを緩和

Googleは、同社のオープンAIモデルファミリー「Gemma 3」の量子化認識トレーニング(QAT)モデルを発表した。

» 2025年04月23日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Googleは2025年4月18日(米国時間)、同社のオープンAI(人工知能)モデルファミリー「Gemma 3」の量子化認識トレーニング(QAT:Quantization-Aware Training)モデルを発表した。

 2025年3月に発表されたGemma 3は、Googleの「Gemini 2.0」モデルと同じ研究および技術に基づいて構築された、軽量で高性能なオープンウェイトモデルファミリーだ。1B、4B、12B、27B(10億、40億、120億、270億)の4つのパラメーターサイズで提供されている。「NVIDIA H100」のようなハイエンドGPU上でネイティブのBFloat16(BF16)精度で動作する主要モデルとしての地位を確立している。

 Gemma 3のQATモデルは、高品質を維持しながら、メモリ要件が大幅に抑えられている。QATにより、Gemma 3 27Bのような高性能モデルが、ローカル環境で「NVIDIA GeForce RTX 3090」のような消費者向けGPU上で実行可能になるという。

棒グラフは、Gemma 3のQATモデルと他のAIモデルを使用したチャットbotのパフォーマンススコア(Chatbot Arena Eloスコア)を示している。数値が大きいほどユーザーの評価が高い。棒グラフの下には各モデルのパラメーターサイズが記載されており、一番下のドット数は、各モデルをBF16データ型で実行するために必要なNVIDIA H100 GPUの推計数を示す(提供:Google)

QATモデルを投入した背景

 上のパフォーマンス比較では、BF16を使用しているが、大規模なモデルをデプロイ(展開)する場合、ハードウェア要件(GPU数など)を大幅に削減するために、パフォーマンスを犠牲にして、FP8(8bit)などの低精度フォーマットを使用することも多い。Gemma 3についても、手持ちのハードウェアで活用したいとの要望が多い。

 そこで量子化の出番となる。AIモデルでは量子化により、モデルが保存し、応答を計算するために使用する数値(モデルのパラメーター)の精度が低下する。これは、使用する色数を減らして画像を圧縮するのと似ている。16bit(BF16)でパラメーターを表現する代わりに、より少ない8bit(INT8)や4bit(INT4)などで表現することが可能だ。

 ただし、量子化は、パフォーマンスの低下を招くことが多い。そこでGoogleは品質を維持するために、QATを利用している。QATでは、モデルを完全にトレーニングした後に量子化するのではなく、量子化プロセスをトレーニングに組み込んでいる。QATは、トレーニング中に低精度演算をシミュレートすることで、トレーニング後のパフォーマンス低下を抑えた量子化により、精度を維持しながら、より小さく高速なモデルを実現する。

VRAMの大幅な節約

 Googleは、INT4量子化により、モデルの読み込みに必要なVRAM(GPUメモリ)が、BF16を使用する場合と比べて以下のように減少するとしている。

  • Gemma 3 27B:54GB(BF16)から14.1GB(INT4)に
  • Gemma 3 12B:24GB(BF16)から6.6GB(INT4)に
  • Gemma 3 4B:8GB(BF16)から2.6GB(INT4)に
  • Gemma 3 1B:2GB(BF16)から0.5GB(INT4)に
モデルウェイトの読み込みに必要なVRAM(提供:Google)

Gemma 3モデルがさまざまなデバイスで実行可能に

 Googleによると、QATにより、Gemma 3の強力なモデルが幅広い消費者向けハードウェアで実行できるようになった。

  • Gemma 3 27B(INT4 QAT):NVIDIA GeForce RTX 3090(24GB VRAM)搭載デスクトップまたは同等のカードでGemma 3の最大モデルを快適に読み込み、ローカルで実行可能
  • Gemma 3 12B (INT4 QAT):NVIDIA GeForce RTX 4060 Laptop GPU(8GB VRAM)などのノートPC GPUで効率的に実行でき、ポータブルマシンで強力なAI機能を利用できる
  • 小型モデル(4B、1B):リソースが限られたシステム(スマートフォンなど)でも利用しやすくなった

人気ツールとの容易な統合

 Googleは、開発者がこれらの新しいQATモデルを使い慣れたワークフローで利用できるようにした。Gemma 3のINT4 QATモデルとQ4_0(4bit)QATモデルは、Hugging FaceとKaggleで公開されている。以下のような人気の開発者ツールでシームレスに試せるようになっている。

  • Ollama:シンプルなコマンドでGemma 3 QATモデルを実行できる
  • LM Studio:直感的で使いやすいGUI(グラフィカルユーザーインタフェース)で、で、Gemma 3 QATモデルをデスクトップに簡単にダウンロードし、実行できる
  • MLX:Appleシリコン搭載のMac上で、Gemma 3 QATモデルの最適化された効率的な推論を利用できる
  • Gemma.cpp:Googleの専用C++実装。CPU上で直接、非常に効率的な推論を実行できる
  • llama.cpp:GGUF形式のGemma 3 QATモデルをネイティブにサポートしており、既存のワークフローに簡単に統合できる

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Smart & Social 鬮ォ�ェ陋滂ソス�ス�コ闕オ譁溷クキ�ケ譎「�ス�ウ驛「�ァ�ス�ュ驛「譎「�ス�ウ驛「�ァ�ス�ー

髫エ蟷「�ス�ャ髫エ魃会スス�・髫エ蟶キ�」�ッ闖ォ�」

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。