Googleは、同社のオープンAIモデルファミリー「Gemma 3」の量子化認識トレーニング(QAT)モデルを発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2025年4月18日(米国時間)、同社のオープンAI(人工知能)モデルファミリー「Gemma 3」の量子化認識トレーニング(QAT:Quantization-Aware Training)モデルを発表した。
2025年3月に発表されたGemma 3は、Googleの「Gemini 2.0」モデルと同じ研究および技術に基づいて構築された、軽量で高性能なオープンウェイトモデルファミリーだ。1B、4B、12B、27B(10億、40億、120億、270億)の4つのパラメーターサイズで提供されている。「NVIDIA H100」のようなハイエンドGPU上でネイティブのBFloat16(BF16)精度で動作する主要モデルとしての地位を確立している。
Gemma 3のQATモデルは、高品質を維持しながら、メモリ要件が大幅に抑えられている。QATにより、Gemma 3 27Bのような高性能モデルが、ローカル環境で「NVIDIA GeForce RTX 3090」のような消費者向けGPU上で実行可能になるという。
上のパフォーマンス比較では、BF16を使用しているが、大規模なモデルをデプロイ(展開)する場合、ハードウェア要件(GPU数など)を大幅に削減するために、パフォーマンスを犠牲にして、FP8(8bit)などの低精度フォーマットを使用することも多い。Gemma 3についても、手持ちのハードウェアで活用したいとの要望が多い。
そこで量子化の出番となる。AIモデルでは量子化により、モデルが保存し、応答を計算するために使用する数値(モデルのパラメーター)の精度が低下する。これは、使用する色数を減らして画像を圧縮するのと似ている。16bit(BF16)でパラメーターを表現する代わりに、より少ない8bit(INT8)や4bit(INT4)などで表現することが可能だ。
ただし、量子化は、パフォーマンスの低下を招くことが多い。そこでGoogleは品質を維持するために、QATを利用している。QATでは、モデルを完全にトレーニングした後に量子化するのではなく、量子化プロセスをトレーニングに組み込んでいる。QATは、トレーニング中に低精度演算をシミュレートすることで、トレーニング後のパフォーマンス低下を抑えた量子化により、精度を維持しながら、より小さく高速なモデルを実現する。
Googleは、INT4量子化により、モデルの読み込みに必要なVRAM(GPUメモリ)が、BF16を使用する場合と比べて以下のように減少するとしている。
Googleによると、QATにより、Gemma 3の強力なモデルが幅広い消費者向けハードウェアで実行できるようになった。
Googleは、開発者がこれらの新しいQATモデルを使い慣れたワークフローで利用できるようにした。Gemma 3のINT4 QATモデルとQ4_0(4bit)QATモデルは、Hugging FaceとKaggleで公開されている。以下のような人気の開発者ツールでシームレスに試せるようになっている。
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 鬮ォ�ェ陋滂ソス�ス�コ闕オ譁溷クキ�ケ譎「�ス�ウ驛「�ァ�ス�ュ驛「譎「�ス�ウ驛「�ァ�ス�ー