Googleは、Gemma 3をベースとした新翻訳モデル「TranslateGemma」を発表した。4B、12B、27Bのパラメーターサイズで提供される。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2026年1月15日(米国時間)、軽量大規模言語モデル「Gemma 3」をベースに構築された新しいオープン翻訳モデル群「TranslateGemma」を発表した。55言語をサポートし、4B(40億)、12B(120億)、27B(270億)の3つのパラメーターサイズで利用可能。
ベンチマークデータセット「WMT24++」を用いた評価指標「MetricX」による測定で、TranslateGemmaの12Bモデルは、Gemma 3の27Bベースラインのパフォーマンスを上回った。ベースモデルの半分以下のパラメーターで高い翻訳品質を確保できるため、精度を犠牲にすることなく、スループットの向上とレイテンシの低減を可能にするという。
なお55言語を含むWMT24++を用いてTranslateGemmaをテストした結果、全ての言語においてベースになったGemmaモデルと比較してエラー率を大幅に低減し、効率性を高めつつ、同時に品質を向上させたという。
Googleでは今回、TranslateGemmaの各モデルを開発するに当たり、「Gemini」の知識を蒸留するためのファインチューニングを2段階で実施している。
第1段階は教師ありファインチューニングで、基本となるGemma 3モデルに対して多様な並列データセットを用いた。このデータセットには、人間が翻訳したテキストと、最先端のGeminiモデルによって生成された高品質な合成翻訳が豊富に含まれているという。
第2段階では、翻訳品質をさらに洗練させるために、新しく強化学習フェーズが実装された。ここでは「MetricX-QE」「AutoMQM」といった高度な指標を含む報酬モデルの組み合わせを採用することで、モデルが、より文脈に即した自然な翻訳を生成するようにしている。
TranslateGemmaは、スペイン語、フランス語、中国語、ヒンディー語などの主要言語に加え、リソースの少ない多様な言語を含む55言語の組み合わせでトレーニングと評価が行われ、信頼性と品質を向上させているという。これらの中核言語以外にも、約500の追加言語ペアでのトレーニングによってさらに能力を拡張している。
TranslateGemmaモデルは、Gemma 3のマルチモーダル機能を引き継いでいる。Vistraの画像翻訳ベンチマークを使ったテストによると、TranslateGemmaの学習プロセスではマルチモーダルに特化したファインチューニングをしていないにもかかわらず、テキスト翻訳能力の向上が画像内テキストの翻訳能力にもプラスの影響を与えていることが確認できたという。
なおTranslateGemmaは、ユーザーの多様なニーズに応えるために以下の3つのモデルサイズが用意されている。
現在TranslateGemmaのテクニカルレポートが公開されている他、「Kaggle」「Hugging Face」でのダウンロード、「Gemma Cookbook」を通じた調査・学習、「Vertex AI」でのデプロイが可能になっている。
NVIDIA、オープン世界基盤モデルやマルチモーダルRAGなどを発表
Google Meetが音声同時通訳に対応 話者の声に似た音声でほぼリアルタイム翻訳が可能に
ローカルLLMって何? メリット、デメリット、活用例を分かりやすく解説Copyright © ITmedia, Inc. All Rights Reserved.