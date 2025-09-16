連載目次

Googleは2025年9月4日、新しい埋め込みモデル「EmbeddingGemma」（エンベディング・ジェマ）を発表した。このモデルは、特にスマートフォンやタブレット、ノートPC、デスクトップPCなどのオンデバイス（端末上）で動作させる目的で設計されており、軽量クラス（500M＝5億パラメーター未満）で最高レベルの性能を達成している。

EmbeddingGemmaは、「Gemma 3」モデルをベースとして作られた、オープンウェイト（＝学習済みの重みが公開されており誰でも利用できる）モデルだ。そのサイズは308M（＝3億800万）パラメーターと小さく、Gemma 3シリーズの中でも特に“軽量”なのが特徴である。例えばGemma 3で最大の27B（＝270億）パラメーターと比べると、98.9％も小さい。

これにより、インターネット接続がないオフライン環境でも、プライバシーを守りながら高品質なテキスト埋め込み（＝文章の意味を数値ベクトルに変換したもの）を生成できる。この埋め込みは主に意味に基づく情報検索で使われ、とりわけRAG（検索拡張生成）に不可欠だ。RAGとは、ユーザーの質問に関連する文書をまず検索し、その結果を基に生成AIが正確な回答を作る仕組みである。EmbeddingGemmaはこの最初の「検索」段階を支える役割を担い、回答全体の質に大きく影響を与える。

高品質な情報検索やRAGが全てデバイス内で完結するため、ユーザーデータを外部に送信せずに済み、プライバシーを守れる。さらに通信を介さないため、高速な応答が可能になるというメリットもある。

今回のリリース内容には、モデルの技術的詳細や、関連ツールとの連携など多くの情報が含まれていた。これらを丁寧に解説すると長くなるので、残りは以下に箇条書きでまとめておく。

その他の特徴

モデルの特徴

パラメーター数は合計308Mで、その内訳は「モデル部分が約100M」＋「埋め込み部分が約200M」

多言語に対応 ： 100以上の言語で学習しており、幅広い言語を扱える

： 100以上の言語で学習しており、幅広い言語を扱える 長い文章に対応 ： 2Kトークン（目安としておおよそ2000語程度をイメージするとよい）の入力コンテキストを持つため、それなりに長いテキストを処理できる

： 2Kトークン（目安としておおよそ2000語程度をイメージするとよい）の入力コンテキストを持つため、それなりに長いテキストを処理できる 高速な推論 ： GoogleのEdgeTPU（エッジデバイス向けのAI専用チップ）上では、256トークンの入力に対し15ミリ秒未満という高速な処理を実現

： GoogleのEdgeTPU（エッジデバイス向けのAI専用チップ）上では、256トークンの入力に対し15ミリ秒未満という高速な処理を実現 柔軟な出力サイズ ： MRL（Matryoshka Representation Learning）という技術により、1つのモデルから768次元の高品質なベクトルだけでなく、用途に応じて512、256、128次元のより小さなベクトルを切り出して利用できる（マトリョーシカ人形のように、必要に応じて中身を取り出すイメージ） これにより、開発者は「品質」と「速度」と「ストレージコスト」のバランスを自由に調整できる

： オンデバイス、かつオフラインに最適化された設計 : 量子化（モデルを軽量化する技術）を適用することで、200MB以下のRAM（作業用メモリ）でも動作可能 テキスト処理には「Gemma 3n」モデルと同じトークナイザ（文章を単語などの単位に分割するツール）を使用しており、RAGアプリケーションでのメモリ消費を抑える

: 豊富なツールとの連携 LangChain 、 LlamaIndex 、 Ollama 、 LM Studio 、 llama.cpp 、 MLX 、 LiteRT 、 Sentence Transformers 、 Transformers.js 、 Weaviate 、 Cloudflare など、コミュニティで人気の主要AI開発ツールに既に対応済みで、導入が容易



モデルの種類

以下の3種類のモデルが提供されている。なお、モデル名の「unquantized」は「量子化前の配布形式」を指すが、Ollamaなど多くのツールやコミュニティが量子化済みモデル（GGUF形式など）を提供しているため、ユーザー自身が変換する必要はほとんどない。また、モデル名の「300m」は「308M」を分かりやすく丸めた表記である。

用途に応じた埋め込みモデルの使い分け

Googleには「Gemini Embedding」という埋め込みモデルが既に存在するので、これとの使い分け指針も示されている。

オンデバイス、オフラインでの利用 ： プライバシー、速度、効率が重視される場面では EmbeddingGemma が最適

： プライバシー、速度、効率が重視される場面では が最適 大規模なサーバサイドでの利用： 最高の品質と性能が求められる場合は、Gemini API経由で利用できるGemini Embeddingモデルを推奨

オフラインで動作する軽量の埋め込みモデル「EmbeddingGemma」の登場で、ローカルLLMの活用範囲がさらに拡大した。今後、エッジAI環境でもRAGや情報検索がどこまで普及するかに注目したい。

