オンデバイス(端末内)動作に最適化された埋め込みAIモデルが新登場。スマートフォンやPC上でネット接続なしに、プライバシーを守りつつ、手元の文書から高精度な文書検索やRAG(検索拡張生成)が実現できる。
Googleは2025年9月4日、新しい埋め込みモデル「EmbeddingGemma」(エンベディング・ジェマ)を発表した。このモデルは、特にスマートフォンやタブレット、ノートPC、デスクトップPCなどのオンデバイス(端末上)で動作させる目的で設計されており、軽量クラス(500M=5億パラメーター未満)で最高レベルの性能を達成している。
EmbeddingGemmaは、「Gemma 3」モデルをベースとして作られた、オープンウェイト(=学習済みの重みが公開されており誰でも利用できる)モデルだ。そのサイズは308M(=3億800万)パラメーターと小さく、Gemma 3シリーズの中でも特に“軽量”なのが特徴である。例えばGemma 3で最大の27B(=270億)パラメーターと比べると、98.9%も小さい。
これにより、インターネット接続がないオフライン環境でも、プライバシーを守りながら高品質なテキスト埋め込み(=文章の意味を数値ベクトルに変換したもの)を生成できる。この埋め込みは主に意味に基づく情報検索で使われ、とりわけRAG(検索拡張生成)に不可欠だ。RAGとは、ユーザーの質問に関連する文書をまず検索し、その結果を基に生成AIが正確な回答を作る仕組みである。EmbeddingGemmaはこの最初の「検索」段階を支える役割を担い、回答全体の質に大きく影響を与える。
高品質な情報検索やRAGが全てデバイス内で完結するため、ユーザーデータを外部に送信せずに済み、プライバシーを守れる。さらに通信を介さないため、高速な応答が可能になるというメリットもある。
Deep Insider編集長の一色です。こんにちは。
EmbeddingGemmaは、ローカルLLMで情報検索やRAGを構築しようとする開発者や企業にとって、注目のモデルだと思います。端末内で動作し(オンデバイス)、ネット接続がなくても使える(オフライン)という特徴は、やっぱり魅力的ですね。
私自身も、Kaggle(AI・データ分析の競技プラットフォーム)で実際に動かしてみましたが、Webブラウザから5分ほどで動かせたので、試すのはとても簡単でした。Kaggle登録者であれば、
のがお勧めです。他にも、
から利用できます。
今回のリリース内容には、モデルの技術的詳細や、関連ツールとの連携など多くの情報が含まれていた。これらを丁寧に解説すると長くなるので、残りは以下に箇条書きでまとめておく。
以下の3種類のモデルが提供されている。なお、モデル名の「unquantized」は「量子化前の配布形式」を指すが、Ollamaなど多くのツールやコミュニティが量子化済みモデル(GGUF形式など)を提供しているため、ユーザー自身が変換する必要はほとんどない。また、モデル名の「300m」は「308M」を分かりやすく丸めた表記である。
Googleには「Gemini Embedding」という埋め込みモデルが既に存在するので、これとの使い分け指針も示されている。
オフラインで動作する軽量の埋め込みモデル「EmbeddingGemma」の登場で、ローカルLLMの活用範囲がさらに拡大した。今後、エッジAI環境でもRAGや情報検索がどこまで普及するかに注目したい。
Copyright© Digital Advantage Corp. All Rights Reserved.