Google、2400億の検証可能な統計データを接続させたオープンLLM「DataGemma」を発表：AIのハルシネーション軽減で有望な結果

Googleは、大規模言語モデル（LLM）のハルシネーションの課題に対処するために、現実世界の統計データに接続するよう設計されたオープンLLM「DataGemma」を発表した。

» 2024年09月19日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Googleは2024年9月12日（米国時間）、大規模言語モデル（LLM）のハルシネーション（幻覚）の課題に対処するため、同社の「Data Commons」に接続するよう設計された初のオープンLLM「DataGemma」を発表した。

　ハルシネーションは、LLMが不正確な情報に関して自信を持って提示する現象を指す。これは生成AI（人工知能）における重要な課題となっている。Googleは、検証可能な統計データでグラウンディング（接続）され、事実に関する複雑な推論が可能な、より信頼できるLLMを構築する研究を推進している。

ハルシネーション軽減のために、2400億の検証可能な統計データをどう使うのか

　DataGemmaは、Googleのオープンモデルファミリー「Gemma」にData Commonsを統合し、Gemmaの能力を拡張することを目指している。Gemmaは、GoogleのLLM「Gemini」の作成に使用されたものと同じ研究と技術に基づいて構築された、軽量で最先端のオープンモデルファミリーだ。

　Data Commonsは、国連（UN）、世界保健機関（WHO）、米国疾病対策予防センター（CDC）、各国の国勢調査局などの信頼できる組織から収集された公開統計情報のオープンソースリポジトリだ。数十万の統計変数にわたる2400億以上のデータポイントを含んでいる。

　Googleは、DataGemmaを使用した研究で、Data Commonsの知識を活用し、LLMの事実に関する正確性と推論を強化する以下の2つのアプローチを、多様なクエリセットで評価した。「世界で再生可能エネルギーの利用は増加しているか」「パキスタンの健康目標に対する進捗（しんちょく）はどのようなものか」といったものだ。

RIG（検索インターリーブ生成）：Data Commonsからデータを取得するための自然言語クエリを作成するようにLLMをトレーニングする
RAG（検索拡張生成）：Data Commonsから関連するデータテーブルを取得し、LLMのプロンプトを拡張するために使用する

有望な結果と今後の展開

　Googleは、RIGとRAGのアプローチを評価した結果、これらのアプローチにより数値的事実を処理する際のLLMの精度が、大幅に向上したと述べている。これは研究、意思決定、あるいは単なる好奇心からの実験など、さまざまなユースケースにおいて、ユーザーがハルシネーションを経験する回数が減ることを示唆するものだという。

　Googleは、これまでの作業を拡大し、厳格なテストでこれらのアプローチを洗練させ、最終的にこれらの強化機能を、GemmaモデルとGeminiモデルの両方に統合する方針を示している。DataGemmaは、研究者と開発者向けにHugging Faceで公開されており、当面は段階的かつ限定的なアクセスアプローチを採用するとしている。

生成AIのグラウンディング（Grounding）とは？
用語「グラウンディング」について説明。特定の知識や情報源（ナレッジベースなど）に基づいて言語モデルの生成内容を裏付けるプロセスのことで、チャットAIに独自の情報源を付与するRAG（検索拡張生成）という仕組みがその代表例。チャットAIがもっともらしいウソを答える問題（＝ハルシネーション）を減らせるといったメリットがある。
ハルシネーション（Hallucination）とは？
ハルシネーションとは、チャットAIなどが、もっともらしい誤情報（＝事実とは異なる内容や、文脈と無関係な内容）を生成することを指す。AIから返答を受け取った人間が「本当かどうか」の判断に困るという問題がある。この問題を回避する方法として、独自の情報源を付与するRAGや、Webアクセスを含める機能などがある。
RAG（Retrieval-Augmented Generation：検索拡張生成）とは？
用語「RAG」について説明。ChatGPTなどのチャットAIに独自の情報源を付与する仕組みのことで、具体的には言語モデルによるテキスト生成に特定の情報源（ナレッジベース）の検索を組み合わせること。これには、生成内容の正確さを向上させるメリットがある。