Google、2400億の検証可能な統計データを接続させたオープンLLM「DataGemma」を発表：AIのハルシネーション軽減で有望な結果

Googleは、大規模言語モデル（LLM）のハルシネーションの課題に対処するために、現実世界の統計データに接続するよう設計されたオープンLLM「DataGemma」を発表した。

[＠IT] PC用表示関連情報

LINE

Hatena

　Googleは2024年9月12日（米国時間）、大規模言語モデル（LLM）のハルシネーション（幻覚）の課題に対処するため、同社の「Data Commons」に接続するよう設計された初のオープンLLM「DataGemma」を発表した。

　ハルシネーションは、LLMが不正確な情報に関して自信を持って提示する現象を指す。これは生成AI（人工知能）における重要な課題となっている。Googleは、検証可能な統計データでグラウンディング（接続）され、事実に関する複雑な推論が可能な、より信頼できるLLMを構築する研究を推進している。

ハルシネーション軽減のために、2400億の検証可能な統計データをどう使うのか

　DataGemmaは、Googleのオープンモデルファミリー「Gemma」にData Commonsを統合し、Gemmaの能力を拡張することを目指している。Gemmaは、GoogleのLLM「Gemini」の作成に使用されたものと同じ研究と技術に基づいて構築された、軽量で最先端のオープンモデルファミリーだ。

　Data Commonsは、国連（UN）、世界保健機関（WHO）、米国疾病対策予防センター（CDC）、各国の国勢調査局などの信頼できる組織から収集された公開統計情報のオープンソースリポジトリだ。数十万の統計変数にわたる2400億以上のデータポイントを含んでいる。

　Googleは、DataGemmaを使用した研究で、Data Commonsの知識を活用し、LLMの事実に関する正確性と推論を強化する以下の2つのアプローチを、多様なクエリセットで評価した。「世界で再生可能エネルギーの利用は増加しているか」「パキスタンの健康目標に対する進捗（しんちょく）はどのようなものか」といったものだ。

RIG（検索インターリーブ生成）：Data Commonsからデータを取得するための自然言語クエリを作成するようにLLMをトレーニングする
RAG（検索拡張生成）：Data Commonsから関連するデータテーブルを取得し、LLMのプロンプトを拡張するために使用する

有望な結果と今後の展開

　Googleは、RIGとRAGのアプローチを評価した結果、これらのアプローチにより数値的事実を処理する際のLLMの精度が、大幅に向上したと述べている。これは研究、意思決定、あるいは単なる好奇心からの実験など、さまざまなユースケースにおいて、ユーザーがハルシネーションを経験する回数が減ることを示唆するものだという。

　Googleは、これまでの作業を拡大し、厳格なテストでこれらのアプローチを洗練させ、最終的にこれらの強化機能を、GemmaモデルとGeminiモデルの両方に統合する方針を示している。DataGemmaは、研究者と開発者向けにHugging Faceで公開されており、当面は段階的かつ限定的なアクセスアプローチを採用するとしている。

Google、2400億の検証可能な統計データを接続させたオープンLLM「DataGemma」を発表：AIのハルシネーション軽減で有望な結果

ハルシネーション軽減のために、2400億の検証可能な統計データをどう使うのか

有望な結果と今後の展開

関連記事

関連リンク

Smart & Social 記事ランキング