検索
ニュース

AIモデル評価、「こっちの方がしっくりくる」でいいのか? GoogleがLLM評価ツールの試験運用を開始複数AIモデルの性能を数値で比較

GoogleはLLM評価ツール「Stax」の試験運用版を発表した。感覚的な判断に頼ることなく、指標に基づいてLLMを評価できるという。

Share
Tweet
LINE
Hatena

 Googleは2025年8月27日(米国時間)、LLM(大規模言語モデル)の性能を再現性のある方法で評価できるツール「Stax」の試験運用版を公開したと発表した。AI(人工知能)アプリケーションの開発現場で頻発する「バイブテスト」(出力の質を感覚で判断する手法)から脱却し、客観的な指標に基づいた評価を可能にすることを目的としている。

画像
Google開発者ブログ

出力の一貫性や事実性、簡潔さなどを機械的に確認できる

 AIモデルは、同じ条件や入力を与えても、その時々で結果が変わる可能性がある。この性質を「非決定論的」と呼ぶ。こうした性質のために、従来のユニットテストでは改善効果を正確に把握しにくいという課題があった。Googleは、同社のAI研究部門Google DeepMindのLLM評価に関する知見と、実験的なプロトタイプ開発を担う部門Google Labsの先進的な試行を組み合わせ、LLMの評価を効率化するツールとしてStaxを開発した。

 Staxでは、CSV形式で記述したテストケースをアップロードして利用できる他、独自データセットの作成も可能だ。事前構築済みの自動評価ツールを利用すれば、出力の一貫性や事実性、簡潔さなどを数分で確認できる。AIアプリケーション固有の要件に合わせたカスタム評価ツールを構築できる点も特徴だ。「チャットbotの語調がブランドガイドラインに沿っているかどうか」「AIアプリケーションが生成したコードが社内規約に準拠しているかどうか」といった判定を自動化できる。

画像
Staxの「Playground」画面。AIへの指示やユーザーからの入力を設定し、評価の元となるテストケースを作成する(提供:Google
画像
Staxの評価結果画面。各テストケースに対する評価スコアや平均遅延などが一覧で表示され、客観的な指標に基づいたLLMの性能比較を可能にする(提供:Google

 評価手法は2つに分けられる。1つ目は人手による評価だ。この方法は信頼性が高い一方、手間と時間がかかる。2つ目は「LLM-as-a-judge」と呼ばれる自動評価手法だ。この方法は「Gemini」をはじめとするAIモデルに採点を委ねることで、大規模かつ一貫性のある評価を可能にする。

 Googleは、「Staxを活用することで、LLMを活用した機能も、本番環境で稼働する他の機能と同じ水準で厳格にテストし、改善を重ねることができるようになる」と強調する。2025年9月4日時点で日本でのStax提供は予定されていないが、公式サイトによると、利用を希望する場合は、公式「Discord」チャンネルまたは専用フォームを通じてリクエストを送ることができる。

このニュースのポイント

Q: Googleが発表した「Stax」とは何か?

A: 大規模言語モデル(LLM)の性能を客観的かつ再現性のある方法で評価できる開発者向けツール。従来の感覚的な「バイブテスト」から脱却し、データに基づいた評価を実現する。

Q: 「Stax」の主な特徴は?

A: CSV形式でテストケースをアップロードでき、出力の一貫性や事実性、簡潔さなどを機械的に評価できる。用途に応じたカスタム評価ツールも作成可能で、チャットbotの語調や生成コードの規約順守などを判定できる。

Q: Staxの日本での提供状況は?

A: 2025年9月4日時点で日本での提供は予定されていないが、公式サイトやDiscordで利用希望を申請できる。

Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。

ページトップに戻る