AIモデル評価、「こっちの方がしっくりくる」でいいのか? GoogleがLLM評価ツールの試験運用を開始:複数AIモデルの性能を数値で比較
GoogleはLLM評価ツール「Stax」の試験運用版を発表した。感覚的な判断に頼ることなく、指標に基づいてLLMを評価できるという。
Googleは2025年8月27日(米国時間)、LLM(大規模言語モデル)の性能を再現性のある方法で評価できるツール「Stax」の試験運用版を公開したと発表した。AI(人工知能)アプリケーションの開発現場で頻発する「バイブテスト」(出力の質を感覚で判断する手法)から脱却し、客観的な指標に基づいた評価を可能にすることを目的としている。
出力の一貫性や事実性、簡潔さなどを機械的に確認できる
AIモデルは、同じ条件や入力を与えても、その時々で結果が変わる可能性がある。この性質を「非決定論的」と呼ぶ。こうした性質のために、従来のユニットテストでは改善効果を正確に把握しにくいという課題があった。Googleは、同社のAI研究部門Google DeepMindのLLM評価に関する知見と、実験的なプロトタイプ開発を担う部門Google Labsの先進的な試行を組み合わせ、LLMの評価を効率化するツールとしてStaxを開発した。
Staxでは、CSV形式で記述したテストケースをアップロードして利用できる他、独自データセットの作成も可能だ。事前構築済みの自動評価ツールを利用すれば、出力の一貫性や事実性、簡潔さなどを数分で確認できる。AIアプリケーション固有の要件に合わせたカスタム評価ツールを構築できる点も特徴だ。「チャットbotの語調がブランドガイドラインに沿っているかどうか」「AIアプリケーションが生成したコードが社内規約に準拠しているかどうか」といった判定を自動化できる。
評価手法は2つに分けられる。1つ目は人手による評価だ。この方法は信頼性が高い一方、手間と時間がかかる。2つ目は「LLM-as-a-judge」と呼ばれる自動評価手法だ。この方法は「Gemini」をはじめとするAIモデルに採点を委ねることで、大規模かつ一貫性のある評価を可能にする。
Googleは、「Staxを活用することで、LLMを活用した機能も、本番環境で稼働する他の機能と同じ水準で厳格にテストし、改善を重ねることができるようになる」と強調する。2025年9月4日時点で日本でのStax提供は予定されていないが、公式サイトによると、利用を希望する場合は、公式「Discord」チャンネルまたは専用フォームを通じてリクエストを送ることができる。
このニュースのポイント
Q: Googleが発表した「Stax」とは何か?
A: 大規模言語モデル(LLM)の性能を客観的かつ再現性のある方法で評価できる開発者向けツール。従来の感覚的な「バイブテスト」から脱却し、データに基づいた評価を実現する。
Q: 「Stax」の主な特徴は?
A: CSV形式でテストケースをアップロードでき、出力の一貫性や事実性、簡潔さなどを機械的に評価できる。用途に応じたカスタム評価ツールも作成可能で、チャットbotの語調や生成コードの規約順守などを判定できる。
Q: Staxの日本での提供状況は?
A: 2025年9月4日時点で日本での提供は予定されていないが、公式サイトやDiscordで利用希望を申請できる。
Copyright © ITmedia, Inc. All Rights Reserved.
本記事は制作段階でChatGPT等の生成系AIサービスを利用していますが、文責は編集部に帰属します。
関連記事
大規模言語モデル(LLM)の評価と比較のポイント
「ChatGPT」の急速な浸透に伴い大規模言語モデル(LLM)が急増し、それらを評価することが課題となっている。本稿ではLLMを評価、比較するための重要な要素と、LLMが自社にもたらす効果と推奨事項を紹介する。「コード化できない課題をLLMで解く」 LayerX松本氏が語る、AIエージェント時代のプロダクト開発の在り方、LLMを生かすための前提条件
2025年6月4〜5日に開催された@IT 開発変革セミナー 2025 Springの基調講演で、LayerX 代表取締役CTOの松本勇気氏が登壇。AIエージェント時代のプロダクト開発の在り方や、LLMを生かすための前提条件を講演で解説した。Datadogが「AIエージェントの意志決定プロセス」を可視化するツールを発表
DataDogは、「LLM Observability」の新機能を発表した。AIエージェントの動作全体を可視化するとともに、AIエージェントの管理を一元化するためのガバナンス体制の構築も支援するという。