Android開発に強いLLMは？　Googleが公開、「Gemini 3.1 Pro」や「Claude Opus 4.6」の実力：評価対象はAndroid特有の開発タスク

Googleは、Android開発タスクにおけるLLMの性能を評価するベンチマーク「Android Bench」を公開した。GitHubで公開されているAndroidリポジトリから収集した実際の開発課題を基に構成されている。

[＠IT] PC用表示関連情報

LINE

Hatena

　Googleは2026年3月5日（米国時間）、モバイルOS「Android」の開発タスクにおける大規模言語モデル（LLM）の性能を評価するベンチマーク「Android Bench」を公開した。LLMを活用したAndroid開発の品質向上を目指し、モデル開発者に明確な評価基準を提供することが目的だ。

Android特有の開発タスクが評価対象

　Android Benchは、GitHubで公開されているAndroidリポジトリから収集した実際の開発課題を基に構成されている。評価対象には、次のようなAndroid特有の開発タスクが含まれる。

Androidリリース間の互換性問題の修正
ウェアラブル端末向けネットワーク処理
UIツールキット「Jetpack Compose」の最新バージョンへの移行

　各評価では、LLMにタスクで報告された問題を修正させ、その結果をユニットテストまたはインストルメンテーションテスト（実機上で動作するUIテスト）で検証する。この手法により、LLMが複雑なコードベースを理解し、依存関係を把握して日常的な開発課題を解決できるかどうかを測定する。

「Gemini 3.1 Pro Preview」や「Claude Opus 4.6」の初回評価

　初回リリースでは、エージェント型機能やツール使用は評価対象外とし、LLM単体のコード生成能力を測定した。評価の結果、LLMがタスクを正常に完了できた割合は16～72％だった。

　初回評価で最高スコアを記録したのは「Gemini 3.1 Pro Preview」で72.4％、次いで「Claude Opus 4.6」が66.6％だった。

　評価対象となったモデルは、Android統合開発環境「Android Studio」の最新安定版でAPIキーを使用することで試用できる。

Android Benchの初回LLMリーダーボード。Gemini 3.1 Pro Previewが72.4％で首位、Claude Opus 4.6が66.6％で続く（提供：Google）

評価の透明性の確保

　Googleは、評価手法、データセット、テストハーネス（テスト実行環境）をGitHubで公開している。

　公開ベンチマークでは、モデルがトレーニング中に評価タスクを学習してしまう「データ汚染」のリスクがある。これを防ぐため、Googleはエージェントの実行ログを手動でレビューし、トレーニングでの使用を抑制するための「カナリア文字列」（意図的に埋め込んだ検知用マーカー）を組み込むなどの対策を講じている。

　Googleは今後、データセットの完全性を維持しながら手法を進化させ、タスクの量と複雑さを拡大していく予定だとしている。

Android開発に強いLLMは？　Googleが公開、「Gemini 3.1 Pro」や「Claude Opus 4.6」の実力：評価対象はAndroid特有の開発タスク

Android特有の開発タスクが評価対象

「Gemini 3.1 Pro Preview」や「Claude Opus 4.6」の初回評価

評価の透明性の確保

関連記事

関連リンク

Coding Edge 記事ランキング

Android開発に強いLLMは？ Googleが公開、「Gemini 3.1 Pro」や「Claude Opus 4.6」の実力：評価対象はAndroid特有の開発タスク

Android特有の開発タスクが評価対象

「Gemini 3.1 Pro Preview」や「Claude Opus 4.6」の初回評価

評価の透明性の確保

関連記事

関連リンク

Coding Edge 記事ランキング

Android開発に強いLLMは？　Googleが公開、「Gemini 3.1 Pro」や「Claude Opus 4.6」の実力：評価対象はAndroid特有の開発タスク