JetBrainsがOpenAI、Google、Anthropicの11モデルをベンチマーク比較　速度や知能別で優れたモデルを紹介：「JetBrains AI Assistant」がマルチモデルに対応

JetBrainsは、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデルを選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。

» 2025年03月27日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　JetBrainsは2025年3月24日（チェコ時間）、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデル（LLM）を選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。

　JetBrains AI Assistantは、JetBrainsの各種IDE（統合開発環境）でAI（人工知能）コーディングアシスタントとして機能するプラグインだ。

評価指標

　JetBrainsは、JetBrains AI Assistantでモデルを適切に使い分けるのに役立つように、以下の指標でOpenAI、Google、AnthropicのLLMを比較した。

速度：モデルが応答を生成する速さ。迅速な応答が求められるタスクでは、速度が重要な要素になる。JetBrainsはこのモデル比較で速度の指標として、1秒当たりのトークン数（TPS）を使用した
ハルシネーション（幻覚）率：モデルが不正確な回答や誤解を招く回答を生成する傾向。低いほど信頼性が高い
コンテキストウィンドウサイズ：モデルが一度に処理できるコード量を規定する。このサイズが大きいほど、AIは一度に多くのことを“記憶”でき、複雑なプロジェクトにより適している
コーディング性能：モデルのコーディングタスク処理能力。JetBrainsはこのモデル比較で、以下のベンチマークを使用した

HumanEval+

　LLMが一定の試行回数以内にPythonのコーディング問題をどれだけうまく解決できるかを測定する。最大値100で、スコアが高いほどモデルの信頼性が高く、正しいコードを一度に生成できることを示す。

ChatBot Arena

　実際のユーザーからのフィードバックに基づいてLLMをランク付けする。現在最もダイナミックで実用的なAIベンチマークの一つ。数値が高いほど、投票ベースの直接比較において、モデルが一貫して他のモデルよりも優れていることを示す。

Aider Polyglot

　LLMが複数のプログラミング言語でコードを記述、修正する能力を、ソリューションが正しく実行されるかどうかをチェックすることで評価する。高いスコアは、LLMが複数のプログラミング言語でのコーディングにおいて非常に正確で信頼性が高く、さまざまな開発タスクに適していることを示す。

LLMのベンチマーク比較結果

　JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果は以下の通り。


LLM	コーディング性能	速度（TPS）	ハルシネーション率	コンテキストウィンドウ
OpenAI
GPT-4o OpenAIの先進的で信頼性の高いGPTモデル。深い理解力と高速応答能力を持つ	HumanEval+:87.2 ChatBot Arena: 1377 Aider: 27.1%	53.20 ±15.57	1.5%	128Kトークン
GPT-4o mini GPT-4oの能力をコンパクトな低レイテンシ（遅延）のパッケージに凝縮した小型モデル	HumanEval+:83.5 ChatBot Arena: 1283 Aider: 55.6%	62.78 ±19.72	1.7%	128Kトークン
o1 複雑な推論を処理するために、強化学習でトレーニングされている。応答する前に思考し、論理的で構造化された回答を提供する	HumanEval+:89 ChatBot Arena：1358 Aider：61.7%	134.96 ±35.58	2.4%	100Kトークン
o1-mini 費用対効果の高い小型リーズニングモデル。o1モデルに近いコーディング性能を持つ	HumanEval+:89 ChatBot Arena：1353 Aider：32.9%	186.98 ±47.55	1.4%	100Kトークン
o3-mini 最新の小型リーズニングモデル。STEM（Science〈科学〉、Technology〈技術〉、Engineering〈工学〉、Mathematics〈数学〉）分野、特にコーディングに優れた性能を発揮する。o1-miniの低コストと速度を維持しつつ、o1モデルと同等のコーディング性能と高速応答を提供する	HumanEval+: - ChatBot Arena：1353 Aider：60.4%	155.01 ±45.11	0.8%	100Kトークン
Google
Gemini 2.0 Flash 高速、低レイテンシモデル。動的なエージェント型体験に最適	HumanEval±ChatBot Arena：1356 Aider：22.2%	103.89 ±23.60	0.7%	1Mトークン
Gemini 1.5 Flash 速度と効率を重視した軽量モデル。多くのタスクで大型モデルに匹敵する性能を提供する	HumanEval+：75.6 ChatBot Arena：1254 Aider：-	112.57 ±24.03	0.7%	1Mトークン
Gemini 1.5 Pro 大規模データを用いた深い推論向けの強力なモデル。10万行以上のコードを高度に理解し、複雑なマルチモーダルタスクに最適	HumanEval+：79.3 ChatBot Arena：1291 Aider：-	45.47 ±7.78	0.8%	1～2Mトークン
Anthropic
Claude 3.7 Sonnet 速度と品質のバランスが取れた、Anthropicの最も高度なコーディングモデル。エージェントコーディング、深い問題解決、知的自動化に対応し、フルサイクルのソフトウェア開発に優れている	HumanEval+：- ChatBot Arena：1364 Aider：64.9%	46.43 ±7.35	-	200Kトークン
Claude 3.5 Sonnet コーディング、コード移行、バグ修正、リファクタリング、翻訳など、多目的に対応する汎用（はんよう）モデル。エージェントワークフローをサポートし、深いコード理解と問題解決能力を持つ	HumanEval+：- ChatBot Arena：1327 Aider：51.6%	43.07 ±7.03	4.6%	200Kトークン
Claude 3.5 Haiku 高速で費用対効果の高いLLM。リアルタイムコーディング、チャットbot開発、データ抽出、コンテンツモデレーションに優れている	HumanEval+：- ChatBot Arena：1263 Aider：28.0%	42.90 ±6.83	4.9%	200Kトークン
JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果（提供：JetBrains）

主要なカテゴリーの優れたモデル

　JetBrainsは上の比較結果から、主要なカテゴリーで優れているモデルとして、以下を挙げている。

ハルシネーション率：Gemini 2.0 Flash
速度：GPT-4o mini、Gemini 1.5 Flash、Gemini 2.0 Flash
一般的な知能（非リースニングモデル）：GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro
リーズニングと一般的な知能：Claude 3.7 Sonnet、o1、o1-mini、o3-mini

ローカルモデルの使用

　JetBrains AI Assistantがオフラインで動作する必要がある場合や、LLM APIプロバイダーとのコードの共有を避けたい場合は、ローカルモデルを使用できる。JetBrains AI Assistantは、ollamaとLM Studioを通じて提供されるローカルモデルをサポートしている。JetBrainsによると、現在最も強力なモデルは、「Qwen-2.5-Coder」と「Deepseek R1」だが、ハードウェアに適したサイズであれば、ollamaコレクションから任意のモデルを選択できるという。