JetBrainsがOpenAI、Google、Anthropicの11モデルをベンチマーク比較 速度や知能別で優れたモデルを紹介「JetBrains AI Assistant」がマルチモデルに対応

JetBrainsは、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデルを選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。

» 2025年03月27日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 JetBrainsは2025年3月24日(チェコ時間)、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデル(LLM)を選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。

 JetBrains AI Assistantは、JetBrainsの各種IDE(統合開発環境)でAI(人工知能)コーディングアシスタントとして機能するプラグインだ。

評価指標

 JetBrainsは、JetBrains AI Assistantでモデルを適切に使い分けるのに役立つように、以下の指標でOpenAI、Google、AnthropicのLLMを比較した。

  • 速度:モデルが応答を生成する速さ。迅速な応答が求められるタスクでは、速度が重要な要素になる。JetBrainsはこのモデル比較で速度の指標として、1秒当たりのトークン数(TPS)を使用した
  • ハルシネーション(幻覚)率:モデルが不正確な回答や誤解を招く回答を生成する傾向。低いほど信頼性が高い
  • コンテキストウィンドウサイズ:モデルが一度に処理できるコード量を規定する。このサイズが大きいほど、AIは一度に多くのことを“記憶”でき、複雑なプロジェクトにより適している
  • コーディング性能:モデルのコーディングタスク処理能力。JetBrainsはこのモデル比較で、以下のベンチマークを使用した

HumanEval+

 LLMが一定の試行回数以内にPythonのコーディング問題をどれだけうまく解決できるかを測定する。最大値100で、スコアが高いほどモデルの信頼性が高く、正しいコードを一度に生成できることを示す。

ChatBot Arena

 実際のユーザーからのフィードバックに基づいてLLMをランク付けする。現在最もダイナミックで実用的なAIベンチマークの一つ。数値が高いほど、投票ベースの直接比較において、モデルが一貫して他のモデルよりも優れていることを示す。

Aider Polyglot

 LLMが複数のプログラミング言語でコードを記述、修正する能力を、ソリューションが正しく実行されるかどうかをチェックすることで評価する。高いスコアは、LLMが複数のプログラミング言語でのコーディングにおいて非常に正確で信頼性が高く、さまざまな開発タスクに適していることを示す。

LLMのベンチマーク比較結果

 JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果は以下の通り。

LLM コーディング性能 速度(TPS) ハルシネーション率 コンテキストウィンドウ
OpenAI
GPT-4o
OpenAIの先進的で信頼性の高いGPTモデル。深い理解力と高速応答能力を持つ
HumanEval+:87.2
ChatBot Arena: 1377
Aider: 27.1%
53.20 ±15.57 1.5% 128Kトークン
GPT-4o mini
GPT-4oの能力をコンパクトな低レイテンシ(遅延)のパッケージに凝縮した小型モデル
HumanEval+:83.5
ChatBot Arena: 1283
Aider: 55.6%
62.78 ±19.72 1.7% 128Kトークン
o1
複雑な推論を処理するために、強化学習でトレーニングされている。応答する前に思考し、論理的で構造化された回答を提供する
HumanEval+:89
ChatBot Arena:1358
Aider:61.7%
134.96 ±35.58 2.4% 100Kトークン
o1-mini
費用対効果の高い小型リーズニングモデル。o1モデルに近いコーディング性能を持つ
HumanEval+:89
ChatBot Arena:1353
Aider:32.9%
186.98 ±47.55 1.4% 100Kトークン
o3-mini
最新の小型リーズニングモデル。STEM(Science〈科学〉、Technology〈技術〉、Engineering〈工学〉、Mathematics〈数学〉)分野、特にコーディングに優れた性能を発揮する。o1-miniの低コストと速度を維持しつつ、o1モデルと同等のコーディング性能と高速応答を提供する
HumanEval+: -
ChatBot Arena:1353
Aider:60.4%
155.01 ±45.11 0.8% 100Kトークン
Google
Gemini 2.0 Flash
高速、低レイテンシモデル。動的なエージェント型体験に最適
HumanEval±ChatBot Arena:1356
Aider:22.2%
103.89 ±23.60 0.7% 1Mトークン
Gemini 1.5 Flash
速度と効率を重視した軽量モデル。多くのタスクで大型モデルに匹敵する性能を提供する
HumanEval+:75.6
ChatBot Arena:1254
Aider:-
112.57 ±24.03 0.7% 1Mトークン
Gemini 1.5 Pro
大規模データを用いた深い推論向けの強力なモデル。10万行以上のコードを高度に理解し、複雑なマルチモーダルタスクに最適
HumanEval+:79.3
ChatBot Arena:1291
Aider:-
45.47 ±7.78 0.8% 1~2Mトークン
Anthropic
Claude 3.7 Sonnet
速度と品質のバランスが取れた、Anthropicの最も高度なコーディングモデル。エージェントコーディング、深い問題解決、知的自動化に対応し、フルサイクルのソフトウェア開発に優れている
HumanEval+:-
ChatBot Arena:1364
Aider:64.9%
46.43 ±7.35 - 200Kトークン
Claude 3.5 Sonnet
コーディング、コード移行、バグ修正、リファクタリング、翻訳など、多目的に対応する汎用(はんよう)モデル。エージェントワークフローをサポートし、深いコード理解と問題解決能力を持つ
HumanEval+:-
ChatBot Arena:1327
Aider:51.6%
43.07 ±7.03 4.6% 200Kトークン
Claude 3.5 Haiku
高速で費用対効果の高いLLM。リアルタイムコーディング、チャットbot開発、データ抽出、コンテンツモデレーションに優れている
HumanEval+:-
ChatBot Arena:1263
Aider:28.0%
42.90 ±6.83 4.9% 200Kトークン
JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果(提供:JetBrains)

主要なカテゴリーの優れたモデル

 JetBrainsは上の比較結果から、主要なカテゴリーで優れているモデルとして、以下を挙げている。

  • ハルシネーション率:Gemini 2.0 Flash
  • 速度:GPT-4o mini、Gemini 1.5 Flash、Gemini 2.0 Flash
  • 一般的な知能(非リースニングモデル):GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro
  • リーズニングと一般的な知能:Claude 3.7 Sonnet、o1、o1-mini、o3-mini

ローカルモデルの使用

 JetBrains AI Assistantがオフラインで動作する必要がある場合や、LLM APIプロバイダーとのコードの共有を避けたい場合は、ローカルモデルを使用できる。JetBrains AI Assistantは、ollamaとLM Studioを通じて提供されるローカルモデルをサポートしている。JetBrainsによると、現在最も強力なモデルは、「Qwen-2.5-Coder」と「Deepseek R1」だが、ハードウェアに適したサイズであれば、ollamaコレクションから任意のモデルを選択できるという。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

Smart & Social 記事ランキング

本日月間

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。