JetBrainsがOpenAI、Google、Anthropicの11モデルをベンチマーク比較 速度や知能別で優れたモデルを紹介:「JetBrains AI Assistant」がマルチモデルに対応
JetBrainsは、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデルを選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。
JetBrainsは2025年3月24日(チェコ時間)、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデル(LLM)を選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。
JetBrains AI Assistantは、JetBrainsの各種IDE(統合開発環境)でAI(人工知能)コーディングアシスタントとして機能するプラグインだ。
評価指標
JetBrainsは、JetBrains AI Assistantでモデルを適切に使い分けるのに役立つように、以下の指標でOpenAI、Google、AnthropicのLLMを比較した。
- 速度:モデルが応答を生成する速さ。迅速な応答が求められるタスクでは、速度が重要な要素になる。JetBrainsはこのモデル比較で速度の指標として、1秒当たりのトークン数(TPS)を使用した
- ハルシネーション(幻覚)率:モデルが不正確な回答や誤解を招く回答を生成する傾向。低いほど信頼性が高い
- コンテキストウィンドウサイズ:モデルが一度に処理できるコード量を規定する。このサイズが大きいほど、AIは一度に多くのことを“記憶”でき、複雑なプロジェクトにより適している
- コーディング性能:モデルのコーディングタスク処理能力。JetBrainsはこのモデル比較で、以下のベンチマークを使用した
HumanEval+
LLMが一定の試行回数以内にPythonのコーディング問題をどれだけうまく解決できるかを測定する。最大値100で、スコアが高いほどモデルの信頼性が高く、正しいコードを一度に生成できることを示す。
ChatBot Arena
実際のユーザーからのフィードバックに基づいてLLMをランク付けする。現在最もダイナミックで実用的なAIベンチマークの一つ。数値が高いほど、投票ベースの直接比較において、モデルが一貫して他のモデルよりも優れていることを示す。
Aider Polyglot
LLMが複数のプログラミング言語でコードを記述、修正する能力を、ソリューションが正しく実行されるかどうかをチェックすることで評価する。高いスコアは、LLMが複数のプログラミング言語でのコーディングにおいて非常に正確で信頼性が高く、さまざまな開発タスクに適していることを示す。
LLMのベンチマーク比較結果
JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果は以下の通り。
LLM | コーディング性能 | 速度(TPS) | ハルシネーション率 | コンテキストウィンドウ |
---|---|---|---|---|
OpenAI | ||||
GPT-4o OpenAIの先進的で信頼性の高いGPTモデル。深い理解力と高速応答能力を持つ |
HumanEval+:87.2 ChatBot Arena: 1377 Aider: 27.1% |
53.20 ±15.57 | 1.5% | 128Kトークン |
GPT-4o mini GPT-4oの能力をコンパクトな低レイテンシ(遅延)のパッケージに凝縮した小型モデル |
HumanEval+:83.5 ChatBot Arena: 1283 Aider: 55.6% |
62.78 ±19.72 | 1.7% | 128Kトークン |
o1 複雑な推論を処理するために、強化学習でトレーニングされている。応答する前に思考し、論理的で構造化された回答を提供する |
HumanEval+:89 ChatBot Arena:1358 Aider:61.7% |
134.96 ±35.58 | 2.4% | 100Kトークン |
o1-mini 費用対効果の高い小型リーズニングモデル。o1モデルに近いコーディング性能を持つ |
HumanEval+:89 ChatBot Arena:1353 Aider:32.9% |
186.98 ±47.55 | 1.4% | 100Kトークン |
o3-mini 最新の小型リーズニングモデル。STEM(Science〈科学〉、Technology〈技術〉、Engineering〈工学〉、Mathematics〈数学〉)分野、特にコーディングに優れた性能を発揮する。o1-miniの低コストと速度を維持しつつ、o1モデルと同等のコーディング性能と高速応答を提供する |
HumanEval+: - ChatBot Arena:1353 Aider:60.4% |
155.01 ±45.11 | 0.8% | 100Kトークン |
Gemini 2.0 Flash 高速、低レイテンシモデル。動的なエージェント型体験に最適 |
HumanEval±ChatBot Arena:1356 Aider:22.2% |
103.89 ±23.60 | 0.7% | 1Mトークン |
Gemini 1.5 Flash 速度と効率を重視した軽量モデル。多くのタスクで大型モデルに匹敵する性能を提供する |
HumanEval+:75.6 ChatBot Arena:1254 Aider:- |
112.57 ±24.03 | 0.7% | 1Mトークン |
Gemini 1.5 Pro 大規模データを用いた深い推論向けの強力なモデル。10万行以上のコードを高度に理解し、複雑なマルチモーダルタスクに最適 |
HumanEval+:79.3 ChatBot Arena:1291 Aider:- |
45.47 ±7.78 | 0.8% | 1〜2Mトークン |
Anthropic | ||||
Claude 3.7 Sonnet 速度と品質のバランスが取れた、Anthropicの最も高度なコーディングモデル。エージェントコーディング、深い問題解決、知的自動化に対応し、フルサイクルのソフトウェア開発に優れている |
HumanEval+:- ChatBot Arena:1364 Aider:64.9% |
46.43 ±7.35 | - | 200Kトークン |
Claude 3.5 Sonnet コーディング、コード移行、バグ修正、リファクタリング、翻訳など、多目的に対応する汎用(はんよう)モデル。エージェントワークフローをサポートし、深いコード理解と問題解決能力を持つ |
HumanEval+:- ChatBot Arena:1327 Aider:51.6% |
43.07 ±7.03 | 4.6% | 200Kトークン |
Claude 3.5 Haiku 高速で費用対効果の高いLLM。リアルタイムコーディング、チャットbot開発、データ抽出、コンテンツモデレーションに優れている |
HumanEval+:- ChatBot Arena:1263 Aider:28.0% |
42.90 ±6.83 | 4.9% | 200Kトークン |
JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果(提供:JetBrains) |
主要なカテゴリーの優れたモデル
JetBrainsは上の比較結果から、主要なカテゴリーで優れているモデルとして、以下を挙げている。
- ハルシネーション率:Gemini 2.0 Flash
- 速度:GPT-4o mini、Gemini 1.5 Flash、Gemini 2.0 Flash
- 一般的な知能(非リースニングモデル):GPT-4o、Claude 3.5 Sonnet、Claude 3.5 Haiku、Gemini 1.5 Pro
- リーズニングと一般的な知能:Claude 3.7 Sonnet、o1、o1-mini、o3-mini
ローカルモデルの使用
JetBrains AI Assistantがオフラインで動作する必要がある場合や、LLM APIプロバイダーとのコードの共有を避けたい場合は、ローカルモデルを使用できる。JetBrains AI Assistantは、ollamaとLM Studioを通じて提供されるローカルモデルをサポートしている。JetBrainsによると、現在最も強力なモデルは、「Qwen-2.5-Coder」と「Deepseek R1」だが、ハードウェアに適したサイズであれば、ollamaコレクションから任意のモデルを選択できるという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
JetBrains、AIコーディングエージェント「Junie」を発表 開発者の何を代行する?
JetBrainsはAIコーディングエージェント「Junie」を発表した。ルーティンワークを任せたり、パートナーとして複雑な作業に共同で取り組んだりできる。JetBrains、コーディング特化で「速度と正確さに強み」をうたうLLM「Mellum」を発表 対応プログラミング言語は?
JetBrainsは、ソフトウェア開発者向けの独自の大規模言語モデル(LLM)「Mellum」を発表した。コード補完がさらに便利に、どう強化された? JetBrains IDEの2024.2 バージョン公開
JetBrainsは、同社が提供する各種IDE、AI Assistant機能などの2024.2バージョンをリリースした。本記事ではこのバージョンの更新内容を紹介する。