JetBrainsは、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデルを選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
JetBrainsは2025年3月24日(チェコ時間)、「JetBrains AI Assistant」がマルチモデルに対応し、開発者がタスクに応じて最適な大規模言語モデル(LLM)を選択できるようになったことを受け、OpenAI、Google、Anthropicの主要モデルのベンチマーク比較結果を公式ブログで紹介した。
JetBrains AI Assistantは、JetBrainsの各種IDE(統合開発環境)でAI(人工知能)コーディングアシスタントとして機能するプラグインだ。
JetBrainsは、JetBrains AI Assistantでモデルを適切に使い分けるのに役立つように、以下の指標でOpenAI、Google、AnthropicのLLMを比較した。
LLMが一定の試行回数以内にPythonのコーディング問題をどれだけうまく解決できるかを測定する。最大値100で、スコアが高いほどモデルの信頼性が高く、正しいコードを一度に生成できることを示す。
実際のユーザーからのフィードバックに基づいてLLMをランク付けする。現在最もダイナミックで実用的なAIベンチマークの一つ。数値が高いほど、投票ベースの直接比較において、モデルが一貫して他のモデルよりも優れていることを示す。
LLMが複数のプログラミング言語でコードを記述、修正する能力を、ソリューションが正しく実行されるかどうかをチェックすることで評価する。高いスコアは、LLMが複数のプログラミング言語でのコーディングにおいて非常に正確で信頼性が高く、さまざまな開発タスクに適していることを示す。
JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果は以下の通り。
LLM | コーディング性能 | 速度(TPS) | ハルシネーション率 | コンテキストウィンドウ |
---|---|---|---|---|
OpenAI | ||||
GPT-4o OpenAIの先進的で信頼性の高いGPTモデル。深い理解力と高速応答能力を持つ |
HumanEval+:87.2 ChatBot Arena: 1377 Aider: 27.1% |
53.20 ±15.57 | 1.5% | 128Kトークン |
GPT-4o mini GPT-4oの能力をコンパクトな低レイテンシ(遅延)のパッケージに凝縮した小型モデル |
HumanEval+:83.5 ChatBot Arena: 1283 Aider: 55.6% |
62.78 ±19.72 | 1.7% | 128Kトークン |
o1 複雑な推論を処理するために、強化学習でトレーニングされている。応答する前に思考し、論理的で構造化された回答を提供する |
HumanEval+:89 ChatBot Arena:1358 Aider:61.7% |
134.96 ±35.58 | 2.4% | 100Kトークン |
o1-mini 費用対効果の高い小型リーズニングモデル。o1モデルに近いコーディング性能を持つ |
HumanEval+:89 ChatBot Arena:1353 Aider:32.9% |
186.98 ±47.55 | 1.4% | 100Kトークン |
o3-mini 最新の小型リーズニングモデル。STEM(Science〈科学〉、Technology〈技術〉、Engineering〈工学〉、Mathematics〈数学〉)分野、特にコーディングに優れた性能を発揮する。o1-miniの低コストと速度を維持しつつ、o1モデルと同等のコーディング性能と高速応答を提供する |
HumanEval+: - ChatBot Arena:1353 Aider:60.4% |
155.01 ±45.11 | 0.8% | 100Kトークン |
Gemini 2.0 Flash 高速、低レイテンシモデル。動的なエージェント型体験に最適 |
HumanEval±ChatBot Arena:1356 Aider:22.2% |
103.89 ±23.60 | 0.7% | 1Mトークン |
Gemini 1.5 Flash 速度と効率を重視した軽量モデル。多くのタスクで大型モデルに匹敵する性能を提供する |
HumanEval+:75.6 ChatBot Arena:1254 Aider:- |
112.57 ±24.03 | 0.7% | 1Mトークン |
Gemini 1.5 Pro 大規模データを用いた深い推論向けの強力なモデル。10万行以上のコードを高度に理解し、複雑なマルチモーダルタスクに最適 |
HumanEval+:79.3 ChatBot Arena:1291 Aider:- |
45.47 ±7.78 | 0.8% | 1~2Mトークン |
Anthropic | ||||
Claude 3.7 Sonnet 速度と品質のバランスが取れた、Anthropicの最も高度なコーディングモデル。エージェントコーディング、深い問題解決、知的自動化に対応し、フルサイクルのソフトウェア開発に優れている |
HumanEval+:- ChatBot Arena:1364 Aider:64.9% |
46.43 ±7.35 | - | 200Kトークン |
Claude 3.5 Sonnet コーディング、コード移行、バグ修正、リファクタリング、翻訳など、多目的に対応する汎用(はんよう)モデル。エージェントワークフローをサポートし、深いコード理解と問題解決能力を持つ |
HumanEval+:- ChatBot Arena:1327 Aider:51.6% |
43.07 ±7.03 | 4.6% | 200Kトークン |
Claude 3.5 Haiku 高速で費用対効果の高いLLM。リアルタイムコーディング、チャットbot開発、データ抽出、コンテンツモデレーションに優れている |
HumanEval+:- ChatBot Arena:1263 Aider:28.0% |
42.90 ±6.83 | 4.9% | 200Kトークン |
JetBrains AI AssistantがサポートするLLMのベンチマーク比較結果(提供:JetBrains) |
JetBrainsは上の比較結果から、主要なカテゴリーで優れているモデルとして、以下を挙げている。
JetBrains AI Assistantがオフラインで動作する必要がある場合や、LLM APIプロバイダーとのコードの共有を避けたい場合は、ローカルモデルを使用できる。JetBrains AI Assistantは、ollamaとLM Studioを通じて提供されるローカルモデルをサポートしている。JetBrainsによると、現在最も強力なモデルは、「Qwen-2.5-Coder」と「Deepseek R1」だが、ハードウェアに適したサイズであれば、ollamaコレクションから任意のモデルを選択できるという。
Copyright © ITmedia, Inc. All Rights Reserved.
Smart & Social 記事ランキング