Claude Opus 4.8は、性能向上だけでなく「正直さ」の改善が大きな特徴だ。本稿では、忖度(そんたく)しないAIがなぜ評価を分けているのか、公式情報と利用者目線から整理する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
AIモデルの進化は、もう「どちらが賢いか」だけでは語りにくくなっている。Claude Opus 4.8(米国時間で2026年5月28日に公開)を見ていると、特にそう感じる。前バージョンのClaude Opus 4.7を土台に、各種ベンチマーク(性能を測る共通テスト)は広く底上げされ、価格も据え置かれた。だが、その改善幅は、驚くほど大きな飛躍というより、Anthropic自身の言葉を借りれば「ささやかだが確かな改善」に近い。
では、今回のOpus 4.8で本当に見るべき点は何か。筆者は、生の性能よりも正直さ(honesty)の調整だと考えている。つまり、「できていないことをできたと言わない」「ユーザーに気に入られようと話を盛らない」「必要ならユーザーの前提にも反論する」という振る舞いである。その象徴が、下に示す「こび(媚び:Sycophancy)」のスコアだ。
モデル別の「こび(Sycophancy:求められていない過度な称賛や、悪いアイデアの肯定)」スコアこのグラフは、Anthropicのシステムカードに掲載された「正直さ」に関わる評価の一部である。Opus 4.8は、前世代のOpus 4.7よりもこびが少ない。ただし、Anthropicが最もアライメント(人間の意図との整合)が取れているモデルとして位置付ける限定モデル「Claude Mythos Preview」には一歩及ばない。つまり、「歴代で最もこびないClaude」ではなく、Opus 4.7よりも、ユーザーに安易に合わせる傾向が抑えられたモデルと見るのが正確である。
この「正直さ」は、他の評価にも表れている。Anthropicによれば、Opus 4.8は自分が書いたコードの欠陥を見逃す確率が前世代の約4分の1に減った。また、失敗を含むコーディング作業を要約させる評価では、重要な失敗をユーザーに伝え損ねる率が3.7%まで下がった(Mythos Previewの27.6%より大幅に低い!)。さらに、外部機関であるMeridianとUK AISIによる評価でも、Opus 4.8は一般公開モデルの中でほぼ全ての指標において最もアライメントが取れているように見えるとされた。
もちろん、通常の性能評価もおおむね良好である。コード修正能力を測る代表的なベンチマークSWE-Bench Proでは、Opus 4.8が69.2%を記録し、GPT-5.5の58.6%を上回った。一方で、ターミナル操作を含むTerminal-Bench 2.1では、Opus 4.8は74.6%で、GPT-5.5の78.2%には届かない(共通のハーネスの場合。GPT-5.5はCodex CLIハーネスだと83.4%)。
――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、今回の動きを手掛かりに技術の“今”をもう少し深く眺めてみたい。併せて後半では、Opus 4.8で何が変わったのかも整理する。
Deep Insider編集長の一色です。こんにちは。
リリース直後は「歴代最高」「感動レベル」と絶賛する声が多かった一方で、日がたつにつれ評価は割れてきた印象です。「ベンチマークほど体感は良くない」「むしろGPT-5.5やCodexの方が実用では強い場面がある」という声も目立つようになりました。正直なところ、最上位モデル同士の性能差はかなり詰まっており、どれが一番よいかは用途次第、というのが実情に近いのではないでしょうか。
そんな中で私が一番面白いと感じるのが、今回の“忖度(そんたく)しなくなった”という「正直」な性格です。例えば「この回答でいいですよね?」とユーザーが同意を促す場面で、AIによっては相手の顔を立てるように賛成へ流れてしまうことがあります。ところがOpus 4.8は、ユーザーに不利な点でも遠慮なく「いや、それは違う」と否定してくる。良くも悪くも、こびないのです。
ただし、この良さは、そのまま嫌われる原因にもなります。Opus 4.8が正直になった分だけ、「冷たい」「うっとうしい」「説教くさい」という感想も出ているからです。軽い相談やアイデア出しの最中に、いちいち「ただし」「不確実ですが」と止められると、確かに勢いは削がれます。以前のClaudeが「ノリのいい相棒」だったとすれば、Opus 4.8は「少し厳しめの同僚」になった感じでしょうか。私はこの方向性自体は嫌いではないのですが……。
実はこの傾向は、Anthropic公式のシステムカードにも記載されています。正式リリース前の試用フィードバックとして、「事実主張に対する過度な議論好き」「対話型のエージェント作業で不要な追加質問をして手を止める傾向」「なぜかユーザーに寝るよう促す奇妙な反復例」などが報告されています。私もここのところClaude Codeで開発していましたが、「そろそろキリがいいから、いったん終わりにして休め」といった趣旨のことは、確かに何度も言われましたね……。
ちなみに私自身は、Claudeアプリ上のClaude Codeで使っている限り、コーディング自体にはほとんど不満がありません。強いて気になる点を挙げるなら、回答が始まるまで数分、時にはそれ以上、何の表示もないまま待たされることがある点です。これはOpus 4.8そのものというよりClaudeアプリ側の仕様だと思いますが、ユーザーにとっては、モデル単体ではなくツール全体が「使い心地」です。こうした待ち時間や進行状況の分かりづらさも、Opus 4.8の印象を左右しているのではないかと感じています。
Claude Opus 4.8は、Anthropic公式APIのほか、GitHub Copilot、Cursor、Amazon Bedrock、Vertex AI、Microsoft Foundry、OpenRouterなどで利用できる。以下、公式ドキュメントを基に、今回のアップデートで特に注目したい変更点を整理していこう。
現時点では、基本単価は前バージョン(Opus 4.7)と同水準となっている。高速モードはOpus 4.6/4.7では入力30ドル・出力150ドルだったため、Opus 4.8で大幅に下がった。
※価格は変更される可能性があるため、利用の際はAnthropic公式ドキュメント「Pricing」を必ず確認してほしい。
Copyright© Digital Advantage Corp. All Rights Reserved.