Claude Opus 4.6はサイバーセキュリティに関する能力も大きく向上している。Anthropicの発表によれば、Claudeはオープンソースソースソフトウェアから500件を超える脆弱性を発見したという。Claudeは何を試し、何を考え、どのようにして脆弱性を見つけたのだろう。そして悪用リスクにどう対処しているのか。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Anthropicは2026年2月5日、同社のAIモデル最新版であるClaude Opus 4.6のサイバーセキュリティ能力に関する技術ブログ記事を公開した。
LLMによるゼロデイ脆弱性の発見能力の評価と悪用リスクへの対策この記事は、Anthropicのレッドチームのサイト「red.anthropic.com」で公開された。LLMが既存のオープンソースプロジェクトから500件超の重大なゼロデイ(未公開・未修正の)脆弱(ぜいじゃく)性を発見した実例を示しつつ、これを防御側の道具としてClaudeを活用する視点から、発見・検証・報告のプロセスとそれを取り巻くリスクの評価、そしてLLM自体の悪用を防ぐ安全策までを論じている。
どうも。HPかわさきです。
レッドチームとは攻撃者の視点を持って何らかのシステムの弱点を洗い出す専門チームのことです。https://red.anthropic.comでは生成AIとサイバーセキュリティを絡めた多くの記事が公開されています。今回紹介する記事以外にも目を通しておくとよいかもしれませんね。
同日にリリースされたClaude Opus 4.6は、従来のモデルと比較してサイバーセキュリティ分野での能力が大幅に向上したとされていて、ブログでは「AIの防御的利用を加速させる時」とも述べられている。
Claude Opus 4.6の驚異的なところは、特定のタスクごとに必要なツールやスキャフォールディング(定型コードや環境の用意)、特別なプロンプトを用意せずとも、「out-of-the-box」の状態つまり標準的な環境だけで重大な脆弱性を発見できた点である。
過去に何度もファザー(大量のランダム入力でバグを探すツール)によるテストが行われ、何百万時間ものCPU時間が費やされてきたプロジェクトでClaude Opus 4.6を試したところ、何十年にもわたって見つけられていなかった重大な脆弱性が発見されたとのことである。Claude Opus 4.6がこのような脆弱性を発見する手法としては、以下が挙げられている。
元のブログ記事を読むと、この辺までは「Claude Opus 4.6」と書いてあります。が、先を読み進めていくと、脆弱性発見の具体例に関しては「Claude」としか書いていないことに気が付きました。本記事で紹介している取り組みは以前のバージョンから行われていて、2026年2月時点での最高到達地点がClaude Opus 4.6ということなのかもしれません。
そういうわけで、以下ではブログに合わせて基本的には「Claude」という表記を使うことにします。
では、Claudeはどのようにして脆弱性を発見したのだろうか。
この取り組みにおいて、AnthropicのチームはClaudeを仮想マシンに配置し、オープンソースプロジェクトの最新版を入手できるようにした。そして、標準的なユーティリティ(coreutilsと呼ばれるコマンド群、Pythonなど)と脆弱性分析ツール(デバッガやファザー)を与えたが、使い方に関する特別な指示などは与えなかった。つまり、Claudeの「素の能力」を直接テストした形である。
また、存在しないバグをClaudeがハルシネーションによって生み出すことがないよう、見つかったバグは全て報告の前に入念に検証された。さらに検証において焦点が当たったのはメモリ破壊の脆弱性である。これは、検証が比較的容易なためである。ただ、プログラムをクラッシュさせるバグが全て危険度の高い脆弱性というわけでもない。そのため、Claudeにはそれらを精査させ、重複するものは排除して、残ったものに優先度を設定させている。なお、最初に発見されたバグについては、Anthropic内のセキュリティ研究者が個々に検証し、手作業でパッチが記述された。だが、発見されるバグが増えるにつれて、検証とパッチの記述の助けとなるように外部のセキュリティ研究者を招聘したとのことだ。
Anthropicが意図していたのは、人間のメンテナによるバグレポートの取り扱いが大幅に楽になるようにすることだったので、偽陽性が低減されるようにバグの検出過程は最適化されている。同時に、バグが見つかった時点で確実に対処できるようにパッチの開発を自動化する取り組みも加速しているそうだ。
次に、Claudeが発見した脆弱性の実例を紹介する。
Anthropicのブログでは、GhostScriptとOpenSCについては、どちらもファジングと手動での分析で脆弱性が見つからなかった後にClaudeがどんな推論を行ったかに、CGIFについてはその脆弱性を検証するコードの作成に焦点が当てられている。
かいつまんで紹介すると次のようになる。まず、GhostScriptではファジングと手動解析がうまくいかなかった後、ClaudeはGitのコミット履歴を読み込んで、スタックの境界チェックを追加したコミットを見つけ、「ということは、ここには脆弱性があったということ。だから、このコードを使用しているところを手掛かりに境界チェックができていないところを探せばよい」と推論し、実際にそうした場所を見つけたのである。
GhostScriptの脆弱性を発見する際のClaudeの推論プロセスOpenSCもファジングと手動分析でうまくいかなかったのは同様だ。しかし、次に採ったアプローチはGhostScriptの場合とは異なっている。こちらでは「strrchr関数やstrcat関数はパストラバーサルやバッファオーバーフローを引き起こす可能性があるから、そうしたところを探そう」と考えて、脆弱性を発見した。
CGIFについては、Claudeはまず「このライブラリでは圧縮後のファイルサイズが圧縮前のファイルサイズよりも小さくなることを暗黙の前提としているが、これが悪用される可能性がある」ことに気付いた。そして、GIFの圧縮アルゴリズムを詳細に理解した上で、圧縮後のファイルサイズが圧縮前のものよりも大きくなるようにし、バッファオーバーフローを発生させる検証コードを記述したという。
Claudeによる脆弱性発見の能力をまとめるとこうだ。
これはClaudeが人間の研究者と同様な思考で、脆弱性を検出できるようになってきたということだ。だが、脆弱性を発見できるということは、攻撃者の側にとってもClaudeのようなLLMは武器になるということでもある。
Claude Opus 4.6のリリースに合わせて、AnthropicはClaudeの悪用を検知して、それに対処するための新たな仕組みを導入している。その中核となるのはプローブと呼ばれる「モデルが応答を生成する際に、モデル内の活性化を測定して、有害な内容を大規模に検出する」ための仕組みである。Claude Opus 4.6ではサイバーセキュリティに関してもその能力が飛躍的に高まったが、これはよい方向にも悪い方向にも使える。そこで、有害な内容を生成しているかどうかを判定するのに使えるプローブが6種類追加されたということだ。
そして、プローブベースの検出機構を活用するため、検出された際の対処ワークフローの更新や脆弱性の悪用への措置の拡大なども行われている。悪意があると見なされたトラフィックをブロックするようなリアルタイム介入も行われるかもしれないが、これについては、正当な研究や防御的な作業との兼ね合いもあり、セキュリティ研究者のコミュニティとの協議が必要になるだろう。
LLMの進化によって脆弱性発見までのスピードも大きく変わるかもしれません。ですが、それを悪用しようという側にもこれは大きな進歩です。単に「こうやって見つけたぞ」だけではなく、悪用を防ぐためにどうすればよいかまで、Anthropicは考えているということです。とはいえ、「これこれこうだから、こうすれば見つかるんじゃない?」と推論してホントに見つけちゃうってのはすごいですねぇ。しかも、人と違って疲れ知らずだし。LLMによる脆弱性発見がセキュリティ業界に大きな変革をもたらそうとしているのかもしれませんね。
Copyright© Digital Advantage Corp. All Rights Reserved.