生成AIブームの反動？　「AIだけの脆弱性診断」を見限る企業が急増：全自動はやはりムリなのか

「AIに脆弱性診断を任せれば、人手不足を補いながら効率良くセキュリティを強化できる」。ソフトバンクをはじめ国内でも複数の企業がAIによる脆弱性診断サービスの立ち上げを発表する中、そんな期待を裏切る調査結果が明らかになった。

» 2026年06月29日 07時30分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　コンピュータ情報サイト「Infosecurity Magazine」は2026年6月25日（現地時間）、AIだけに任せる脆弱（ぜいじゃく）性スキャンへの信頼が急速に低下しているとする、セキュリティ企業Cobaltの新たな調査結果を報じた。

　AIを活用した脆弱性テストは、人手不足の解消や効率化の手段として期待されている。一方で、実際の運用では重大な脆弱性の見落としや、AIアプリケーション特有のリスクへの対応不足が課題となり、AIだけで検査を完結させる運用を見直す組織が増えている。AIだけで安全性を確保できるか、それとも人間との役割分担が必要か。今回の調査は、その議論が新たな段階に入ったことを示している。

「AIだけで十分」は幻想だった？　脆弱性診断で再評価される人間の役割

　Cobaltが公開した「State of Pentesting Report 2026」は、2025年と2026年に実施した2回の調査結果を比較したものだ。調査対象は約450人のサイバーセキュリティ専門家だ。

　同調査によると、AIだけに脆弱性テストを任せる組織の割合は、2025年の29％から2026年には9％へと低下した。一方で、人間がAIの分析結果を検証・補完するハイブリッド型を支持する回答は47％に達し、前年から22ポイント増加したという。

　さらに、AIによる自動化を低リスク環境に限定して利用する組織も47％となり、こちらも前年から22ポイント増えた。こうした結果は、自動化そのものが否定されているのではなく、「どこまでAIに任せるべきか」を見極める運用へ企業が移行しつつあることを示している。ではこの背景には何があるのか。

　背景にあるのは、AIだけでは重大な脆弱性を見落とすケースがあるためだ。調査では、回答者の78％が「完全自動のスキャンツールが重大な脆弱性を見逃した経験がある」と回答した。AIは広範囲を短時間で検査できる一方で、重大な脆弱性を検出できなければ、システムを安全だと誤認する危険性がある。

　AIは既知の脆弱性やSQLインジェクション、クロスサイトスクリプティング（XSS）のような典型的な問題の検出には優れる。一方で、認可制御の不備や権限昇格、業務ロジックの欠陥、複数の脆弱性を組み合わせる攻撃シナリオなど、文脈を理解しなければ発見できない問題は依然として人間の専門家が得意とする領域だ。こうした特性の違いが、ハイブリッド型への移行を後押ししている。

　CobaltのCISO（最高情報セキュリティ責任者）であるアンドリュー・オバディアール氏は、OpenAIやAnthropicなどが開発を進めるより高性能な次世代AI（Mythos級と呼ばれるようなツール）への期待は理解できるとしながらも「十分な人間の誘導がないアルゴリズムは、現在の自動スキャナー以上に偽陽性や、より深刻な偽陰性を生み出しやすい」と指摘した。

　偽陽性は存在しない問題を脆弱性として検出する誤判定であり、偽陰性は実際には存在する脆弱性を見逃す誤判定を指す。セキュリティの現場では、余計な対応が発生する偽陽性よりも、攻撃を受ける危険性を残したまま「安全」と判断してしまう偽陰性の方が深刻な問題とされる。

AIアプリ特有の脆弱性は従来ソフトの2.7倍　修復にも時間

　信頼低下の背景には、AIアプリケーションそのものが従来ソフトウェアとは異なるリスクを抱えていることも関係している。

　報告書によると、AIアプリケーションを対象としたペネトレーションテストでは、指摘事項の約3件に1件が高リスクに分類された。高リスクと判定された割合は、従来型ソフトウェアの約2.7倍だった。

　LLM（大規模言語モデル）を組み込んだアプリケーションでは、入力内容や出力結果だけでなくモデルや学習データ、業務ロジックが相互に影響し合う。そのため、通常の脆弱性スキャンでは把握しにくい文脈依存の問題が発生しやすい。

　修復状況にも課題が残る。調査時点で、LLM関連の脆弱性のうち修正済みは38％にとどまり、62％は未対応だった。これは資産クラス別で最も低い修復率となる。

　また、平均修復期間は19日から36日に延びた。Cobaltは、セキュリティチームが従来より複雑な脆弱性に取り組むようになったことが背景にあると分析している。AIアプリケーションでは、モデルやプロンプト、業務ロジックまで影響範囲が広がるケースが多く、修正に時間を要しやすいことも一因とみられる。

　オバディアール氏は「LLMの脆弱性はアプリケーションの文脈を深く理解しなければ発見できず、ツールだけでは把握できないケースがある」と説明した。そのため、自動化を得意な領域で活用しつつ、複雑な業務ロジックや設計上の欠陥は人間が検証する体制が重要になるとしている。

「AIか人間か」ではなく、役割分担が新たな課題に

　AI関連のインシデントを経験した組織では、最も多かったのがシャドーAI（44％）だった。続いて、データまたはモデルポイズニング（41％）、不適切な出力処理（41％）、サプライチェーンの脆弱性（35％）、プロンプトインジェクション（34％）が上位を占めた。

　AIの活用が広がるにつれ、管理外でAIサービスを利用するシャドーAIや、モデル自体を汚染する攻撃、AIが生成した出力の取り扱いを巡る問題など、従来とは異なるリスクが増えている。

　同調査ではセキュリティ専門家の60％が「より高度なLLM向けテスト能力が必要だ」と回答した。一方で、人間主導のレッドチーム活動を拡充する予定がある組織は42％にとどまった。AIだけに任せる運用への信頼は低下しているものの、人材や体制の整備はそれに追い付いていない現状が浮き彫りになった。

　AIは脆弱性診断を高速化し、より広い範囲を効率的に検査できる。一方で、今回の調査が示したのは、「AIか人間か」という二者択一ではなく、「どの判断をAIに委ね、どこを人間が担うべきか」という運用設計こそが重要になっているという現実だ。脆弱性管理の焦点は、完全自動化を目指す段階から、AIと人間それぞれの強みを生かした実践的なハイブリッド運用へと移り始めている。

「ランサムウェア」侵入手順を徹底解説　もう知ったかぶりからは卒業しよう
“ランサムウェア”と聞くと、ある日突然データが暗号化されると思いがちだ。しかし攻撃者は、そのはるか前から静かに侵入し、社内を調査し、重要データを探し出している。泥棒の犯行になぞらえながら、ランサムウェア攻撃の全体像を分かりやすく解説しよう。
パスキー神話崩壊　Google Password Managerの同期機能を狙う新攻撃手法
パスワードに代わる認証手段として普及が進むパスキー。しかし、研究者が公表した新たな攻撃手法は、その安全性を支える“別の仕組み”に着目していた。暗号技術そのものを破らず、Google Password Manager利用者の認証情報に到達する手法とは。
インシデント0件は良いニュースとは限らない？　報告の質をちょい上げするコツ
インシデント発生件数0件――多くの企業で「良いニュース」として受け止められる数字です。しかし、その結果を手放しで喜んでよいとは限りません。攻撃を防いだからゼロだったのか、そもそも見えていなかったのか。その違いは報告書からは見えません。見落としがちな“ゼロの意味”と、報告の質を高めるヒントを紹介します。
パッチ適用後も標的に？　32万台超のFortiGateを襲った「FortiBleed」の正体
FortiGateを狙った大規模な認証情報収集キャンペーンの存在が明らかになった。対象となった機器は32万台超。その中には比較的新しい更新プログラムが適用された装置も含まれていたという。攻撃者は何を狙い、どのように侵入経路を確保していたのか。
世界中のWebサーバが影響　Apacheが危険な脆弱性を一斉修正
Apache HTTP Serverに大規模な修正が入った。最新版ではHTTP/2処理をはじめ、プロキシやSSL、認証機能など広範囲に及ぶ脆弱性に対処している。サービス停止やメモリ破壊につながる恐れがある問題も含まれていたため急ぎ修正してほしい。