セキュリティリサーチャーの仕事もAIが代替? OpenAI、「自律型」脆弱性検出AIエージェント「Aardvark」発表:92%の脆弱性(既知/人為的導入によるもの)を特定
OpenAIは、同社の「GPT-5」ベースのセキュリティ脆弱性検出AIエージェント「Aardvark」を発表した。
OpenAIは2025年10月30日(米国時間)、同社の大規模言語モデル(LLM)「GPT-5」ベースのセキュリティ脆弱(ぜいじゃく)性検出AI(人工知能)エージェント「Aardvark」を発表した。
企業やオープンソースのコードベース全体で数万件もの新しい脆弱性が発見される中、セキュリティ従事者は、攻撃者よりも先に脆弱性を見つけて修正するという困難な課題に直面している。
Aardvarkは、ソースコードリポジトリを継続的に分析して脆弱性を特定し、悪用される可能性を評価する。その後、重大度を優先順位付けして対象を絞ったパッチを提案するAIエージェントだ。
Aardvarkは現在、プライベートβテスト段階にあり、OpenAIの一部のパートナーに提供されている。OpenAIは今後、提供範囲を拡大させる予定だ。
Aardvarkの仕組み
OpenAIによると、Aardvarkはファジングやソフトウェア構成分析(SCA)など従来のプログラム分析手法には依存しておらず、LLMを活用したリーズニングとツールを使用して、コードの動作を理解し、脆弱性を特定。コードの読み取り、分析、テストの作成と実行、ツールの使用などを通じて、人間のセキュリティリサーチャー(研究者)と同様のやり方でバグを探すという。
Aardvarkのワークフロー(Gitリポジトリから脅威モデリング、脆弱性検出、検証サンドボックス、Codexによるパッチ適用と再検証、パッチ提案、人間によるレビューを経たプルリクエストに至るまでのプロセスの流れ)(提供:OpenAI)
多段階のパイプライン
Aardvarkは、脆弱性を特定し、説明して修正するために、以下のような多段階のパイプラインを使用している。
分析
リポジトリ全体の分析から始めて、プロジェクトのセキュリティ目標と設計に関する理解を反映した脅威モデルを作成する。
コミットのスキャン
新しいコードがコミットされると、リポジトリ全体と脅威モデルに対するコミットレベルの変更を検査し、脆弱性をスキャンする。リポジトリが初めて接続された場合は、その履歴をスキャンして既存の問題を特定する。発見した脆弱性については段階的に説明し、人間によるレビューのためにコードに注釈を付ける。
検証
潜在的な脆弱性を特定すると、隔離されたサンドボックス環境内でその脆弱性をトリガーし、悪用される可能性を確認する。そして正確で高品質、かつ誤検知の少ない分析情報がユーザーに返されるようにするための手順を説明する。
パッチ適用
OpenAIのAIコーディングエージェント「Codex」と連携し、発見した脆弱性の修正をサポートする。Codexが生成し、Aardvarkがスキャンしたパッチを各検出結果に添付し、人間がレビューしてワンクリックで効率的に適用できる形で提供する。
Aardvarkはエンジニアと協力し、GitHub、Codex、既存のワークフローとも連携して、開発を遅延させることなく、明確で実用的な洞察を提供する。
「セキュリティ問題を重視して構築されているものの、OpenAIのテストでは、論理的な欠陥や不完全な修正、プライバシーの問題などのバグも発見する場合があることが分かっている」(OpenAI)
Aardvarkのインパクト
Aardvarkは既に数カ月にわたって稼働しており、OpenAIの社内コードベースと外部のα版パートナーのコードベースを対象に実行されてきた。OpenAI社内では重大な脆弱性を明らかにし、OpenAIの防御態勢に貢献している。パートナーも、複雑な条件下でのみ発生する問題の検出など、Aardvarkの分析能力による恩恵を受けているという。
ゴールデンリポジトリによるベンチマークで、Aardvarkは既知および人為的に導入された脆弱性の92%を特定している。
Aardvarkはオープンソースプロジェクトにも使用され、多数の脆弱性を発見しており、OpenAIはそれらを責任を持って公開している(その内、10件にはCVE〈Common Vulnerabilities and Exposures:共通脆弱性識別子〉が割り当てられている)。
「オープンソースソフトウェア(OSS)のエコシステムおよびサプライチェーンのセキュリティ向上に貢献するため、商用目的ではないオープンソースリポジトリを選定して無償のスキャンサービスを提供することも計画している」と、OpenAIは述べている。
AIによる脆弱性検出はGoogleも注力する分野(関連記事)となっており、「AIがコードを書き、AIが検査する」というソフトウェア開発ライフサイクルの変革は現実味を帯びている。
AIエージェントを活用する上で、自社の開発プロセスをどう変えていくか、AIエージェントを組み込む上でのコスト、誤検知の問題とどう向き合うかが、今後の焦点となりそうだ。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
Google DeepMind、脆弱性の根本原因を特定、修正するAIエージェント「CodeMender」を開発
Google DeepMindは、ソフトウェアの脆弱性の根本原因を特定し、コードを修正するAIエージェント「CodeMender」を公式ブログで紹介した。全てのソフトウェア開発者がコードベースをセキュアに保つために使用できるツールとして公開を目指すという。
ChatGPT、「Company knowledge」機能追加 SlackやGitHubなどから関連情報を抽出して回答を生成
回答には参照元を明示するので、情報の出所を確認できる。
視覚的設計からチャット統合、性能評価まで一気通貫で支援する「AgentKit」を公開 OpenAI
OpenAIは、AIエージェント開発を支援する包括的なツールセット「AgentKit」を発表した。複数エージェントの設計やチャットUI埋め込みを簡単にし、性能評価や強化学習で高品質なAI開発を実現するとしている。