「脱獄できてもバグと認めない」　OpenAIが新設バグ報奨プログラムで狙う“3つの急所”：従来のサイバーセキュリティでは足りない

OpenAIは、従来のサイバーセキュリティの枠組みでは捉え切れない、AI固有の安全性リスクや悪用リスクを対象とした新たなバグ報奨プログラム「Safety Bug Bounty」を開始した。

[＠IT] PC用表示関連情報

LINE

Hatena

　OpenAIは2026年3月25日（米国時間）、AIの悪用や安全性リスクの特定を目的とするバグバウンティ（報奨）プログラム「Safety Bug Bounty」を、バグバウンティ管理プラットフォーム「Bugcrowd」上で公開した。

　同プログラムは、既存の「Security Bug Bounty」を補完するものだ。セキュリティ脆弱（ぜいじゃく）性の基準を満たさない場合でも、AIの挙動として重大な悪用や安全上のリスクをもたらす問題を受け付ける。

　報告された内容は、OpenAIの安全・セキュリティバグバウンティチームがトリアージ（優先順位付け）を行い、内容に応じて「セキュリティ」と「セーフティ」の適切なプログラムに振り分けられる。

対象範囲は3カテゴリー

　本プログラムはAI固有の安全シナリオに特化しており、主に以下の3カテゴリーが対象とされる。

1．エージェント型AIのリスク（MCP連携を含む）

　攻撃者が入力したテキストによって、ユーザーのAIエージェント（「ChatGPT Atlas」「Codex」「Operator」など）を制御し、有害な操作の実行や機密情報の漏えいを引き起こす「サードパーティープロンプトインジェクション」が対象となる。MCP（Model Context Protocol）を介した連携も含まれる。なお、報告には50％以上の再現性が必要だ。

2．OpenAI独自情報の漏えい

　モデルの推論プロセスに関連する機密情報や、OpenAI独自の内部データが生成、露出してしまう脆弱性が対象となる。

3．アカウントとプラットフォームの整合性

　自動アクセス対策（アンチオートメーション）の回避、アカウント信頼シグナルの操作、アカウント制限や停止措置の回避など、プラットフォームの整合性を揺るがす問題が対象となる。

ジェイルブレークは対象外

　なお、ジェイルブレーク（脱獄）は本プログラムの対象外とされている。OpenAIは、バイオリスク（生物学的脅威）に関連する特定の問題などについては、別途「GPT-5」などの次世代モデルを対象とした非公開バグバウンティキャンペーンを定期的に実施している。

　参加を希望する研究者は、Bugcrowd上のSafety Bug Bountyプログラムから応募できる。

「脱獄できてもバグと認めない」　OpenAIが新設バグ報奨プログラムで狙う“3つの急所”：従来のサイバーセキュリティでは足りない

対象範囲は3カテゴリー

1．エージェント型AIのリスク（MCP連携を含む）

2．OpenAI独自情報の漏えい

3．アカウントとプラットフォームの整合性

ジェイルブレークは対象外

関連記事

関連リンク

Security & Trust 記事ランキング

「脱獄できてもバグと認めない」 OpenAIが新設バグ報奨プログラムで狙う“3つの急所”：従来のサイバーセキュリティでは足りない

対象範囲は3カテゴリー

1．エージェント型AIのリスク（MCP連携を含む）

2．OpenAI独自情報の漏えい

3．アカウントとプラットフォームの整合性

ジェイルブレークは対象外

関連記事

関連リンク

Security & Trust 記事ランキング

「脱獄できてもバグと認めない」　OpenAIが新設バグ報奨プログラムで狙う“3つの急所”：従来のサイバーセキュリティでは足りない