OpenAIは、従来のサイバーセキュリティの枠組みでは捉え切れない、AI固有の安全性リスクや悪用リスクを対象とした新たなバグ報奨プログラム「Safety Bug Bounty」を開始した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
OpenAIは2026年3月25日(米国時間)、AIの悪用や安全性リスクの特定を目的とするバグバウンティ(報奨)プログラム「Safety Bug Bounty」を、バグバウンティ管理プラットフォーム「Bugcrowd」上で公開した。
同プログラムは、既存の「Security Bug Bounty」を補完するものだ。セキュリティ脆弱(ぜいじゃく)性の基準を満たさない場合でも、AIの挙動として重大な悪用や安全上のリスクをもたらす問題を受け付ける。
報告された内容は、OpenAIの安全・セキュリティバグバウンティチームがトリアージ(優先順位付け)を行い、内容に応じて「セキュリティ」と「セーフティ」の適切なプログラムに振り分けられる。
本プログラムはAI固有の安全シナリオに特化しており、主に以下の3カテゴリーが対象とされる。
攻撃者が入力したテキストによって、ユーザーのAIエージェント(「ChatGPT Atlas」「Codex」「Operator」など)を制御し、有害な操作の実行や機密情報の漏えいを引き起こす「サードパーティープロンプトインジェクション」が対象となる。MCP(Model Context Protocol)を介した連携も含まれる。なお、報告には50%以上の再現性が必要だ。
モデルの推論プロセスに関連する機密情報や、OpenAI独自の内部データが生成、露出してしまう脆弱性が対象となる。
自動アクセス対策(アンチオートメーション)の回避、アカウント信頼シグナルの操作、アカウント制限や停止措置の回避など、プラットフォームの整合性を揺るがす問題が対象となる。
なお、ジェイルブレーク(脱獄)は本プログラムの対象外とされている。OpenAIは、バイオリスク(生物学的脅威)に関連する特定の問題などについては、別途「GPT-5」などの次世代モデルを対象とした非公開バグバウンティキャンペーンを定期的に実施している。
参加を希望する研究者は、Bugcrowd上のSafety Bug Bountyプログラムから応募できる。
ChatGPTを「AIへのプロンプトインジェクションは防げない」前提で守る方法 OpenAIが解説
AIの「全承認スキップ」は危険、「はい」連打は面倒 Claude Codeで始まった折衷策
4分の1の生成AIアプリが“静かに事故る” MCP時代の落とし穴をGartnerが指摘
生成AIの普及でセキュリティリスクが深刻化 社内のセキュリティ意識向上が必須に
ChatGPTに脆弱性、会話内容や文書が外部サーバに伝達されるリスクCopyright © ITmedia, Inc. All Rights Reserved.