「脱獄できてもバグと認めない」　OpenAIが新設バグ報奨プログラムで狙う“3つの急所”：従来のサイバーセキュリティでは足りない

OpenAIは、従来のサイバーセキュリティの枠組みでは捉え切れない、AI固有の安全性リスクや悪用リスクを対象とした新たなバグ報奨プログラム「Safety Bug Bounty」を開始した。

» 2026年05月19日 13時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　OpenAIは2026年3月25日（米国時間）、AIの悪用や安全性リスクの特定を目的とするバグバウンティ（報奨）プログラム「Safety Bug Bounty」を、バグバウンティ管理プラットフォーム「Bugcrowd」上で公開した。

　同プログラムは、既存の「Security Bug Bounty」を補完するものだ。セキュリティ脆弱（ぜいじゃく）性の基準を満たさない場合でも、AIの挙動として重大な悪用や安全上のリスクをもたらす問題を受け付ける。

　報告された内容は、OpenAIの安全・セキュリティバグバウンティチームがトリアージ（優先順位付け）を行い、内容に応じて「セキュリティ」と「セーフティ」の適切なプログラムに振り分けられる。

対象範囲は3カテゴリー

　本プログラムはAI固有の安全シナリオに特化しており、主に以下の3カテゴリーが対象とされる。

1．エージェント型AIのリスク（MCP連携を含む）

　攻撃者が入力したテキストによって、ユーザーのAIエージェント（「ChatGPT Atlas」「Codex」「Operator」など）を制御し、有害な操作の実行や機密情報の漏えいを引き起こす「サードパーティープロンプトインジェクション」が対象となる。MCP（Model Context Protocol）を介した連携も含まれる。なお、報告には50％以上の再現性が必要だ。

2．OpenAI独自情報の漏えい

　モデルの推論プロセスに関連する機密情報や、OpenAI独自の内部データが生成、露出してしまう脆弱性が対象となる。

3．アカウントとプラットフォームの整合性

　自動アクセス対策（アンチオートメーション）の回避、アカウント信頼シグナルの操作、アカウント制限や停止措置の回避など、プラットフォームの整合性を揺るがす問題が対象となる。

ジェイルブレークは対象外

　なお、ジェイルブレーク（脱獄）は本プログラムの対象外とされている。OpenAIは、バイオリスク（生物学的脅威）に関連する特定の問題などについては、別途「GPT-5」などの次世代モデルを対象とした非公開バグバウンティキャンペーンを定期的に実施している。

　参加を希望する研究者は、Bugcrowd上のSafety Bug Bountyプログラムから応募できる。

ChatGPTを「AIへのプロンプトインジェクションは防げない」前提で守る方法　OpenAIが解説
OpenAIは、AIに対する「プロンプトインジェクション」攻撃をソーシャルエンジニアリングと同様の考え方で捉え直すことが重要だと解説している。
AIの「全承認スキップ」は危険、「はい」連打は面倒　Claude Codeで始まった折衷策
Anthropicは、「Claude Code」に「auto mode」機能を追加した。その仕組みと利用上の注意、利用方法を紹介する。
4分の1の生成AIアプリが“静かに事故る”　MCP時代の落とし穴をGartnerが指摘
AIエージェントの普及が進む中、その裏で見過ごされがちな異変が増え始めている。ガートナーは2028年までに、4分の1の企業向け生成AIが年間複数の軽微なインシデントに見舞われると予測した。利便性と引き換えに広がるリスクの正体と対策の勘所とは。
生成AIの普及でセキュリティリスクが深刻化　社内のセキュリティ意識向上が必須に
生成AIの普及による機密情報漏えいのリスクの拡大とともに攻撃も高度化しており、従来の対策では追い付かない状況だ。企業は、従業員の行動変容を促すセキュリティ文化の強化が急務である。
ChatGPTに脆弱性、会話内容や文書が外部サーバに伝達されるリスク
ChatGPTに脆弱性が見つかった。コード実行環境において、DNSを使った外部通信経路が成立し、入力テキストやファイル内容、要約結果などが選択的に抽出され、外部に送られる恐れがあるという。