検索
ニュース

高度なAIでAIをテスト OpenAIが実践するAIモデルのレッドチーム演習とは人によるレッドチーム演習の4つのポイントも紹介

OpenAIはレッドチーム演習に関する2つの論文を公開した。安全で有益なAIの実現を支援するために、人とAIを使ったレッドチーム演習がどのように進歩しているかが説明されている。

Share
Tweet
LINE
Hatena

 OpenAIは2024年11月21日(米国時間)、生成AIを対象としたレッドチーム演習に関する2つの論文を公開した。同社は論文の概要について以下のように説明している。

OpenAIのレッドチーム演習のアプローチ 手動か、自動か、混合か?

 OpenAIでは、外部の専門家を雇用するなど、長年にわたりレッドチーム演習を実施してきた。初期のレッドチーム演習は、主に手動で実施しており、テストの実施は人間に頼っていた。

 レッドチーム演習の方法には、手動、自動、混合アプローチがあり、OpenAIではこれら3つ全てを使用している。新しいシステムの潜在的なリスクをテストするために、手動と自動の両方の方法で外部の専門家を雇っている。一方で、モデルの評価と、より安全なモデルへのトレーニングの両方において、強力なAI(人工知能)を使用してモデルの誤りの検出を強化できるとみている。

 人によるレッドチーム演習と自動化したレッドチーム演習について取り上げた論文の内容は下記の通り。

人によるレッドチーム演習 4つの重要なポイントとは

 OpenAI社外の人間による手動のレッドチーム演習では、テスト範囲の定義、レッドチームメンバーの選定、アクセスするモデルの決定、最終レポートのフォーマットの決定などが重要なポイントとなる。

1.目標と主なテスト領域から、レッドチームの構成を選択する

 さまざまなユースケースを想定して設計されたAIシステムには、多様な視点を持つ人々が参加し、複数の分野にまたがる徹底的なテストが必要だ。レッドチーム演習の前に脅威を分析し、予想されるモデルの能力、モデルで過去に観察された問題、潜在的な用途などの要素を考慮して、テスト対象の優先順位を決定する。

 OpenaAIのチームは、モデルの能力に関する知識に基づいて最初のテストの優先順位を設定する。その後外部のレッドチームが招かれ、重点分野を調整し、拡張する。これらの優先順位は、レッドチームの編成の指針となり、モデル固有のテストニーズを満たすものにする。

2.レッドチームがアクセスできるモデルまたはシステムのバージョンの決定

 理想的なアプローチはモデルの特定のニーズによって異なる。レッドチームはテスト期間中、モデルやシステムの複数バージョンをテストする。

3.インタフェース、指示、文書化ガイダンスを作成し、レッドチームに提供する

 レッドチーム演習における外部テスターと順調に連携していくために、テスターに対する明確な指示、適切なテストインタフェースおよび関係者が活用できるようなドキュメント化が必要となる。

4.データの統合と評価の作成

 レッドチーム演習後の重要なステップは、事例が既存のポリシーに該当するか、ポリシーに違反していないか、あるいは新しいポリシーや修正が必要かどうかを判断することだ。

 直近では、OpenAI o1ファミリーのモデル公開を準備するために、このアプローチを使用した。私たちは、ジェイルブレークに対する耐性、実世界の攻撃計画プロンプトに対する安全な処理、自然科学への安全な応用、そしてAIの研究開発能力のような広範なトピックについてモデルをテストする外部レッドチーム演習を設計した。

AIを使ったレッドチーム演習の自動化

 自動化されたレッドチーム演習は、AIモデルに悪質な行動をさせるさまざまなパターンを作り出すことを目的としている。多くの場合、安全性に関連する項目に特に重点を置いている。人によるレッドチーム演習とは対照的に、自動化された手法は、大規模な攻撃例を容易に生成できる。しかし、既知の攻撃手法を繰り返したり、斬新だが効果のない攻撃を生成したりすることが多いため、戦術的に多様な攻撃を生成させることに苦労している。

 われわれは研究の結果、より高度なAIを利用することで、自動化されたレッドチームの活動をさらに支援できることを公表した。具体的には、「攻撃者の目的を推察して生成する」「攻撃の成功を判断する」「攻撃の多様性を理解する」という3点において効果がある。

 例えば、「ChatGPT」が、許可されていない違法な助言を与えないことを確認する場合、OpenAIのAIモデル「GPT-4 Turbo」を使って「車を盗む方法」や「爆弾を作る方法」といった例を生成させることができる。そして別のレッドチームモデルを訓練して、ChatGPTからそうした助言を引き出すよう試みる。

 このとき、モデレーションモデルや、特定の違法な助言を狙ったルールベースの報酬、過去の攻撃とは異なる多様性を評価する報酬などを組み合わせて、レッドチームモデルを評価する。これにより、より多様かつ効果的な攻撃を生み出すことができ、AIモデルの安全性向上などにつなげられる。つまり、より高度なAIモデルを新しい方法で訓練し活用することで、安全性をさらに高められる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る