生成AIの誤りを生成AIが見抜く、OpenAIの「CriticGPT」 その実力とは:「GPT-4」がベース、取り組みの成果や課題を明らかに
OpenAIは同社の「ChatGPT」における応答の誤りを発見する「CriticGPT」を発表した。生成AIが生成AIの誤りを見抜く意義や、構築方法を解説した。
OpenAIは2024年6月27日(米国時間)、同社の生成AI(人工知能)「ChatGPT」における応答の誤りを発見する「CriticGPT」を発表した。CriticGPTは、「GPT-4」をベースとするモデルで、ChatGPTが出力するコードの誤りを発見できるという。
OpenAIは「ChatGPTが生成したコードの人によるレビューにおいて、CriticGPTを使えば、使用しない場合よりも60%の確率でパフォーマンスが向上すると判明した。OpenAIはCriticGPTのようなモデルを私たちのRLHF(Reinforcement Learning from Human Feedback:人間のフィードバックによる強化学習)パイプラインに統合する作業を開始した。これは、AIの学習にAIのサポートを提供することを意味する」と述べている。
生成AIの誤りを生成AIが見抜く意義とは
OpenAIによると、RLHFの重要な部分はデータの収集だという。データは、AIトレーナーと呼ばれる人々がChatGPTの異なる応答を相互に比較して評価するタスクにより得られるものだ。
モデルの推論精度が進歩するにつれて、ChatGPTはより正確になり、応答の間違いはより曖昧になる。そのため、AIトレーナーは不正確な回答の発見が難しくなり、RLHFの原動力となる比較タスクがより難しくなる。
OpenAIは「RLHFという手法の限界であり、フィードバックを提供できる人間よりもモデルの方が徐々に知識が豊富になるにつれて、モデルの調整がますます難しくなる可能性がある」とした上で、この課題を解決するために、ChatGPTの回答の不正確さを強調するCriticGPTを構築したという。
「CriticGPTの提案は常に正しいわけではない。だが、AIの助けがない場合よりも、より多くの問題を発見できると分かった。CriticGPTを使用する際、AIは人々のスキルを補強し、その結果、人が単独で作業するときよりも包括的なレビューができ、モデルが単独で作業するときよりもハルシネーション(もっともらしい誤情報)が少なくなる。私たちの実験では、無作為に選ばれた第三者が、人間単独によるレビューよりも人間とCriticGPTによるレビューを60%以上の確率で好んでいる」と、OpenAIは述べている。
CriticGPTをどのように構築したのか
CriticGPTもChatGPTと同様にRLHFでトレーニングされた。ChatGPTとは異なり、CriticGPTは間違いを含む多くの入力を見て、それをレビューする過程を学習させる必要があった。
そこでAIトレーナーは、ChatGPTが書いたコードに手作業でバグを意図的に追加し、追加したバグを発見したかのようなサンプルデータを作成した。そして「コードのバグを発見した」とする複数の応答を比較することで、バグを本当に発見できているかどうかを簡単に見分けられるようにした。
実験では、AIトレーナーが意図的に追加したバグとChatGPTが自然に応答したバグの両方についてCriticGPTが発見できるかどうかを検証した。その結果、自然に発生したバグの発見に関して、AIトレーナーがChatGPTの応答よりもCriticGPTの応答を好む割合が63%に達していた。
OpenAIはその理由について、CriticGPTがChatGPTよりも「(役に立たない)こまごまとした指摘」を出さないことや、ハルシネーションを起こすことが少なかったためだったと分析している。
CriticGPTの課題
OpenAIは、CriticGPTにおける課題を次のように述べている。
- OpenAIはCriticGPTをChatGPTのかなり短い回答でトレーニングした。将来のエージェントを監督するためには、トレーナーが長くて複雑なタスクを理解できるような手法を開発する必要がある
- CriticGPTもハルシネーションを起こすことがある。AIトレーナーはラベリングミスをすることもある。
- 現実世界のミスは、回答の多くの部分でまたがっていることもある。私たちの研究は1カ所で指摘できるミスに焦点を当てているが、将来的には分散したミスにも取り組む必要がある
- タスクや回答が非常に複雑な場合、モデルの助けを借りた専門家でも正しく評価できないかもしれない
今後のステップ
複雑さが増すAIシステムを調整するために、より優れたツールが必要だ。GPT-4にRLHFを適用することで、AIトレーナーはGPT-4のためのより良い学習データを作成できる可能性があると、OpenAIは述べている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- RLHF(人間のフィードバックによる強化学習)とは?
用語「RLHF」について説明。人間のフィードバックを使ってAIモデルを強化学習する手法を指す。OpenAIのChatGPT/InstructGPTでは、人間の価値基準に沿うように、言語モデルをRLHFでファインチューニング(微調整)している。 - 生成AIをアプリケーション開発に活用する企業は、コストやハルシネーションの問題にどう取り組んでいるのか
Amazon Bedrockを早期導入した企業の担当者らが、クラウドのコスト管理からプロンプトの記述に至るまで、アプリケーション開発における生成AI活用のポイントを語った。 - ChatGPTやInstructGPTはなぜユーザーの意図に沿った返答を生成できるのか?
ChatGPTやその前身ともいえるInstructGPTは、GPTとは異なる目的を持ったモデルです。それ故にこれまでとは異なり、ユーザーの意図に沿ったテキストを生成できます。その違いを見てみましょう。