Sakana AI、LLMのトレーニングアルゴリズムをLLMに発見、実装させることに成功 今後のAI活用をどう変える?:選好最適化アルゴリズム「DiscoPOP」 オックスフォード大、ケンブリッジ大と協力
AIスタートアップのSakana AIは、LLMによって発見、記述された新しい選好最適化アルゴリズムである「DiscoPOP」を発表した。「DiscoPOPの研究は、AIの自己改良プロセスを実現するために最新のAIを利用するアプローチが大きな可能性を持つことを示している」と述べている。
日本のAI(人工知能)スタートアップ企業であるSakana AIは2024年6月13日、LLM(大規模言語モデル)によって発見され、記述された新しいSOTA(State-of-the-Art〈※1〉)選好最適化アルゴリズムである「DiscoPOP」を発表した。
Sakana AIは、オックスフォード大学、ケンブリッジ大学と協力し、DiscoPOPの成果をまとめた論文「Discovering Preference Optimization Algorithms with and for Large Language Models」(LLMによるLLMのための選好最適化アルゴリズムの発見〈※2〉)を発表した。また、この研究の発見プロセスを実行するためのコードベースを、GitHubとHuggingFaceでオープンソース化した。
※1 「現時点での最先端レベルの性能を達成している」ことを指す
※2 Discovered Preference Optimization:発見された選好最適化
Sakana AIは、DiscoPOPアルゴリズムを生み出した同社の手法を以下のように要約している。
- LLMにプロンプトとして最初のタスクと問題記述を与える。オプションとして、例または過去の評価と、記録されたパフォーマンスを加える
- LLMは新しい選好最適化アルゴリズムを提案し、そのコード実装を出力する
- そのアルゴリズムでモデルをトレーニングし、そのパフォーマンスを評価し、LLMにフィードバックを提供してコンテキストを更新し、アルゴリズムの改良を促す
- これらのプロセスを何世代も繰り返し、進化ループを実現する
- このループを通じて、LLMが高性能で新しい選好最適化目標を多数発見する
これらの中で最も優れたものがDiscoPOPと呼ばれる。
研究の背景、選好最適化の意義とLLMの進化
Sakana AIは、DiscoPOPの研究背景を次のように説明している。
Copyright © ITmedia, Inc. All Rights Reserved.