Sakana AI、LLMのトレーニングアルゴリズムをLLMに発見、実装させることに成功　今後のAI活用をどう変える？：選好最適化アルゴリズム「DiscoPOP」オックスフォード大、ケンブリッジ大と協力

AIスタートアップのSakana AIは、LLMによって発見、記述された新しい選好最適化アルゴリズムである「DiscoPOP」を発表した。「DiscoPOPの研究は、AIの自己改良プロセスを実現するために最新のAIを利用するアプローチが大きな可能性を持つことを示している」と述べている。

[＠IT] PC用表示関連情報

LINE

Hatena

　日本のAI（人工知能）スタートアップ企業であるSakana AIは2024年6月13日、LLM（大規模言語モデル）によって発見され、記述された新しいSOTA（State-of-the-Art〈※1〉）選好最適化アルゴリズムである「DiscoPOP」を発表した。

　Sakana AIは、オックスフォード大学、ケンブリッジ大学と協力し、DiscoPOPの成果をまとめた論文「Discovering Preference Optimization Algorithms with and for Large Language Models」（LLMによるLLMのための選好最適化アルゴリズムの発見〈※2〉）を発表した。また、この研究の発見プロセスを実行するためのコードベースを、GitHubとHuggingFaceでオープンソース化した。

※1 「現時点での最先端レベルの性能を達成している」ことを指す
※2 Discovered Preference Optimization：発見された選好最適化

　Sakana AIは、DiscoPOPアルゴリズムを生み出した同社の手法を以下のように要約している。

LLMにプロンプトとして最初のタスクと問題記述を与える。オプションとして、例または過去の評価と、記録されたパフォーマンスを加える
LLMは新しい選好最適化アルゴリズムを提案し、そのコード実装を出力する
そのアルゴリズムでモデルをトレーニングし、そのパフォーマンスを評価し、LLMにフィードバックを提供してコンテキストを更新し、アルゴリズムの改良を促す
これらのプロセスを何世代も繰り返し、進化ループを実現する
このループを通じて、LLMが高性能で新しい選好最適化目標を多数発見する

　これらの中で最も優れたものがDiscoPOPと呼ばれる。

研究の背景、選好最適化の意義とLLMの進化

　Sakana AIは、DiscoPOPの研究背景を次のように説明している。

　「LLMのトレーニングは通常、大規模なテキストコーパスで事前にトレーニングされたモデルから開始され、人間の選好に合うようにファインチューニングされる。それでも、LLMは有害、危険、非倫理的な出力をする可能性がある。直接選好最適化（DPO）や、シーケンス尤度（ゆうど）キャリブレーション（SLiC）などのオフライン選好最適化アルゴリズムは、LLMの出力を人間の価値観と整合させ、AIシステムが有用で倫理的かつ適切な応答を生成することを保証する上で、極めて重要だ」

　一方、LLMは、仮説を生成し、コードを記述する能力がますます向上している。そこでSakana AIは、AIを使ってAIを進化させるアプローチの可能性に着目し、人間の選好に合わせてLLMをトレーニングするための新しい最先端のアルゴリズムを、人間が継続的に介入することなく、LLMに提案、実装、改良させる研究に取り組んだ。

DiscoPOPの優れた性能

　Sakana AIは、さまざまな評価タスクでDiscoPOPのパフォーマンスを検証した。その中には、マルチターン対話（AlpacaEval 2.0）、制御された感情生成（IMDb）、要約（TL;DR）などが含まれる。

　マルチターン対話（AlpacaEval 2.0）による検証では、DiscoPOPは、「GPT-4」に対する勝率がDPOやSLiCを上回った。また、制御された感情生成（IMDb）や要約（TL;DR）のタスクでは、DiscoPOPでトレーニングされたモデルは、既存の選好最適化アルゴリズムでトレーニングされたモデルを上回るか、これらに匹敵する性能を発揮した。

LLMの内部ループによる選好最適化アルゴリズムの提案、改良プロセス（左）　DiscoPOPと他のアルゴリズムのパフォーマンス（マルチターン対話でのGPT-4に対する勝率）比較（右）《クリックで拡大》（提供：Sakana AI）

　Sakana AIは「DiscoPOPの研究は、AIの自己改良プロセスを実現するために最新のAIを利用するアプローチが大きな可能性を持つことを示している」と述べた上で「こうした研究は、人間の介入や計算リソースの必要性の低減につながるだろう」との見通しを示している。

　Sakana AIは、AIの研究と発見を自動化するAIベースの方法を開拓している。元Googleの研究者であるライオン・ジョーンズ氏とデビッド・ハー氏、元メルカリ執行役員の伊藤錬氏が2023年8月に立ち上げた。2024年1月にはシリコンバレーのベンチャーキャピタルや日本の有名企業などから45億円の資金を調達している。

Sakana AI、LLMのトレーニングアルゴリズムをLLMに発見、実装させることに成功　今後のAI活用をどう変える？：選好最適化アルゴリズム「DiscoPOP」オックスフォード大、ケンブリッジ大と協力

研究の背景、選好最適化の意義とLLMの進化

DiscoPOPの優れた性能

関連リンク

Smart & Social 記事ランキング

Sakana AI、LLMのトレーニングアルゴリズムをLLMに発見、実装させることに成功 今後のAI活用をどう変える？：選好最適化アルゴリズム「DiscoPOP」 オックスフォード大、ケンブリッジ大と協力

研究の背景、選好最適化の意義とLLMの進化

DiscoPOPの優れた性能

関連リンク

Smart & Social 記事ランキング

Sakana AI、LLMのトレーニングアルゴリズムをLLMに発見、実装させることに成功　今後のAI活用をどう変える？：選好最適化アルゴリズム「DiscoPOP」オックスフォード大、ケンブリッジ大と協力