NVIDIAをはじめとする研究チームは、大規模言語モデル(LLM)ベースの生涯学習エージェントである「Voyager」をオープンソースで公開した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
NVIDIAをはじめとする研究チームは、大規模言語モデル(LLM)ベースの生涯学習エージェントである「Voyager」をオープンソースで公開した。Voyagerは人気ゲームの「Minecraft」において、人間の介入なしに世界を継続的に探索し、さまざまなスキルを習得し、新しい発見をする。
Voyagerを開発した研究チームは、NVIDIA、カリフォルニア工科大学(Caltech)、テキサス大学オースティン校(UT Austin)、スタンフォード大学、アリゾナ州立大学(ASU)の研究者からなる。
研究チームはVoyagerの研究成果をまとめた論文(arXivで公開)で、これまでのLLMベースのエージェントにおける課題を次のように説明している。「オープンエンドの世界で継続的に探索し、計画を立て、新しいスキルを開発する一般的に有能なエージェントの開発は、AI(人工知能)コミュニティーにとって大きな挑戦だ。LLMベースのエージェントは最近の進歩により、事前にトレーニングされたLLMが持つ、世界に関する知識を利用して、一貫した行動計画や実行可能なポリシーを生成するようになった。だが、これらのエージェントは、長期間にわたって知識を獲得、更新、蓄積、転送できる生涯学習者ではない」
研究チームは、Minecraftの特徴を次のように述べている。「AIで研究されている他の多くのゲームとは異なり、Minecraftは、あらかじめ定義された最終目標や固定的なストーリーを課すのではなく、無限の可能性を持つユニークな遊び場を提供する。効果的な生涯学習エージェントはこうしたゲームにおいて、人間と同様の能力を発揮できなければならない」
論文著者の1人で、NVIDIAのAIサイエンティストを務めるジム・ファン博士は、2023年5月27日、Twitterで公開したツイートで「一般的に有能な自律型エージェントは、AIの次のフロンティアだ。Minecraftは、エージェントにとって無限の可能性を秘めた最高のテストベッドだ」と述べている。
Voyagerは、次の3つの主要なモジュールで実現されている。
Voyagerは、プロンプトとコンテキスト内学習でブラックボックスLLM(GPT-4)と対話する。これにより、モデルパラメーターの微調整の必要性を回避している。
自動カリキュラムは、探索の進行とエージェントの状態を考慮し、探索を最大化する。「できるだけ多くの多様なものを発見する」という包括的な目標に基づき、GPT-4がカリキュラムを生成する。
図の上部は、新しいスキルの追加を示す。各スキルは、説明文の埋め込みでインデックス化されており、将来、同様の状況で検索できる。図の下部は、スキルの検索を示す。自動カリキュラムで提案された新しいタスクに直面すると、クエリを実行し、関連するスキルの上位5つを特定する。複雑なスキルは、単純なプログラムを組み合わせることで合成でき、これによってVoyagerの能力は、時間とともに急速に向上する。
図の左側は、環境からのフィードバックを示す。GPT-4は、Minecraft内で棒を作るには、木材が2枚必要なことを理解する。右側は、実行エラーを示す。GPT-4は、Minecraftには「アカシアのおの」がないため、「木製のおの」を作らなければならないことを理解する。
この図は、自己検証を示す。エージェントの現在の状態とタスクをGPT-4に与え、GPT-4に、プログラムがタスクを達成するかどうかを知らせてほしいと依頼する。「タスクが失敗した場合は、タスクの完了方法を提案することで批評を行う」ことを依頼することもできる。
Voyagerはコンテキスト内で強力な生涯学習能力を示し、Minecraftで従来のSOTA(State-of-the-Art:最先端レベルの技術)と比較して、3.3倍多くのユニークなアイテムを入手し、2.3倍長い距離を移動し、技術ツリーの主要なマイルストーンに15.3倍速く到達できた。研究チームは、「他の技術が一般化に苦労しているのに対し、Voyagerは、学習したスキルライブラリを新しいMinecraftの世界で活用し、新しいタスクを一から解決できる」と述べている。
Copyright © ITmedia, Inc. All Rights Reserved.