NVIDIA、「Minecraft」用自律AIをオープンソースで公開　大規模言語モデル（LLM）を活用：Minecraftで既存エージェントを大幅に上回るパフォーマンスを発揮

NVIDIAをはじめとする研究チームは、大規模言語モデル（LLM）ベースの生涯学習エージェントである「Voyager」をオープンソースで公開した。

» 2023年05月31日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　NVIDIAをはじめとする研究チームは、大規模言語モデル（LLM）ベースの生涯学習エージェントである「Voyager」をオープンソースで公開した。Voyagerは人気ゲームの「Minecraft」において、人間の介入なしに世界を継続的に探索し、さまざまなスキルを習得し、新しい発見をする。

（論文Webサイトより）

　Voyagerを開発した研究チームは、NVIDIA、カリフォルニア工科大学（Caltech）、テキサス大学オースティン校（UT Austin）、スタンフォード大学、アリゾナ州立大学（ASU）の研究者からなる。

　研究チームはVoyagerの研究成果をまとめた論文（arXivで公開）で、これまでのLLMベースのエージェントにおける課題を次のように説明している。「オープンエンドの世界で継続的に探索し、計画を立て、新しいスキルを開発する一般的に有能なエージェントの開発は、AI（人工知能）コミュニティーにとって大きな挑戦だ。LLMベースのエージェントは最近の進歩により、事前にトレーニングされたLLMが持つ、世界に関する知識を利用して、一貫した行動計画や実行可能なポリシーを生成するようになった。だが、これらのエージェントは、長期間にわたって知識を獲得、更新、蓄積、転送できる生涯学習者ではない」

　研究チームは、Minecraftの特徴を次のように述べている。「AIで研究されている他の多くのゲームとは異なり、Minecraftは、あらかじめ定義された最終目標や固定的なストーリーを課すのではなく、無限の可能性を持つユニークな遊び場を提供する。効果的な生涯学習エージェントはこうしたゲームにおいて、人間と同様の能力を発揮できなければならない」

　論文著者の1人で、NVIDIAのAIサイエンティストを務めるジム・ファン博士は、2023年5月27日、Twitterで公開したツイートで「一般的に有能な自律型エージェントは、AIの次のフロンティアだ。Minecraftは、エージェントにとって無限の可能性を秘めた最高のテストベッドだ」と述べている。

　Voyagerは、次の3つの主要なモジュールで実現されている。

探索を最大化する自動カリキュラム
複雑な行動を保存、検索するための実行可能なコードで構成された、拡大を続けるスキルライブラリ
環境（ゲーム）からのフィードバック、実行エラー、自己検証を組み込み、プログラムを改良する反復的プロンプトメカニズム

　Voyagerは、プロンプトとコンテキスト内学習でブラックボックスLLM（GPT-4）と対話する。これにより、モデルパラメーターの微調整の必要性を回避している。

自動カリキュラム

　自動カリキュラムは、探索の進行とエージェントの状態を考慮し、探索を最大化する。「できるだけ多くの多様なものを発見する」という包括的な目標に基づき、GPT-4がカリキュラムを生成する。

（論文Webサイトより）

スキルライブラリ

（論文Webサイトより）

　図の上部は、新しいスキルの追加を示す。各スキルは、説明文の埋め込みでインデックス化されており、将来、同様の状況で検索できる。図の下部は、スキルの検索を示す。自動カリキュラムで提案された新しいタスクに直面すると、クエリを実行し、関連するスキルの上位5つを特定する。複雑なスキルは、単純なプログラムを組み合わせることで合成でき、これによってVoyagerの能力は、時間とともに急速に向上する。

反復的プロンプトメカニズム

（論文Webサイトより）

　図の左側は、環境からのフィードバックを示す。GPT-4は、Minecraft内で棒を作るには、木材が2枚必要なことを理解する。右側は、実行エラーを示す。GPT-4は、Minecraftには「アカシアのおの」がないため、「木製のおの」を作らなければならないことを理解する。

（論文Webサイトより）

　この図は、自己検証を示す。エージェントの現在の状態とタスクをGPT-4に与え、GPT-4に、プログラムがタスクを達成するかどうかを知らせてほしいと依頼する。「タスクが失敗した場合は、タスクの完了方法を提案することで批評を行う」ことを依頼することもできる。

強力な生涯学習能力

　Voyagerはコンテキスト内で強力な生涯学習能力を示し、Minecraftで従来のSOTA（State-of-the-Art：最先端レベルの技術）と比較して、3.3倍多くのユニークなアイテムを入手し、2.3倍長い距離を移動し、技術ツリーの主要なマイルストーンに15.3倍速く到達できた。研究チームは、「他の技術が一般化に苦労しているのに対し、Voyagerは、学習したスキルライブラリを新しいMinecraftの世界で活用し、新しいタスクを一から解決できる」と述べている。

Voyagerは、自ら探索してMinecraftの新しいアイテムやスキルを継続的に発見し、LLMベースの既存エージェントを大幅に上回るパフォーマンスを発揮する。X軸は、プロンプトの反復回数を示す（論文Webサイトより）

大規模言語モデル（LLM：Large Language Model）とは？
用語「大規模言語モデル」について説明。大量のテキストデータを使ってトレーニングされた自然言語処理のモデルのことを指す。
Google、生成AI、大規模言語モデル（LLM）の構築に特化したスパコン「A3」を発表
Googleは「Google I/O」で、AIのトレーニングに特化したスーパーコンピュータ「A3」を発表した。A3のスループットは従来の3倍に進歩し、A3が活用できるネットワーク帯域幅はA2の10倍に向上しているという。
超長文が処理できるオープンソース商用利用可LLM「MPT-7B」が公開
MosaicMLはオープンソース、商用利用可のLLM最新モデル「MPT-7B」を発表した。この基本モデルを元に構築できるMPT-7B-Instruct、MPT-7B-Chat、MPT-7B-StoryWriter-65k+もあわせてリリースした。