CarperAI、初の“指示チューニング”型オープンソース大規模言語モデルの開発計画を発表人間のフィードバックからの強化学習(RLHF)でトレーニング

オープンソースAI研究者チーム「CarperAI」は、大規模言語モデル(LLM)のトレーニングのエキスパートであるEleutherAIとMultiおよびラベリングとヒューマンアノテーションのエキスパートであるScale、Humanloop、Hugging Faceと共同で、人間の指示に従うように明示的にトレーニングされたLLMの公開に取り組むと発表した。

» 2022年10月24日 10時30分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 オープンソースのAI研究に携わるボランティアの研究者、エンジニア、開発者で構成された分散型コミュニティー「EleutherAI」からスピンアウトした研究者チーム「CarperAI」は2022年10月19日(米国時間)、大規模言語モデル(LLM)のトレーニングにおけるエキスパートであるEleutherAIとMultiおよびラベリングとヒューマンアノテーションのエキスパートであるScale、Humanloop、Hugging Faceと共同で、人間の指示に従うように明示的にトレーニングされたLLMの公開に取り組むと発表した。

 このオープンソースLLMは、人間のフィードバックからの強化学習(RLHF:Reinforcement Learning from Human Feedback)によってトレーニングされる。これは、LLMの安全性と使いやすさを高める手法だ。CarperAIは、「LLMをオープンソースとして公開することは、学術関係者、独立研究者、スタートアップ(新興企業)が科学に取り組み、最先端のモデルをベースに活動を進めることができるようにする上で、極めて重要だ」と述べている。

 CarperAIは、「Stable Diffusion」が画像生成を民主化したように、LLM、そしてLLMの「指示チューニング」(instruction-tuning)を民主化することを目指している。

 業界リーダーのOpenAIは2021年に「InstructGPT-3」モデルにより、指示に従うようにLLMをトレーニングする手法を開拓した。だが、こうしたモデルは、APIの背後にロックされているか、あるいは公開されていないために、ほとんどの学術関係者、ホビイスト、小規模企業にとって、その価値は限定的だと、CarperAIは指摘している。

 CarperAIは、これまでのLLMの特徴と課題を次のように説明している。

AIのフロンティアを拡大したLLM

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。