CarperAI、初の“指示チューニング”型オープンソース大規模言語モデルの開発計画を発表人間のフィードバックからの強化学習(RLHF)でトレーニング

オープンソースAI研究者チーム「CarperAI」は、大規模言語モデル(LLM)のトレーニングのエキスパートであるEleutherAIとMultiおよびラベリングとヒューマンアノテーションのエキスパートであるScale、Humanloop、Hugging Faceと共同で、人間の指示に従うように明示的にトレーニングされたLLMの公開に取り組むと発表した。

» 2022年10月24日 10時30分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 オープンソースのAI研究に携わるボランティアの研究者、エンジニア、開発者で構成された分散型コミュニティー「EleutherAI」からスピンアウトした研究者チーム「CarperAI」は2022年10月19日(米国時間)、大規模言語モデル(LLM)のトレーニングにおけるエキスパートであるEleutherAIとMultiおよびラベリングとヒューマンアノテーションのエキスパートであるScale、Humanloop、Hugging Faceと共同で、人間の指示に従うように明示的にトレーニングされたLLMの公開に取り組むと発表した。

 このオープンソースLLMは、人間のフィードバックからの強化学習(RLHF:Reinforcement Learning from Human Feedback)によってトレーニングされる。これは、LLMの安全性と使いやすさを高める手法だ。CarperAIは、「LLMをオープンソースとして公開することは、学術関係者、独立研究者、スタートアップ(新興企業)が科学に取り組み、最先端のモデルをベースに活動を進めることができるようにする上で、極めて重要だ」と述べている。

 CarperAIは、「Stable Diffusion」が画像生成を民主化したように、LLM、そしてLLMの「指示チューニング」(instruction-tuning)を民主化することを目指している。

 業界リーダーのOpenAIは2021年に「InstructGPT-3」モデルにより、指示に従うようにLLMをトレーニングする手法を開拓した。だが、こうしたモデルは、APIの背後にロックされているか、あるいは公開されていないために、ほとんどの学術関係者、ホビイスト、小規模企業にとって、その価値は限定的だと、CarperAIは指摘している。

 CarperAIは、これまでのLLMの特徴と課題を次のように説明している。

AIのフロンティアを拡大したLLM

 LLMは、優れた検索、文書作成アシスタント、コード生成、タスクを自動化する汎用(はんよう)アシスタントを可能にする。特に、LLMは教師あり機械学習と比べて、新しいタスクに適応させるために大規模なラベル付きデータセットを必要としない。ほとんどのLLMは、大量のラベルなしデータセットに対する次単語予測という単純なタスクでトレーニングされている。

使いにくく、精度に難も

 だが、残念ながら、次単語予測によってトレーニングされたLLMは使いにくい他、事実に関する正確さに欠けたり、不快感を与える出力を生成したりすることが多く、有害なアプリケーションに使用される可能性がある。

 部分的な解決策は、通常の方法でトレーニングした言語モデルを調整することだ。これは、言語モデルに繰り返し指示を出し、その出力に対する人間からのフィードバックを集め、より良いフィードバックが予測される方向にモデルのパラメーターを調整するというものだ。

 例えば、OpenAIとDeepMindはRLHF(人間のフィードバックありの強化学習)により、指示に従うことができ、かなり事実に適合し、使いやすいLLMを作成している。OpenAIは先行研究において、RLHFでトレーニングされたモデルからの出力が、人間のフィードバックなしでトレーニングされた100倍大きなモデルからの出力よりも、望ましいことを発見した。

大規模で複雑な言語モデルの構築に必要なリソースと技術ノウハウを協業で確保

 LLMのトレーニングに指示チューニングを適用するには専門的なノウハウが必要だが、大手IT企業以外でそれを持っているところはごく少ない。CarperAIのLLMは、CarperAIの母体であり、オープンソースLLMトレーニングのパイオニアであるEleutherAIと、最先端のLLM技術をエンタープライズ自動化に応用することに取り組むAIスタートアップのMultiによってトレーニングされる。さらにCarperAIは、Scale、Humanloop、Hugging Faceと提携し、LLMを微調整する。

 Scaleは、AIデータおよびモデルインフラと、フルサービスの運用AIソリューションを提供することで、AI開発を加速する。Humanloopは、人間のフィードバックに基づくLLMの調整を専門としている。両社は、言語モデルの改善に使用される人間のフィードバックデータの収集を支援する。Hugging Faceは、アクセスしやすい方法でモデルを共有し、ロードするためのホスティングメカニズムを提供する。

RLHFでトレーニングされる初のオープンソースLLM

 CarperAIは、オープンソースLLMはこれまでもあったが、RLHFでトレーニングされるオープンソースLLMは、われわれが計画しているものが初めてだとしている。

 CarperAIは、RLHFによるLLMのトレーニングを、LLMが使いやすく、安全な形で広く導入されるために不可欠なステップと位置付けている。LLMのリスクはよく知られており、誤った情報の拡散から社会的バイアスの強化まで、多岐にわたる。RLHFでトレーニングすることで、LLMのこうしたリスクを大幅に低減するとともに、LLMの有用性を高めることができると、CarperAIは述べている。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。