Red Hatが誰でもLLM開発に貢献できるオープンソースプロジェクト、「InstructLab」を発表：Red Hat Summit 2024

Red HatがオープンソースLLMをさらにオープンソース化するプロジェクト、「InstructLab」を開始した。誰でもLLM開発に参加することができ、「生成AIの未来をともに形作れる」と訴えている。まずIBM Researchの「Granite」モデルなどから始める。

[三木泉，＠IT] PC用表示関連情報

LINE

Hatena

　Red Hatは2024年5月7日（米国時間）、オープンソースプロジェクトのやり方を大規模言語モデル（LLM）開発に取り込んだプロジェクト、「InstructLab」を同社の年次イベント「Red Hat Summit 2024」で発表した。インストラクションチューニングを取り入れる。

　「オープンなモデルは多数存在するが、オープンソースではないか、利用に制限がある。これが大きな課題となっている」と、Red Hatのシニアバイスプレジデントで最高製品責任者（CPO）のアシシュ・バダーニ氏は説明する。

　「企業が特定のユースケースで本当に機能するモデルを作成するためには、社内データによるファインチューニングを考える前に、モデルがどのように学習されたのか、何を使って学習されたのか、誰がモデルにコントリビューションしたのかなど、モデルの全体像を理解する必要がある」

　利用組織が自らの目的のためにチューニングを行えばフォークすることになり、他の誰もコントリビューションできなくなってしまう。この問題を解消するために、Pull Requestという形で誰もがLLM開発にコントリビューションできる場を作るのだという。

　なお、「InstructLab」というプロジェクト名は、「Large-Scale Alignment for ChatBots」というLLMのインストラクションチューニングをスケールする手法から命名されている。

　今回のプロジェクトは、Red Hatが今回IBM ResearchとともにオープンソースとしてリリースしたLLM、「Granite-7b」「Merlinite 7b」でスタートした。コントリビューションは毎週モデルに取り込まれるという。

　では、誰が何をコントリビューションできるのか。

　コントリビューションできる内容は“スキル”と“ナレッジ”だという。

　スキルでは、文字通りLLMにスキルを教える。下の例では、英語での韻の踏み方を教えている。YAMLファイルの形でコントリビューションする。

スキルの例

　ナレッジは、（こちらも文字通りだが）質問と回答という形式で、LLMに知識を教える。下の例では2024年のオスカー賞についての質問と回答をコントリビューションしている。

　なお、コントリビューションできるナレッジは、現在のところWikipediaに掲載されている情報に限っている。

ナレッジの例

　小サイズのYAMLファイルを提供すればいいため、コントリビューターはソフトウェア開発者やデータサイエンティストでなくて構わない。ビジネスパーソンや何らかの分野の専門家、組織など、誰もがLLM開発に参加できるとRed Hatは強調している。