NIIが「学習データ含め全てオープンにした」LLMを公開　学習用日本語データを約5920億トークン用意、コードは何億トークン？：「オープンかつ日本語に強いLLM」を目指し、全部で約2.1兆トークン学習させる

NIIは、約1720億パラメーターの大規模言語モデル「LLM-jp-3 172B beta1」のプレビュー版を公開したと発表した。フルスクラッチ学習で作成され、学習データを含めて全てオープンになっている。

» 2024年09月20日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　情報・システム研究機構国立情報学研究所（NII）は2024年9月17日、大規模言語モデル（LLM）のプレビュー版「LLM-jp-3 172B beta1」を公開したと発表した。フルスクラッチ学習で作成されており、学習に使用したデータも公開されている。同研究所によると学習データを含めて全てオープンにしたLLMとしては世界最大規模だという。

プレスリリース

学習用として約5920億トークンの日本語を用意、コードは何億トークン？

　今回公開されたLLMは、モデルアーキテクチャに「LlaMA-2」を採用しており、パラメーター数は約1720億個となっている。

　事前学習は2つのクラウド計算資源を使った。1つ目は経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）のGENIACプロジェクトの支援によるもので、約0.4兆トークンを事前学習させた。2つ目は文部科学省の補助金によって調達したクラウド計算資源で、約0.7兆トークンを事前学習させた。モデル学習用コーパスとして約5920億トークンの日本語、約9500億トークンの英語、約10億トークンのその他言語、約1140億トークンのプログラムコードなどを用意し、その3分の1程度を事前学習させている。

　なお、今回公開したモデルはプレビュー段階のため、NIIは「そのまま実用的なサービスに使うことを想定しているものではない」としている。プレビュー版は申請すれば限定的なライセンスで利用できるという。同研究所は今後も学習を継続し、2024年12月ごろには約2.1兆トークン全てを学習させたモデルを公開する予定だ。

Google、2400億の検証可能な統計データを接続させたオープンLLM「DataGemma」を発表
Googleは、大規模言語モデル（LLM）のハルシネーションの課題に対処するために、現実世界の統計データに接続するよう設計されたオープンLLM「DataGemma」を発表した。
中国の零一万物（01.AI）、コーディング用LLM「Yi-Coder」をオープンソースとして公開
中国のAIスタートアップ零一万物（01.AI）は、コーディング用大規模言語モデル（LLM）「Yi-Coder」をオープンソースとして公開した。
IBM、メインフレームでLLM／生成AIワークロードを加速するプロセッサ「Telum II」、アクセラレータ「Spyre」などを発表
IBMは、メインフレームシステム「IBM Z」の次世代製品などに搭載される「IBM Telum II」プロセッサ、同プロセッサ上のI/Oアクセラレーションユニット、同プロセッサを補完する「IBM Spyre」アクセラレータのアーキテクチャの詳細を発表した。