検索
ニュース

コーディング用大規模言語モデル「StarCoder」とは 何がすごいのか1兆のトークンに対して約150億のパラメーターモデルを機械学習

AI開発向けのツールを提供しているベンチャー企業Hugging Faceは、2023年5月4日(米国時間)、コーディング用大規模言語モデル(LLM)の「StarCoder」を一般公開。ベンチマークによる評価やデータセットなども併せて公開した。

Share
Tweet
LINE
Hatena

 AI開発向けのツールを提供しているベンチャー企業Hugging Faceは、2023年5月4日(米国時間)、コーディング用大規模言語モデル(LLM)の「StarCoder」「StarCoderBase」を公開した。


StarCoderのブログ

 StarCoderとStarCoderBaseは、80以上のプログラミング言語、Gitコミット、GitHub Issues、Jupyter Notebookなど、GitHubからライセンスとして許可されたコードのデータでトレーニング(機械学習)されている。Meta製LLMの「LLaMA」と同様に、1兆のトークンに対して約150億のパラメーターモデルをトレーニングした。Hugging Faceは350億のPythonトークン用にStarCoderBaseモデルを微調整し、StarCoderを作成した。

 StarCoderBaseは、一般的なプログラミングベンチマークで、既存のオープンコードLLMよりも優れたパフォーマンスを示し、OpenAIの「code-cushman-001」(「GitHub Copilot」の初期バージョンを強化したオリジナルの「Codex」モデル)のようなクローズドモデルと同等またはそれを上回っているという。

 Hugging Faceは、「8000トークンを超えるコンテキスト長を持つStarCoderモデルは、他のオープンLLMよりも多くの入力を処理でき、幅広い興味深いアプリケーションを可能にする」としている。例えば、StarCoderモデルに一連の対話を促すことで、StarCoderモデルが技術アシスタント(「Tech Assistant」プロンプト)として機能できるようにした。さらに、モデルを使用して、コードをオートコンプリートしたり、命令を介してコードを変更したり、自然言語でコードスニペットを説明したりすることができる。

 Hugging Faceは、安全なオープンモデルとしてリリースするために、改善されたPII(Personally Identifiable Information:個人識別情報)削除パイプライン、コード帰属追跡ツールといった措置を講じ、OpenRAILライセンスの改良版の下でStarCoderを一般公開した。このライセンスによって、企業がモデルを自社製品に統合するプロセスが簡素化されるという。

 Hugging Faceは、「StarCoderは、優れたパフォーマンスによって、コミュニティーが使用し、ユースケースや製品に適応させるための強固な基盤として機能する」としている。

ベンチマークによる評価

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る