コーディング用大規模言語モデル「StarCoder」とは 何がすごいのか:1兆のトークンに対して約150億のパラメーターモデルを機械学習
AI開発向けのツールを提供しているベンチャー企業Hugging Faceは、2023年5月4日(米国時間)、コーディング用大規模言語モデル(LLM)の「StarCoder」を一般公開。ベンチマークによる評価やデータセットなども併せて公開した。
AI開発向けのツールを提供しているベンチャー企業Hugging Faceは、2023年5月4日(米国時間)、コーディング用大規模言語モデル(LLM)の「StarCoder」「StarCoderBase」を公開した。
StarCoderとStarCoderBaseは、80以上のプログラミング言語、Gitコミット、GitHub Issues、Jupyter Notebookなど、GitHubからライセンスとして許可されたコードのデータでトレーニング(機械学習)されている。Meta製LLMの「LLaMA」と同様に、1兆のトークンに対して約150億のパラメーターモデルをトレーニングした。Hugging Faceは350億のPythonトークン用にStarCoderBaseモデルを微調整し、StarCoderを作成した。
StarCoderBaseは、一般的なプログラミングベンチマークで、既存のオープンコードLLMよりも優れたパフォーマンスを示し、OpenAIの「code-cushman-001」(「GitHub Copilot」の初期バージョンを強化したオリジナルの「Codex」モデル)のようなクローズドモデルと同等またはそれを上回っているという。
Hugging Faceは、「8000トークンを超えるコンテキスト長を持つStarCoderモデルは、他のオープンLLMよりも多くの入力を処理でき、幅広い興味深いアプリケーションを可能にする」としている。例えば、StarCoderモデルに一連の対話を促すことで、StarCoderモデルが技術アシスタント(「Tech Assistant」プロンプト)として機能できるようにした。さらに、モデルを使用して、コードをオートコンプリートしたり、命令を介してコードを変更したり、自然言語でコードスニペットを説明したりすることができる。
Hugging Faceは、安全なオープンモデルとしてリリースするために、改善されたPII(Personally Identifiable Information:個人識別情報)削除パイプライン、コード帰属追跡ツールといった措置を講じ、OpenRAILライセンスの改良版の下でStarCoderを一般公開した。このライセンスによって、企業がモデルを自社製品に統合するプロセスが簡素化されるという。
Hugging Faceは、「StarCoderは、優れたパフォーマンスによって、コミュニティーが使用し、ユースケースや製品に適応させるための強固な基盤として機能する」としている。
ベンチマークによる評価
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Googleの生成系AI「Bard」がプログラミングやソフトウェア開発に対応 何を、どこまでできるのか
Googleは、生成系AIの「Bard」にプログラミングやソフトウェア開発のタスクを支援する機能を追加した。「コーディングはユーザーから寄せられた最も多いリクエストの一つだ」という。 - 「レガシーコードの解析」「単体テストの生成」はAIにお任せ KPMGがジェネレーティブAI活用に関する提言を発表
KPMGは、ジェネレーティブAIに関する提言を発表した。それによると、ジェネレーティブAIを開発支援ツールとして採用しようとしている開発者は多く、「課題やリスクはあるものの今すぐにでも検証を開始すべきだ」としている。 - サイバー犯罪者も「ChatGPTを使ってコーディング」をしている チェック・ポイント
チェック・ポイント・ソフトウェア・テクノロジーズは脅威アクターがOpenAIのChatGPTを悪用して悪質なコードを生成していることを、実例のサンプルとともに公開した。AIの悪用がサイバー犯罪の新たなトレンドになりつつあることを警告している。