検索
ニュース

コード生成用オープンアクセスLLM「StarCoder2」を公開 ServiceNow、Hugging Face、NVIDIAパフォーマンス、透明性、コスト効率の新たな基準を設定

ServiceNow、Hugging Face、NVIDIAは、コード生成用のオープンアクセスLLMファミリー「StarCoder2」を公開した。

Share
Tweet
LINE
Hatena

 ServiceNow、Hugging Face、NVIDIAは2024年2月28日(米国時間)、コード生成用のオープンアクセス大規模言語モデル(LLM)ファミリー「StarCoder2」を公開したと発表した。

 StarCoder2は、ServiceNowが運営する「BigCode」コミュニティー、Hugging Face、NVIDIAのパートナーシップによって開発された。BigCodeは、コーディング用LLMの責任あるトレーニングに取り組んでいるオープンな共同科学研究プロジェクトだ。Hugging Faceは、機械学習コミュニティーの共同作業に広く利用されているオープンソースプラットフォーム「Hugging Face」を運営している。

 StarCoder2は、619種類のプログラミング言語とWikipedia、Arxiv、GitHub issueなどの自然言語テキストでトレーニングされている。アプリケーションのソースコード生成、ワークフロー生成、テキスト要約などのタスクを実行するために、さらにトレーニングを行うことや、エンタープライズアプリケーションに組み込むことが可能だ。開発者はコード補完、高度なコード要約、コードスニペット検索などの機能を使用して、イノベーションを加速し、生産性を向上させることができる。

 StarCoder2には、以下の3つのモデルがある。

StarCoder2-3B

 ServiceNowがトレーニングした30億パラメーターのモデル。17種類のプログラミング言語を用いて3.3兆トークン(Tトークン)でトレーニングされている。

StarCoder2-7B

 Hugging Faceがトレーニングした70億パラメーターのモデル。17種類のプログラミング言語を用いて3.7Tトークンでトレーニングされている。

StarCoder2-15B

 NVIDIAが「NVIDIA NeMo」フレームワークを使って構築し、NVIDIAアクセラレーテッドインフラ上でトレーニングした150億パラメーターのモデル。619種類のプログラミング言語を用いて4.3Tトークンでトレーニングされている。

 これらのうち小型のモデルは、計算コストを節約しながら強力なパフォーマンスを提供する。より少ないパラメーターで、より少ない計算量で推論を行うからだ。実際、StarCoder2-3Bはほとんどのベンチマークで、同様のサイズの他のコーディング用LLMを上回るパフォーマンスを発揮する。そのパフォーマンスは、StarCoder2の前の世代である「StarCoder」の150億パラメーターモデルに匹敵する。

 また、大型モデルのStarCoder2-15Bも、同様のサイズの他のモデルを大幅に上回るパフォーマンスを発揮する。さらに、2倍以上のサイズの「CodeLlama-34B」とも同等以上のパフォーマンスを提供する。

 ServiceNow、Hugging Face、NVIDIAはStarCoder2の特徴として、これらに加えて以下の点も強調している。

カスタムアプリケーション開発を強力に後押し

 最先端のアーキテクチャと、BigCodeの成果物である事前トレーニングデータセット「Stack v2」を共有し、大規模な責任あるイノベーションを推進できる。StarCoder2の基盤である67.5TBのStack v2には、619種類のプログラミング言語のソースコードに加え、GitHubのプルリクエスト、Kaggleノートブック、コードドキュメントなどの高品質なデータソースも厳選して含まれている。

 StarCoder2は、text-to-codeやtext-to-workflow機能など、将来のAIベースのコーディングアプリケーションの可能性を広げる。広範で深いプログラミングトレーニングを基に、リポジトリのコンテキストを提供し、コンテキストを考慮した正確な予測を実現する。

ビジネスに特化したデータで機能をファインチューニング可能

 StarCoder2は、「NVIDIA NeMo」や「Hugging Face TRL(Transformer Reinforcement Learning)」などのオープンソースツールと、業界または組織固有のデータを使用して、ファインチューニングできる。

 StarCoder2を使用して、高度なチャットbotの作成をはじめ、パーソナライズされたコーディングアシスタントの開発、関連するコードスニペットの取得、テキストからワークフローを生成する機能の実装などを行える。

責任あるトレーニングや開発を促進するBigCodeの成果の活用

 BigCodeは、オープンなガバナンス、透明なサプライチェーン、オープンソースソフトウェアの使用、開発者がトレーニングからデータをオプトアウトする機能などを通じて、コーディング用LLMの責任あるトレーニングや開発に取り組んでいる。StarCoder2では、こうした活動の成果を活用し、責任あるイノベーションにつなげることができる。

 StarCoder2は、「BigCode Open RAIL-M」ライセンスで提供され、ロイヤルティーフリーのアクセスと使用が可能だ。さらに、透明性とコラボレーションを促進するため、StarCoder2のサポートコードは、BigCodeプロジェクトのGitHubリポジトリで提供される。

 StarCoder2モデルは全てHugging FaceのBigCodeページからもダウンロードできる。150億パラメーターモデルは、NVIDIA AI Foundation Modelsでも提供されており、開発者がブラウザから直接、またはAPIエンドポイントを通じて実験できる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る