検索
ニュース

2.5兆トークンを学習したOSSのコード生成LLM「OpenCoder」公開 プロジェクトが明す、コードLLM構築に重要な3要素とは再現可能なトレーニングデータなど科学研究のためオープンに

OpenCoderプロジェクトは、OSSのLLM「OpenCoder」を公開した。OpenCoderは、最先端のコード生成LLMの性能に匹敵する、オープンで再現可能なLLMだという。

Share
Tweet
LINE
Hatena

 OpenCoderプロジェクトは2024年11月8日(米国時間)、オープンソースソフトウェア(OSS)のLLM(大規模言語モデル)、「OpenCoder」を公開した。同プロジェクトは以下のように説明している。


 OpenCoderは、トップクラスのコード生成LLMの性能に匹敵する、オープンで再現可能なコードLLMファミリーだ。本プロジェクトでは、完成モデルだけでなく再現可能なトレーニングデータ、詳細なトレーニングプロトコルなどをオープンな科学研究のために公開する。

OpenCoderプロジェクトで分かった、トップクラスのコードLLM構築に重要な3要素

 コードを生成するLLMは、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で不可欠となっている。オープンアクセスのコード生成LLMは、プロプライエタリなモデルの性能レベルに近づきつつあるが、厳密な科学的調査に適した高品質のコード生成LLM、特に再現可能なデータ処理パイプラインと透明な学習プロトコルを持つLLMは、依然として限られている。その理由は、リソースの制約、倫理的配慮、先進的なモデルを維持することによる競争上の優位性など、さまざまな課題によるものだ。

 このギャップに対処するために、私たちはOpenCoderを開発した。OpenCoderは、トップクラスのコード生成LLMであり、主要なモデルに匹敵する性能を達成するだけでなく、研究コミュニティーのための「オープンクックブック」(サンプルコードやサンプルプロンプト集)としても機能する。

 今回のリリースを通じて、トップクラスのコード生成LLMを構築するために重要な要素は次の3点だと分かった。

  1. データクリーニングのためにヒューリスティックルールで最適化されたコードおよびデータ重複を排除する手法
  2. コードに関連するテキストコーパスの再現率
  3. アニーリングとSFT(Supervised Fine-Tuning:教師ありファインチューニング)の両段階における高品質な合成データ

OpenCoderの概要

 OpenCoderは、1.5Bと8Bのベースモデルとチャットモデルを含む、オープンで再現可能なLLMファミリーで、英語と中国語の両方をサポートしており、90%の生コードと10%のコード関連のWebデータから構成される2.5兆トークンを学習している。

 OpenCoderプロジェクトでは、モデルの重みと推論コードだけでなく、再現可能なトレーニングデータ、完全なデータ処理パイプライン、厳密な実験的アブレーション(モデルの構成要素を除去する手法)の結果、詳細なトレーニングプロトコルも公開している。

 OpenCoderプロジェクトは下記のリソースを公開している。

  • OpenCoder:透明性の高いデータ処理パイプラインと再現可能なデータセットに基づいて構築された、完全にオープンソースのコード生成LLM。複数のコード生成LLM評価ベンチマークでトップクラスのパフォーマンスを達成
  • RefineCode:607のプログラミング言語にわたる9600億トークンで構成される、高品質で再現可能なコード事前学習コーパス
  • アブレーション研究の結果:コード生成LLMのさまざまな設計選択とトレーニング戦略に対する有意義な洞察を提供することを目的とした、有意義なアブレーション結果
  • その他のリソース:完成モデルの重み、完全なデータ処理パイプライン、効率的な評価パイプライン、再現可能な事前学習データセット、大規模なSFTデータセット、中間チェックポイント

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る