IBM、ソフトウェア開発へのAI活用を促進する大規模データセット「Project CodeNet」を公開「AIZU Online Judge」と「AtCoder」のデータを利用

IBMはAIによるコードの理解と変換をサポートする大規模なオープンソースデータセット「Project CodeNet」を公開した。50種類以上のプログラミング言語で作成され、約1400万のコードサンプルで構成されている。正常に動作するコード以外にエラーを起こすコードも含まれており、AIの学習データとして役立つという。

» 2021年05月13日 16時30分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 IBMは2021年5月11日(米国時間)、AIによるコードの理解と変換をサポートする大規模なオープンソースデータセット「Project CodeNet」を公開した。

 このデータセットは、50以上のプログラミング言語で作成され、約1400万のコードサンプルで構成されている。コードの行数は総計約5億行に及び、AI向けのソースコードセットとして最大規模だという。C++やC、Java、Pythonのようなモダン言語で書かれたものが多いものの、COBOLやPascal、FORTRANといったレガシー言語によるものも含んでいる。

コードサンプルの言語別の内訳(出典:IBM

Project CodeNetの目的は?

 Project CodeNetは現在のコーディングにおける3つの主なユースケースに対応する。第一に「コード検索」(COBOLなどのレガシー言語を含む、コード間の自動変換)、第二に「コードの類似性」(異なるコード間の重複と類似性を特定する)、第三に「コード制約」(開発者の固有のニーズとパラメーターに基づいて制約をカスタマイズする)だ。

 Project CodeNetは、最近急成長している「AI for Code」という分野の研究コミュニティーに、大規模で多様な高品質の整理されたデータセットを提供し、AI技術のイノベーションを促進することを目的としている。

 この分野の台頭の背景には、生活と産業全般にわたって膨大かつ複雑なソフトウェアシステムが使われるようになったことから、開発やデバッグ、メンテナンス、更新といったプロセスをモダナイズできる新しいソリューションを、AIやハイブリッドクラウドといった今日の強力な技術を利用して実現することが不可欠となっている状況がある。

 AI for Codeという分野は、ソフトウェアエンジニアリングプロセスの自動化により、ソフトウェア開発者の生産性向上を支援することを目的としている。AI for Codeの研究者は自然言語処理(NLP)のような技術を利用し、それらをコード解析やコンパイル技術で拡張することで、コード検索や要約、入力補完、コード間変換などにより、さまざまな実作業の支援に取り組んでいる。

 IBMの顧客企業の中には、AI for Code技術がレガシーソフトウェアのモダナイズに利用され、モノリシックアプリケーションからマイクロサービスへの移行を支援しているといった導入事例も出ているという。

 AI for Codeはこれまで概念実証(PoC)が進んできたが、今後は幅広い導入が進みそうだという。IBMはこの移行を促進することを目指し、ベンチマーキングと実験のための大規模データセットとしてProject CodeNetを公開した。

 IBMによれば、Project CodeNetは「ImageNet」(関連記事)に似た特徴(大規模、多様性など)を多く備えているという。ImageNetは、コンピュータビジョン研究に劇的な影響を与えてきた大規模画像データセットだ。

 Project CodeNetのデータセットは、オンラインジャッジWebサイトの「AIZU Online Judge」と「AtCoder」で得られるデータに基づいている。これらのWebサイトはプログラミング問題を出題し、プログラマーが提出した解答を採点している。

 これらの解答から成るProject CodeNetの約1400万のコードサンプルは、コーディングにおける4000種類の問題のいずれかの解決が図られており、全体の54%が正常なコードと判定されている。このようにしてProject CodeNetは、ImageNetがコンピュータビジョンに対して果たした役割を、AI for Codeに対して果たすことを目指しているという。

Project CodeNetのコードサンプルの状態(正常に機能するのか/どのような問題があるのか)(出典:IBM

Project CodeNetの特徴は?

 Project CodeNetは、類似の他のデータセットと比べて際立った特徴を幾つか持っているという。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。