＠IT
AI IoT
Deep Insider
データ中心のAI（DCAI：Data-Centric AI）とは？：...

データ中心のAI（DCAI：Data-Centric AI）とは？：AI・機械学習の用語辞典

用語「データ中心のAI」について説明。性能を向上させるために、モデルやアルゴリズムを改善する「モデル中心」のアプローチではなく、機械学習ライフサイクル全体を通じてデータを改善する「データ中心」のアプローチの方が大切だとする、AIの開発方法に関する考え方を指す。

» 2022年02月10日 05時00分公開

[一色政彦，デジタルアドバンテージ]

印刷

通知

連載「AI・機械学習の用語辞典」の新着をメールで通知

用語解説

　データ中心のAI（DCAI：Data-Centric AI）とは、従来通りのモデルやアルゴリズムを偏重するアプローチよりも、データに焦点を当てたアプローチの方が大切であるとする、AIの開発方法に関する考え方である。

　この考え方の根拠として、たとえ比較的少ないデータ量であったとしてもクリーン（Clean）で高品質なグッドデータ（Good Data）の方が、ノイズの多い（Noisy）ビッグデータ（Big Data）よりも良い性能を発揮することが示されている（図1）。

図1　クリーンなGood DataがノイズありのBig Dataに勝る事例（Andrew Ng氏のスライドから引用、一部を加工）
500件のデータ中に12％のノイズ（＝間違った／矛盾した教師ラベル）がある。このとき、ノイズをクリーンアップ（修正）することは、このグラフの正解率を見ると、別の500件の新規データを集めること以上の効果を持つことが示されている。

　現状のAI／機械学習の分野では、ベンチマークとなるデータセットを固定した上で、より良い性能を発揮するように「機械学習モデル」とそのハイパーパラメーターを調整して改善する。

　こういった現状に異議を唱えているのが、データ中心のAIなのだ。むしろ機械学習モデルを固定した上で、より良い性能を発揮するように「データ」を収集／エンジニアリングして改善すべきという考え方である。こうしてデータに重点を置く場合、

データの収集や前処理： データはどう定義してどう収集すればよいか？
訓練から検証： モデル性能を向上させるにはデータの修正がどれくらい必要か？
デプロイと運用： 概念／データドリフト（＝概念やデータの変化による性能劣化）を追跡するためにはどのデータが必要か？

というように、機械学習プロジェクトのライフサイクル全体を通して体系的にデータの品質を管理する必要がある。つまりデータ中心のAIではMLOpsが重要となる（図2）。

図2　常に高い品質のデータを確保するためにはMLOpsが重要（Andrew Ng氏のスライドから引用、画像は自作）

　データ中心のAIは、米国時間で2021年3月24日に開かれた「A Chat with Andrew」というオンラインイベントにおいて、DeepLearning.AIのAndrew Ng（アンドリュー・ン）博士が「MLOps: From Model-centric to Data-centric AI」というスピーチを行ったことに端を発する。

　その後、AI／機械学習の業界全体から大きな注目を集め、トップカンファレンスのNeurIPSで「NeurIPS Data-Centric AI Workshop」というワークショップが開催されたり、DeepLearning.AIが「Data-Centric AI Competition」というコンペティション（競技大会、以下ではコンペ）を開催したりと、2021年中はさまざまな活動が見られた。特にコンペは面白く、Kaggleなど通常のコンペでは固定のデータセットを使ってより良い性能を発揮する「機械学習モデル」を作ることを競うが（＝モデル中心の考え方）、この「データ中心のAIコンペ」では固定の機械学習モデルを使ってより良い性能を発揮する「データ」に改善することを競った（＝データ中心の考え方）。

　データ中心のAIは、（2022年2月現在では）まだまだ研究領域としても新しいホットな分野で、情報はあまり多くない。データ中心のAIの基本的な概念は、まずは上記のオンラインイベントのYouTube動画「A Chat with Andrew on MLOps: From Model-centric to Data-centric AI」から学ぶのが一番良いだろう。セッションスライドのPDFファイルが、DeepLearning.AIが公開するリソースからダウンロードできる。また、上記のワークショップの講演内容を含む「Data-centric AI Resource Hub」というサイトが公開されている（※2022/02/21追記）。

「AI・機械学習の用語辞典」

この連載を「連載記事アラート」に登録する New

SpecialPR

印刷／保存

連載通知

スポンサーからのお知らせPR

SpecialPR

Deep Insider 記事ランキング

本日月間

» ランキングをもっと見る

＠IT eBook

システム開発ノウハウ【発注ナビ】PR

編集部からのお知らせ

【無料セミナーITmedia Security Week 2025春おすすめ講演】5/28(水)15:10～ NICT ナショナルサイバートレーニングセンター長園田道夫氏の基調講演『いま、そこにある（サイバーの）危機』、6/2(月)13:00～ GMOサイバーセキュリティ by イエラエサイバーセキュリティ事業本部執行役員兼副本部長阿部慎司氏の基調講演『セキュリティ運用自動化の3つの要点と実例　～省力化・安定化・拡張化～』

あなたにおすすめの記事PR

@ITについて

RSSについて

＠ITのRSS一覧

アイティメディアIDについて

アイティメディアIDとは

メールマガジン登録

＠ITのメールマガジンは、もちろん、すべて無料です。ぜひメールマガジンをご購読ください。

申し込みページへ

ITmediaはアイティメディア株式会社の登録商標です。

データ中心のAI（DCAI：Data-Centric AI）とは？：AI・機械学習の用語辞典

用語解説

＠IT eBook

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！　無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ　『エンジニアお悩みデバッグbot』鮮やかに爆誕！

これからGoogleスプレッドシートを始める人必読『仕事がはかどるGoogleスプレッドシートの基本テクTIPS Vol.1』

Python×正規表現で「欲しい文字列だけ」を抜き出そう！　無料の電子書籍『解決！Python 正規表現編』

編集部からのお知らせ

データ中心のAI（DCAI：Data-Centric AI）とは？：AI・機械学習の用語辞典

用語解説

＠IT eBook

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！ 無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ 『エンジニアお悩みデバッグbot』鮮やかに爆誕！

これからGoogleスプレッドシートを始める人必読『仕事がはかどるGoogleスプレッドシートの基本テクTIPS Vol.1』

Python×正規表現で「欲しい文字列だけ」を抜き出そう！ 無料の電子書籍『解決！Python 正規表現編』

編集部からのお知らせ

Pythonのファイル操作まとめ：よく使うopen／with／Path／pickleなどを一冊に！　無料の電子書籍『解決！Python ファイル操作編』

エンジニアのお悩みは、エンジニアbotがお答えしましてよ　『エンジニアお悩みデバッグbot』鮮やかに爆誕！

Python×正規表現で「欲しい文字列だけ」を抜き出そう！　無料の電子書籍『解決！Python 正規表現編』