データ中心のAI(DCAI:Data-Centric AI)とは?AI・機械学習の用語辞典

用語「データ中心のAI」について説明。性能を向上させるために、モデルやアルゴリズムを改善する「モデル中心」のアプローチではなく、機械学習ライフサイクル全体を通じてデータを改善する「データ中心」のアプローチの方が大切だとする、AIの開発方法に関する考え方を指す。

» 2022年02月10日 05時00分 公開
[一色政彦デジタルアドバンテージ]
「AI・機械学習の用語辞典」のインデックス

連載目次

用語解説

 データ中心のAIDCAIData-Centric AI)とは、従来通りのモデルやアルゴリズムを偏重するアプローチよりも、データに焦点を当てたアプローチの方が大切であるとする、AIの開発方法に関する考え方である。

 この考え方の根拠として、たとえ比較的少ないデータ量であったとしてもクリーン(Clean)で高品質なグッドデータ(Good Data)の方が、ノイズの多い(Noisy)ビッグデータ(Big Data)よりも良い性能を発揮することが示されている(図1)。

図1 クリーンなGood DataがノイズありのBig Dataに勝る事例(Andrew Ng氏のスライドから引用、一部を加工) 図1 クリーンなGood DataがノイズありのBig Dataに勝る事例(Andrew Ng氏のスライドから引用、一部を加工)
500件のデータ中に12%のノイズ(=間違った/矛盾した教師ラベル)がある。このとき、ノイズをクリーンアップ(修正)することは、このグラフの正解率を見ると、別の500件の新規データを集めること以上の効果を持つことが示されている。

 現状のAI/機械学習の分野では、ベンチマークとなるデータセットを固定した上で、より良い性能を発揮するように「機械学習モデル」とそのハイパーパラメーターを調整して改善する。

 こういった現状に異議を唱えているのが、データ中心のAIなのだ。むしろ機械学習モデルを固定した上で、より良い性能を発揮するように「データ」を収集/エンジニアリングして改善すべきという考え方である。こうしてデータに重点を置く場合、

  • データの収集や前処理: データはどう定義してどう収集すればよいか?
  • 訓練から検証: モデル性能を向上させるにはデータの修正がどれくらい必要か?
  • デプロイと運用: 概念/データドリフト(=概念やデータの変化による性能劣化)を追跡するためにはどのデータが必要か?

というように、機械学習プロジェクトのライフサイクル全体を通して体系的にデータの品質を管理する必要がある。つまりデータ中心のAIではMLOpsが重要となる(図2)。

図2 常に高い品質のデータを確保するためにはMLOpsが重要(Andrew Ng氏のスライドから引用、画像は自作) 図2 常に高い品質のデータを確保するためにはMLOpsが重要(Andrew Ng氏のスライドから引用、画像は自作)

 データ中心のAIは、米国時間で2021年3月24日に開かれた「A Chat with Andrew」というオンラインイベントにおいて、DeepLearning.AIのAndrew Ng(アンドリュー・ン)博士が「MLOps: From Model-centric to Data-centric AI」というスピーチを行ったことに端を発する。

 その後、AI/機械学習の業界全体から大きな注目を集め、トップカンファレンスのNeurIPSで「NeurIPS Data-Centric AI Workshop」というワークショップが開催されたり、DeepLearning.AIが「Data-Centric AI Competition」というコンペティション(競技大会、以下ではコンペ)を開催したりと、2021年中はさまざまな活動が見られた。特にコンペは面白く、Kaggleなど通常のコンペでは固定のデータセットを使ってより良い性能を発揮する「機械学習モデル」を作ることを競うが(=モデル中心の考え方)、この「データ中心のAIコンペ」では固定の機械学習モデルを使ってより良い性能を発揮する「データ」に改善することを競った(=データ中心の考え方)。

 データ中心のAIは、(2022年2月現在では)まだまだ研究領域としても新しいホットな分野で、情報はあまり多くない。データ中心のAIの基本的な概念は、まずは上記のオンラインイベントのYouTube動画「A Chat with Andrew on MLOps: From Model-centric to Data-centric AI」から学ぶのが一番良いだろう。セッションスライドのPDFファイルが、DeepLearning.AIが公開するリソースからダウンロードできる。また、上記のワークショップの講演内容を含む「Data-centric AI Resource Hub」というサイトが公開されている(2022/02/21追記)。

「AI・機械学習の用語辞典」のインデックス

AI・機械学習の用語辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。