用語「データ中心のAI」について説明。性能を向上させるために、モデルやアルゴリズムを改善する「モデル中心」のアプローチではなく、機械学習ライフサイクル全体を通じてデータを改善する「データ中心」のアプローチの方が大切だとする、AIの開発方法に関する考え方を指す。
データ中心のAI(DCAI:Data-Centric AI)とは、従来通りのモデルやアルゴリズムを偏重するアプローチよりも、データに焦点を当てたアプローチの方が大切であるとする、AIの開発方法に関する考え方である。
この考え方の根拠として、たとえ比較的少ないデータ量であったとしてもクリーン(Clean)で高品質なグッドデータ(Good Data)の方が、ノイズの多い(Noisy)ビッグデータ(Big Data)よりも良い性能を発揮することが示されている(図1)。
現状のAI/機械学習の分野では、ベンチマークとなるデータセットを固定した上で、より良い性能を発揮するように「機械学習モデル」とそのハイパーパラメーターを調整して改善する。
こういった現状に異議を唱えているのが、データ中心のAIなのだ。むしろ機械学習モデルを固定した上で、より良い性能を発揮するように「データ」を収集/エンジニアリングして改善すべきという考え方である。こうしてデータに重点を置く場合、
というように、機械学習プロジェクトのライフサイクル全体を通して体系的にデータの品質を管理する必要がある。つまりデータ中心のAIではMLOpsが重要となる(図2)。
データ中心のAIは、米国時間で2021年3月24日に開かれた「A Chat with Andrew」というオンラインイベントにおいて、DeepLearning.AIのAndrew Ng(アンドリュー・ン)博士が「MLOps: From Model-centric to Data-centric AI」というスピーチを行ったことに端を発する。
その後、AI/機械学習の業界全体から大きな注目を集め、トップカンファレンスのNeurIPSで「NeurIPS Data-Centric AI Workshop」というワークショップが開催されたり、DeepLearning.AIが「Data-Centric AI Competition」というコンペティション(競技大会、以下ではコンペ)を開催したりと、2021年中はさまざまな活動が見られた。特にコンペは面白く、Kaggleなど通常のコンペでは固定のデータセットを使ってより良い性能を発揮する「機械学習モデル」を作ることを競うが(=モデル中心の考え方)、この「データ中心のAIコンペ」では固定の機械学習モデルを使ってより良い性能を発揮する「データ」に改善することを競った(=データ中心の考え方)。
データ中心のAIは、(2022年2月現在では)まだまだ研究領域としても新しいホットな分野で、情報はあまり多くない。データ中心のAIの基本的な概念は、まずは上記のオンラインイベントのYouTube動画「A Chat with Andrew on MLOps: From Model-centric to Data-centric AI」から学ぶのが一番良いだろう。セッションスライドのPDFファイルが、DeepLearning.AIが公開するリソースからダウンロードできる。また、上記のワークショップの講演内容を含む「Data-centric AI Resource Hub」というサイトが公開されている(※2022/02/21追記)。
Copyright© Digital Advantage Corp. All Rights Reserved.