用語「ドリフト」について説明。何らかの変化によってモデルの予測性能が劣化すること。その原因が、正解ラベルの概念が変化した場合は「概念ドリフト」、入力データの統計的分布が訓練時から変化した場合は「データドリフト」と呼ばれる。
機械学習や予測分析(データマイニングなど)におけるドリフト(Drift)とは、何らかの「予期せぬ変化」によって、モデルの予測性能が時間経過とともに劣化していくことを指す。モデルドリフト(Model drift)やModel decay(モデルの衰退)、Model staleness(モデルの陳腐化)などとも呼ばれる。ドリフトを引き起こしている原因ごとにさまざまな関連用語が定義されており、主要な用語に概念ドリフトとデータドリフトがある。
概念ドリフト(コンセプトドリフト:Concept drift)とは、入力データ(特徴量、説明変数)から予測しようとしている「正解ラベル(目的変数)」の意味/概念/統計的特性(つまりデータとラベルの関係性、データの解釈の仕方)が、モデル訓練時と比べて変化したことを意味する。
データドリフト(Data drift)とは、モデル訓練時の「入力データ(特徴量、説明変数)」の統計的分布と、テスト時/本番環境での「入力データ」の統計的分布が、何らかの変化によってズレてきていることを意味する。特徴量ドリフト(Feature drift)や共変量シフト(Covariate shift)とも呼ばれている。
概念ドリフトの例としては、例えばSNSでスパムを検出する機械学習モデルを運用開始し、当初は高い正解率で検出できていたが、半年後にはほとんど検出できなくなった。その原因が、スパマー側がスパムとばれないようにする新しい方法を考えついたことだとする(入力データの分布は変わっていないとする)。つまりドリフトの原因は、正解ラベル(目的変数)であるスパムの概念が変化したことである。
データドリフトの例としては、例えばSNSに早朝に投稿する人がスパマーと検出するように学習した機械学習モデルを運用開始し、当初は高い正解率で検出できていたが、半年後にはスパマーではない人をスパマーと誤検出するようになった。その原因が、かつては朝に弱いヤング層が利用者の中心だったが今では早朝に強いシニア層にまでSNSの利用が広まったことだとする(スパムの概念は変わっていないとする)。つまりドリフトの原因は、入力データの分布が訓練時から本番運用時で変化したことである。
こういった概念ドリフトやデータドリフト以外にも、例えば以下のようなドリフトの関連用語が定義されている。
なお、各ドリフトは排他的ではなく、複数のドリフトに該当する場合もある。
ちなみに、Azure Machine Learning/Amazon SageMaker Model Monitor/Google CloudのVertex AI Model Monitoringといった主要なクラウドプラットフォームでは、データドリフト(Azure/AWS/GCP*1)や予測ドリフト(GCP)などを検出する機能が提供されている。
*1 Google Cloudは、Training-Serving Skew(トレーニング・サービング・スキュー、訓練時とサービス提供時のズレ)という概念を提示し、そのスキューを検出する機能をVertex AI Model Monitoringに搭載している。スキューの定義には、データドリフトが含まれている。
Copyright© Digital Advantage Corp. All Rights Reserved.