2つの確率分布間の“距離”を測る指標で、「ある分布をもう一方に重ねるために、どれだけ“確率質量”を動かす必要があるか」を表す。値が0なら「完全一致」、大きいほど「異なる」ことを意味する。主に統計学や機械学習で使われ、データドリフト検出や生成モデル(WGAN)などに応用される。別名「アースムーバー距離」。
統計学/機械学習におけるワッサースタイン距離(Wasserstein distance)とは、2つの確率分布の“距離”を測るための指標である。数理最適化の分野で研究されてきた最適輸送理論に基づいて定義されており、その特徴は「分布の形状」や「分布の位置のズレ」を自然に反映できる点にある。直感的には「ある分布をもう一方の分布に重ね合わせるために、どれだけ“確率質量”(=分布における確率)を移動させる必要があるか」を表す(図1)。
別名として「アースムーバー距離(EMD:Earth Mover's Distance)」とも呼ばれるが、これは特に「p=1の場合のワッサースタイン距離」(詳細後述)を指すことが多い。
なおワッサースタイン距離の値は、常に0以上となり、0なら「完全に一致した分布(=完全に重なっている)」を意味する。値が大きいほど「異なる」ことを示すが、その上限は分布や定義の仕方によって異なる。
ワッサースタイン距離は「確率分布同士の違い」を評価できるため、主に統計学や機械学習の分野で、次のような場面に利用される。
なお、他の距離指標(KLダイバージェンスやヘリンガー距離など)は「確率の数値的な差異」を重視するのに対し、ワッサースタイン距離は「空間上での“確率質量”の移動」を考える点が異なる。そのため、確率分布の「形状」や「位置ズレ」を直接的に捉えられる点が大きな特徴である。
ベルヌーイ分布、二項分布、正規分布など、離散型/連続型を問わず幅広い確率分布に適用可能である。主な確率分布について詳しくは、KLダイバージェンスの記事を参照してほしい。
また、ワッサースタイン距離は「有限の距離を計算できる」点に特徴があり、KLダイバージェンスでは扱いにくい状況でも有効である。例えば「一方の分布では出目6が絶対に出ないサイコロ」と「1〜6の全ての目が出るサイコロ」を比べると、KLダイバージェンスでは計算が無限大になってしまう。一方、ワッサースタイン距離は「出目6の確率を他の目に移すコスト」として扱えるため、有限の距離として計算できる。
まず前提条件として、
という2つの確率分布を考える。このとき、ワッサースタイン距離の基本的な考え方は「確率分布Pから分布Qへと“確率質量”を運ぶときの最小コスト」である。これを最も一般的に表す数式は次の通りである。これを本稿では「一般形」と呼ぶことにする。
この式の意味を平易に言い換えると、「分布Pを分布Qに変えるためのあらゆる輸送計画を考え、その中で“輸送コスト”が最も小さいものを選び、その大きさを“距離”として採用する」ということである。ここでの“輸送コスト”とは、「距離|x−y|のp乗」と「運ぶ“確率質量”」とを掛け合わせ、全て合計した値である。
この数式はあくまで一般形であり、実際の計算では確率分布の種類によって式の形が変わる。特に、確率分布が「離散型」の場合と「連続型」の場合で、数式を少し書き換える必要がある。
離散型確率分布の場合
離散型(例えばサイコロやコイン投げなど)の場合、この2つの確率分布のワッサースタイン距離は、一般形の式を「総和(Σ)」の形に書き換えることで以下のように表される。
この数式の意味は、「分布Pの値ごとに、どのくらいの“確率質量”を分布Qの値へ運ぶか」を考え、それぞれにかかるコスト(=距離のp乗×運ぶ量)を全て合計するということである。そして、その合計が最も小さくなるような運び方を選んだときの値が、ワッサースタイン距離となる。
なお本稿では、数理最適化(最適輸送理論)の文脈に従い、“確率質量”という表現を、「離散型確率分布で確率質量関数(PMF:Probability Mass Function)から得られる確率」だけでなく、「連続型確率分布で確率密度関数(PDF:Probability Density Function)を区間で積分して得られる確率」に対しても、統一して用いている。ここでいう“確率質量”とは、最適輸送における「移動させる量」を指すものである。
連続型確率分布の場合
連続型(例えば身長の分布など)の場合、2つの確率分布のワッサースタイン距離は、最初に示した一般形(積分を用いた定義式)そのものである。よって繰り返しになるため、ここではその数式の説明は省略し、特に1次元かつp=1の場合に成立する簡単な式を示す。ここでの「1次元」とは、確率分布が1つの変数で表される場合(例:身長の分布など)を意味する。一方「2次元」とは、確率分布が2つの変数で表される場合(例:身長と体重を同時に扱う分布など)である。
この数式の意味は、「分布Pと分布Qの累積分布関数の差」を数直線上の全てのxについて調べ、その差の大きさを積分(=全区間で合計)するということである。直感的には、数直線上のあらゆる点で「一方の分布Pがもう一方の分布Qに対してどのくらい進んでいるか、あるいは遅れているか」を測り、そのズレを合計したものがワッサースタイン距離W1になる。
Copyright© Digital Advantage Corp. All Rights Reserved.