2つの確率分布間の“距離”を測る指標で、値は0(一致)〜1(不一致)の範囲に収まる。ユークリッド距離に似た計算式で定義されており、確率分布の違いを直感的に扱えるのが特徴である。主に統計学や機械学習の分野で、確率分布間の比較や類似度評価に利用されている。
統計学/機械学習/情報理論におけるヘリンガー距離(Hellinger distance)とは、2つの確率分布間の“距離”を測る指標である。値は0〜1の範囲に収まり、0なら「完全に一致した分布(=完全に重なっている)」、1なら「完全に不一致な分布(=全く重ならない)」を意味する(図1)。
詳しい計算方法は後述するが、平方根を含む数式定義により、数式の形は「ユークリッド距離」に近く、分布Pと分布Qの違いを直感的に理解しやすい“距離”として捉えられるのが特徴だ。
ヘリンガー距離は「確率分布同士の違い」を評価できるため、主に統計学や機械学習の分野で、次のような場面に利用される。
KLダイバージェンスと同じ確率分布(ベルヌーイ分布、二項分布、正規分布など)に適用できる。詳しくはKLダイバージェンスの記事を参照してほしい。
ヘリンガー距離を定義する数式は、確率分布の種類(離散型/連続型)によって異なる。前提条件として、
という2つの確率分布があるとする。
離散型確率分布の場合
離散型(例えばサイコロやコイン投げなど)の場合、この2つの確率分布のヘリンガー距離は、以下のように表される。ユークリッド距離の計算に似ており、確率分布同士の「重なり具合」を距離として測れるのが特徴である。
この計算式の意味を簡単に説明しておこう。まず、離散的なxに対する確率を、分布Pと分布Qのそれぞれから計算し、得られた2つの確率値の「差」を求める。
ヘリンガー距離では、この差をそのまま計算するのではなく、あらかじめ「確率の平方根」を取る。これは、計算結果を常に0〜1の範囲に収めるための工夫であり、さらに先頭の1/√2と組み合わせることで、計算結果の最大値は1に正規化される。
ここで話を「差」の計算に戻すと、全てのxに対して「確率の平方根」の差を二乗し、それらを全て合計(=総和)する。最後に、その合計値に平方根を取った値を「距離」として採用する。この「差を二乗して平方根を取る」流れはユークリッド距離と同じであり、単位を元に戻す効果を持つ。
※なお、文献によっては、ヘリンガー距離を次のように定義している場合もある。
これは、先ほどの数式を整理して得られる等価な式表現であり、計算結果は全く同じとなる。ちなみに、この式に現れる「Σ √P(x)Q(x)」はバタッチャリヤ係数(Bhattacharyya coefficient)と呼ばれ、関連する指標としてバタッチャリヤ距離(Bhattacharyya distance)も定義されているが、本稿では詳しい説明を割愛する。
連続型確率分布の場合
連続型(例えば身長の分布など)の場合、2つの確率分布のヘリンガー距離は、以下のように表される。
離散型の場合と形は同じで、総和(Σ)が積分(∫)に置き換わっている点だけが異なる。これは、連続型では確率を確率密度関数の積分によって計算するためである。
Copyright© Digital Advantage Corp. All Rights Reserved.