用語「内挿/外挿(Interpolation/Extrapolation)」について説明。機械学習モデルで、訓練データの範囲内で出力を求めることを「内挿」、範囲外で求めることを「外挿」と呼ぶ。機械学習モデルは、原理的に内挿は得意だが、外挿は苦手。
機械学習における内挿(Interpolation)とは、あるデータを使って訓練した機械学習モデルにおいて、その訓練データ(入力データおよび教師ラベル)の数値の範囲内で出力を求めることを指す。また外挿(Extrapolation)とは、その範囲外で求めることを指す。
内挿/外挿という(元々は数学の)用語は、「機械学習モデルの限界」や「誤解を防ぐための注意点」として言及されることが多い。特に機械学習に不慣れな一般人や機械学習の初心者は、内挿と外挿を意識して区別していないため、機械学習モデルのことを「どんな入力データに対しても同じ精度/信頼性で出力できるもの」と誤解しやすい。例えば機械学習モデルを訓練して90%の精度が出たら、「そのモデルを使えば常に90%の精度が出る」と考えがちである。しかしその精度は、入力データが「内挿」であればの話である。もし訓練時に入力したことがない範囲外の入力データを与えた場合、その出力結果は実際にはあまり信用できない。
例えば図1では、青色の丸(青丸)が、訓練データにおける入力データ(説明変数x)と教師ラベル(目的変数y)を点としてプロットしたものである。緑色の線(緑線)で示されている訓練済みの機械学習モデルは、あくまでこの青丸が存在する範囲内でしか訓練されていないことになる(=内挿)。緑線を見ると、訓練されていない範囲でもこの機械学習モデルは予測が可能なように確かに見える(=外挿)。しかし、その範囲外、具体的にはオレンジ色枠線の丸(オレンジ丸)が存在する部分は、この機械学習モデルでは正しく予測できない。実際に図1ではオレンジ丸と緑線には乖離(かいり)がある。オレンジ丸も正確に予測するには、あらためてオレンジ丸のデータも含めて再学習を行い、青丸とオレンジ丸の両方を内挿の範囲内にする必要があるのだ。
もっと平たくいうと、内挿/外挿で言及されている原理は、「学んできたことの範囲内であれば、より正確に答えられるよ(=内挿)。しかし学んでいないことは、もちろん勘で当てずっぽうには答えられるけど、その回答はあまり信用できないから、そのつもりでね(=外挿)」ということなのである。この原理は考えてみれば、至極当然の話ではあるのだが、意識しておかないと忘れて勘違いしてしまいがちなので、注意してほしい。
ちなみに時系列予測の場合、グラフの見た目から内挿の範囲を間違えやすいので、注意を促しておきたい。例えば現在の湿度と日照時間という入力データから、12時間後の気温を予測(=出力)する機械学習モデルの場合、訓練データ(湿度/日照時間という入力データと、気温という教師ラベル)の数値の範囲内か範囲外かが内挿/外挿の対象となる。時系列のグラフを描いた場合、横軸が「時間」になっているので、過去データが範囲内(内挿)で未来予測が範囲外(外挿)と勘違いしやすいが、これは間違いである。注意してほしい。
Copyright© Digital Advantage Corp. All Rights Reserved.