連載
トリム平均(Trimmed Mean)とは?:AI・機械学習の用語辞典
用語「トリム平均」について説明。昇順または降順に並べたデータの上位と下位から一定の個数または割合で値を除外(トリム)し、残ったデータで平均を求めること。特に外れ値を含むデータセットで統計的にデータを解釈する際に役立つ。
用語解説
数学/統計学/機械学習におけるトリム平均(Trimmed Mean、Truncated Mean、刈り込み平均、調整平均)とは、データを昇順または降順に並べ替えた後の上位と下位から一定の個数(例:各1個)または割合(例:各5%)を除外(トリム)し、残ったデータで算術平均を計算することである。算術平均とは、データの合計をデータ数で割ることだ。
数式
トリム平均の計算式は、データをトリムした後は算術平均と同じである。
図1のトリム平均の例では、最高点80と最低点20をトリムした後のデータで、算術平均を計算している。この例では各1個という「個数」で除外したが、データが多い場合は、5〜25%の「割合」で除外することが一般的だ。適切なトリム平均の個数や割合は、散布図や箱ひげ図を参考に決めるとよい。
用途
トリム平均は、極端な値や外れ値の影響を軽減するために用いられる。例えばオリンピック競技のフィギュアスケートの採点では、最高点と最低点を除外することで、審査員による極端な得点の影響を抑える。また、大きな購入データを外して平均購入額を算出したり、富裕層を除いて平均資産を計算したりする場合にも役立つだろう。
外れ値を含むデータセットでは、算術平均よりもトリム平均の方がデータの中心傾向をより正確に反映することがある。
Copyright© Digital Advantage Corp. All Rights Reserved.