コンピュータ上でスパム判定を行うためには、まず、判断の材料になるメールの特徴を取り出さなくてはなりません。
あるメールがスパムであるか否かを判断するのに必要な特徴とはなんでしょう。特徴には、メールの長さや、言語、配送元の国、HTMLメールの有無などさまざまな要素を盛り込めますが、多くのスパムフィルターでは、単語などトークンの出現頻度をメールの特徴としています。このように、文書を語の並びを無視して単語の詰まった1つの袋としてモデル化したものを“bag-of-words”といいます。
まずは、ベイズの定理を用いたスパムの確率計算の式を書き下してみます。
これはもとをただせばただの条件付き確率の式ですが、さまざまな解釈ができます。1つの見方は、メールがスパムである確率P(スパム)は、届いたメールの特徴Fを観察することにより、より正確な値P(スパム|メールの特徴F)へと改善されるという見方です。
計算式が出てきたところで、ベイズの定理を直感的に解釈してみましょう。式の分子に注目してください。特徴Fを持つメールがスパムである確率P(スパム|メールの特徴F)が大きくなるのは次の2つのケースです。
ところで、なぜベイズの定理を利用するのでしょうか。特徴Fを持つメールがスパムである確率を求める場合、通常であれば世界中のメール群から同じ特徴Fを持つメールがスパム、非スパムである確率を計算しなければなりません。あなたのメールボックスに世界中のメールが転送されてくるなら話は別ですが、これはどう考えても現実的でありません。
そこでベイズの定理を用いると、それよりは現実的に計算できそうな式が出てくるというわけです。
Copyright © ITmedia, Inc. All Rights Reserved.