検索
特集

綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組みスパム対策の基本技術解説(2/4 ページ)

残念ながら、メールの世界では迷惑メールの送信を根絶することがまだできていません。そのため、受信時に必要なメールとそうでないメールを判別する必要があります。今回は単語の頻出度合いから必要なメールかどうかを判別する「ベイズフィルター」(ベイジアンフィルター)の動作理論と実装上の工夫を2回に分けて解説します(編集部)

PC用表示 関連情報
Share
Tweet
LINE
Hatena

メールの特徴抽出——単語の詰まった袋をモデルとして

 コンピュータ上でスパム判定を行うためには、まず、判断の材料になるメールの特徴を取り出さなくてはなりません。

 あるメールがスパムであるか否かを判断するのに必要な特徴とはなんでしょう。特徴には、メールの長さや、言語、配送元の国、HTMLメールの有無などさまざまな要素を盛り込めますが、多くのスパムフィルターでは、単語などトークンの出現頻度をメールの特徴としています。このように、文書を語の並びを無視して単語の詰まった1つの袋としてモデル化したものを“bag-of-words”といいます。

図2 単語が詰まった袋、bug-of-words
図2 単語が詰まった袋、bug-of-words

基本理論:ベイズの定理とその解釈

 まずは、ベイズの定理を用いたスパムの確率計算の式を書き下してみます。

  • メールの特徴Fは、bag-of-wordsを用いると、今注目しているメールに現われる単語の集まりになります。
  • P(スパム)は、あるメールがスパムである確率です。そのメールの特徴Fを観察する前の確率を表しているため、事前確率と呼びます。P(スパム)の値には、例えば、いままでに手元に届いたメールのうち、スパムであったメールの割合を用いたり、事前に何も情報がない場合は、五分五分でスパムが届くとして、2分の1にしたりします。
  • P(スパム|メールの特徴F)は、あるメールの特徴Fを見たときに、そのメールがスパムである確率で、事後確率と呼びます。
  • P(メールの特徴F|スパム)は、スパムにメールの特徴Fが現れる確率です。メールの特徴Fを持つメールがスパムである尤も(もっとも)らしさを表す尺度で、メールの特徴Fのスパムにおける尤度(ゆうど)と呼びます。
  • P(メールの特徴F)は、スパムと非スパムを合わせた全メール中に、メールの特徴Fを持ったメールが出現する確率です。

 これはもとをただせばただの条件付き確率の式ですが、さまざまな解釈ができます。1つの見方は、メールがスパムである確率P(スパム)は、届いたメールの特徴Fを観察することにより、より正確な値P(スパム|メールの特徴F)へと改善されるという見方です。

図3 開封してメールの特徴を観察することで、より正確なスパムらしさを算出できる
図3 開封してメールの特徴を観察することで、より正確なスパムらしさを算出できる

ベイズの定理を「直感的に」解釈する

 計算式が出てきたところで、ベイズの定理を直感的に解釈してみましょう。式の分子に注目してください。特徴Fを持つメールがスパムである確率P(スパム|メールの特徴F)が大きくなるのは次の2つのケースです。

  • メール全体でスパムの占める割合が増えるとき( つまり、P(スパム)の増加
  • 特徴Fを持つスパムの割合が増えるとき(つまり、P(メールの特徴F|スパム)の増加
    特徴Fを持つスパムの割合が増えれば、特徴Fを観察したときに、そのメールがスパムである割合も増えます。

 ところで、なぜベイズの定理を利用するのでしょうか。特徴Fを持つメールがスパムである確率を求める場合、通常であれば世界中のメール群から同じ特徴Fを持つメールがスパム、非スパムである確率を計算しなければなりません。あなたのメールボックスに世界中のメールが転送されてくるなら話は別ですが、これはどう考えても現実的でありません。

 そこでベイズの定理を用いると、それよりは現実的に計算できそうな式が出てくるというわけです。

Copyright © ITmedia, Inc. All Rights Reserved.

Security & Trust 記事ランキング

  1. 「SQLite」のゼロデイ脆弱性、GoogleのAIエージェントが見つける AIは脆弱性調査の課題をどう解決したのか?
  2. 増える標的型ランサムウェア被害、現場支援から見えてきた実態と、脆弱性対応が「限界」の理由
  3. 日本人の約半数が「1年前より危険」と考えるオンライン詐欺とは マカフィーがホリデーショッピング詐欺に関して調査
  4. ランサムウェア攻撃を受けた企業、約6割が「サプライチェーンのパートナー経由で影響を受けた」 OpenText調査
  5. 「このままゼロトラストへ進んでいいの?」と迷う企業やこれから入門する企業も必見、ゼロトラストの本質、始め方/進め方が分かる無料の電子書籍
  6. 長続きする高度セキュリティ人材育成の秘訣を「第19回情報危機管理コンテスト」から探る
  7. Google Cloudがサイバーフィジカルシステムのレジリエンスを高める10の指標を解説 最初にすべきことは?
  8. セキュリティ担当者の54%が「脅威検知ツールのせいで仕事が増える」と回答、懸念の正体とは? Vectra AI調査
  9. 「ランサムウェアに一度感染したら、身代金を払ってもまた攻撃される」のはほぼ確実? ウィズセキュア調査
  10. AIチャットを全社活用している竹中工務店は生成AIの「ブレーキにはならない」インシデント対策を何からどう進めたのか
ページトップに戻る