検索
特集

綱引きに蛇口当てゲーム?! 楽しく学ぶベイズフィルターの仕組みスパム対策の基本技術解説(2/4 ページ)

残念ながら、メールの世界では迷惑メールの送信を根絶することがまだできていません。そのため、受信時に必要なメールとそうでないメールを判別する必要があります。今回は単語の頻出度合いから必要なメールかどうかを判別する「ベイズフィルター」(ベイジアンフィルター)の動作理論と実装上の工夫を2回に分けて解説します(編集部)

PC用表示 関連情報
Share
Tweet
LINE
Hatena

メールの特徴抽出——単語の詰まった袋をモデルとして

 コンピュータ上でスパム判定を行うためには、まず、判断の材料になるメールの特徴を取り出さなくてはなりません。

 あるメールがスパムであるか否かを判断するのに必要な特徴とはなんでしょう。特徴には、メールの長さや、言語、配送元の国、HTMLメールの有無などさまざまな要素を盛り込めますが、多くのスパムフィルターでは、単語などトークンの出現頻度をメールの特徴としています。このように、文書を語の並びを無視して単語の詰まった1つの袋としてモデル化したものを“bag-of-words”といいます。

図2 単語が詰まった袋、bug-of-words
図2 単語が詰まった袋、bug-of-words

基本理論:ベイズの定理とその解釈

 まずは、ベイズの定理を用いたスパムの確率計算の式を書き下してみます。

  • メールの特徴Fは、bag-of-wordsを用いると、今注目しているメールに現われる単語の集まりになります。
  • P(スパム)は、あるメールがスパムである確率です。そのメールの特徴Fを観察する前の確率を表しているため、事前確率と呼びます。P(スパム)の値には、例えば、いままでに手元に届いたメールのうち、スパムであったメールの割合を用いたり、事前に何も情報がない場合は、五分五分でスパムが届くとして、2分の1にしたりします。
  • P(スパム|メールの特徴F)は、あるメールの特徴Fを見たときに、そのメールがスパムである確率で、事後確率と呼びます。
  • P(メールの特徴F|スパム)は、スパムにメールの特徴Fが現れる確率です。メールの特徴Fを持つメールがスパムである尤も(もっとも)らしさを表す尺度で、メールの特徴Fのスパムにおける尤度(ゆうど)と呼びます。
  • P(メールの特徴F)は、スパムと非スパムを合わせた全メール中に、メールの特徴Fを持ったメールが出現する確率です。

 これはもとをただせばただの条件付き確率の式ですが、さまざまな解釈ができます。1つの見方は、メールがスパムである確率P(スパム)は、届いたメールの特徴Fを観察することにより、より正確な値P(スパム|メールの特徴F)へと改善されるという見方です。

図3 開封してメールの特徴を観察することで、より正確なスパムらしさを算出できる
図3 開封してメールの特徴を観察することで、より正確なスパムらしさを算出できる

ベイズの定理を「直感的に」解釈する

 計算式が出てきたところで、ベイズの定理を直感的に解釈してみましょう。式の分子に注目してください。特徴Fを持つメールがスパムである確率P(スパム|メールの特徴F)が大きくなるのは次の2つのケースです。

  • メール全体でスパムの占める割合が増えるとき( つまり、P(スパム)の増加
  • 特徴Fを持つスパムの割合が増えるとき(つまり、P(メールの特徴F|スパム)の増加
    特徴Fを持つスパムの割合が増えれば、特徴Fを観察したときに、そのメールがスパムである割合も増えます。

 ところで、なぜベイズの定理を利用するのでしょうか。特徴Fを持つメールがスパムである確率を求める場合、通常であれば世界中のメール群から同じ特徴Fを持つメールがスパム、非スパムである確率を計算しなければなりません。あなたのメールボックスに世界中のメールが転送されてくるなら話は別ですが、これはどう考えても現実的でありません。

 そこでベイズの定理を用いると、それよりは現実的に計算できそうな式が出てくるというわけです。

Copyright © ITmedia, Inc. All Rights Reserved.

Security & Trust 記事ランキング

  1. 2025年のサイバーセキュリティは何が“熱い”? ガートナーがトップトレンド6選を発表
  2. 日本企業の約8割が「VPN利用を継続」。一方、ゼロトラスト導入済み企業は2割を超える NRIセキュア
  3. 企業は「生成AIのデータローカライズ問題」にどう対処すべきか Gartnerがリスクを軽減するための戦略的アクションを解説
  4. 古いソフト/ファームウェアを狙うランサムウェア「Ghost」で70カ国以上の組織、多数の中小企業が被害に 対策は?
  5. 「透明性向上が狙い」 Mozilla、「Firefox」に利用規約を導入した理由を説明
  6. 「人材不足は生成AIで」は誤解? 大阪大学 猪俣教授が提言する、セキュリティ人材育成/自動化に必要な意識
  7. “ゼロトラスト”とトラスト(信頼性)ゼロを分かつものとは――情報セキュリティ啓発アニメ「こうしす!」監督が中小企業目線で語る
  8. 「サービスアカウント」「ロール」「API」「アクセスキー」などの“非人間アイデンティティー(NHI)”に潜むセキュリティリスクTOP 10 OWASPが発表
  9. PQC(耐量子計算機暗号)への移行は進むのか Googleの「Cloud KMS」で量子安全なデジタル署名のプレビュー版が利用可能
  10. サイバー攻撃からの復旧時間、世界平均は10.9カ月、日本企業の平均は? ファストリー調査
ページトップに戻る