スパマー対アンチスパムベンダの仁義なき戦い

2003/12/5

Cleaswift APAC テクニカルマネージャーのスティーブ・アーヴィング氏

 クリアスウィフトは12月4日、「CS MAILsweeper for SMTP」をエンジンとするスパム対策機能群を発表した。自己学習機能を持つスパムメールの分析・分類フィルタ、3時間おきに更新するスパムメールデータベース「spamActive」などが含まれる。
 
 そもそも“スパムメール”とは何か。クリアスウィフトが定義するところによると「商業的な性質を帯びた不要メール」ということになる。要は、個人および企業が望む望まないにかかわらず、強制的にメールボックスへ侵入を果たし、受信者の目に触れることを第1の目的とする電子メールのことだ。内容の傾向としては31%がポルノ、29%が金もうけを誘う内容、23%がダイレクトメール(調査はクリアスウィフト)が主流だという。スパムメールを生成(および送信)することを生業とする人々がおり、彼らはメールボックスにメールを確実に届けることで報酬を得ている。クリアスウィフトのようなアンチスパム製品を販売するベンダが増えてくると、彼らの仕事は巧妙かつ複雑にならざるをえない。つまり、スパムフィルタをすり抜ける手段を次々に考案し、なんとかしてメールボックスまでたどり着こうとするわけである。

 今回クリアスウィフトが発表したスパム・フィルタは「テキスト分析」「ヒューリスティック分析」「ベイズ分類」という3つの分析・分類手法を採用している。「テキスト分析」というのは、メールの件名や本文テキストに頻繁に使用される単語やフレーズでスパムメールかどうかを判断する分析手法である。URLや特定ドメインの抽出によって、判断する場合もある。「ヒューリスティック分析」は、「スパムらしさ」を決定する文書構造の分析を行うことで、スパムかどうかを判断する手法。例えば、正常な電子メールの多くはテキストのみかテキスト+HTMLで構成されているものだが、HTMLのみを使用している場合は極めてスパムである可能性が高いという経験則に基づいてチェックをかけたりする。「ベイズ分類」とは、「スパム」と「非スパム」両方に含まれる単語を学習し、出現頻度に基づいて各単語にスパム確率を割り当てる手法。非常に複雑なアルゴリズムを駆使して、「非スパム」が「スパム」に分類されることを防ぎながら、「スパム」の分類を行っていく。

 スパムメールデータベース「spamActive」のリストの更新は3時間ごとに行われる。リストの収集は、世界中に置かれた「スパムメールに狙われるように偽装した受信ボックス」を通じて英国の同社のサーバに集められ、テストを経た後にユーザーに配信する。

 スパム対策の難しさは、「スパム」と「非スパム」の区別をいかにつけるかという点にある。誤検知率を限りなく0に近づけながら、正検知率を100%に近づけることなのだが、電子メールの内容は極めて恣意的なものが多く、完璧な対策を講じることは不可能だろう。とはいえ、できる限り精度を高めていく工夫を凝らさなければ、スパムメールは増大の一途をたどり、スパイウェアの跳梁(ちょうりょう)、個人情報流出の窓口提供という副次的な被害の原因になる可能性も出てくるのである。

(編集局 谷古宇浩司)

[関連リンク]
クリアスウィフト

[関連記事]
「悪意なき情報流出が増加」、電子メール管理が課題に (@ITNews)
電子メールから漏えいする企業機密を防ぐには (@ITNews)
「どのベンダもできなかった」統合セキュリティツールを実現 (@ITNews)
米Sendmail CEOが語る「電子メールの未来」 (@ITNews)
ベリタス、Exchange Serverのダウンタイムを最小に (@ITNews)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)