ホーム > 製品情報 > Active! hunter > 最新のスパム学習エンジン

最新のスパム学習エンジン

SVMとは

SVMは送受信される電子メールをメールサーバの手前で監視し、正常なメールかスパムメールかを判定する最新のスパムメール学習エンジンです。SVMはActive! hunterの備える多重フィルタ群との連携を通して、巨大なトラフィックからメールサーバを守り、利用者に適切なメッセージを配送するための高性能なスパムメールフィルタ機能を提供します。

SVM

スパムメールは、すでに電子メールトラフィックの半分以上を占めるに至り、メールサーバのダウンや仕分け作業による時間の損失、さらに発生したウィルスが送信するメールによって他ネットワークからの接続拒否を引き起こすなど、重要なセキュリティ問題として認識されています。

SVMは、動的な送信元や送信者から送付されてくる非定型のスパムメールを学習し対処することを目的に設計されています。またスパムメール業者によって対策が確立されつつある従来の学習型フィルタを凌ぐ学習アルゴリズムによって、学習ミスを大幅に低減しています。Active! hunterに搭載されているMTAベースのフィルタリングや静的なフィルタリングとの連携により、未知のスパムメールに対する耐性を強化し、スパムメール対策コストを削減します。

SVMの機能

SVMは、統計学理論の一種である「Support Vector Machine」をスパムメール学習に応用したものです。この理論はAT&T社のVladimir Vapnikが1992年発表し、コンピュータによる学習(学習機械)を実現する手法として、その応用が研究されています。

SVMは、未知のスパムメールに対するインテリジェント判定の必要性から設計されました。学習エンジンによって蓄積されたデータを基にメールを分析し、正常メールかスパムメールかの分類を行います。スパムメールと判定された場合はActive! hunterのフィルタ機能によって隔離され、メールサーバには配信されません。また、追加の学習を行うことで分類基準が再構築されます。

分析作業は正確を期すため、正常メール、スパムメールともに100以上のサンプルが必要ですが、当社のSVM学習エンジン供給チームが既に100,000件以上のメールを学習済みのSVM学習エンジンをお客様に提供します。

学習は、次の3段階で行われます。

  • スパムメールデータの収集
  • 仕分け
  • 学習


図1 SVM学習に関する設定では、グレーゾーンのしきい値の設定や学習の上限数について指定が可能


図2 学習段階におけるデータの流れ。正常メールとスパムメールに仕分けされたメールが学習データとして蓄積される。蓄積されたデータは、後から手動で仕分けを変更することが可能

SVMでのメール分類手順

SVMではベクトル空間上にすべての学習データを配置し、各分類の間に境界線を引くことで、今後の分類に必要な定義を決定します。

学習されたメールは、全体を単語の集合体として評価(ベクトル化)され空間上に配置されます。このデータの中から、分類こそ違えど内容が非常に似通っているサンプル(「サポートベクター」と呼ばれます)が取り出され、この両者からの距離が最も大きくなる地点が境界線として認識されます(図3)。

この手順によって、多くのデータから分類の境界を決定するのに最適なごく少数のサンプルが選別されます。その結果として、明確で性能の良い分類基準を設定・維持することが可能になるのです。

SVMはこうして設定された境界線を用いて、メールがスパムメールなのか正常メールなのかを判定します。

図3
図3 多くのデータの中から、境界線決定に必要なサンプル(ここでは●と■が該当)が選び出され、境界線が決定されます

SVMでのフィルタリング

SVMでフィルタリングされた正常メールはそのままメールサーバに送信され、スパムメールと判定されたメールは、他のフィルタ同様に隔離するか、スパムマーキングして配送することができます。またSVM基本エンジンでグレーゾーン判定も行われ、この評価を得たメールは引き続き他のフィルタを使って判定が行われます(図4)。

図4 フィルタリング時のデータの流れ

ベイジアンフィルタとの差異

SVMとベイジアンフィルタは、どちらも経験測を基にしたスパムフィルタリングを提供する技術です。

ベイジアンフィルタの基となったベイズ理論は1764年に発表され、1998年頃よりスパムメールフィルタリングへの応用が試みられました。扱いやすい点から普及が進み、定番のスパム対策ツールとしての地位を確立しています。しかしその一方で、スパムメール業者によって、フィルタリングを回避する対策も確立されつつあります。

SVMは新しい技術ですが、未知のスパムメールを判定する仕組みが単純です。そのため最近のスパム送信者が多用する局所的な回避対策に対しても、学習結果が左右されにくいという強みを持っています。精度の高いパターン分類の手法として応用範囲の拡大が期待されています。

要素 SVM ベイズ理論
発表 1992年 1764年
出力される値 2値(方程式) 連続値(0.01~0.99)
データの最適化方法 両分類から内容が最も似通っているサンプルを利用 スパム確率が0.5から離れている特徴的なサンプルを利用[*3]
迷惑メールの判断基準 マッピング後の分類が迷惑メールに該当すること 出力値が0.9を超えること
迷惑メール対策での応用例 Microsoft Smart Screen技術
(Hotmail、Exchangeなど)
MIME Sweeper、spamassassin、SPAM WATCHERなど
*3:Paul Graham 方式の場合
SVMとベイズ理論の主な差異

Active! hunter内での位置づけ

SVMは、Active! hunterが備える多くのフィルタ群のひとつです。Avtive! hunterではMTAベースの接続拒否、ウイルスフィルタ、サイズなどの属性によるフィルタリング、コンテンツフィルタなど多角的にフィルタリングを行いますが、SVMはメール本文を精査するコンテンツフィルタリングを補完する位置づけにあります。

Active! hunterのコンテンツフィルタは、送信者、件名、本文といった情報に対してキーワードマッチングを行うものですが、日々進化するスパムメールの内容に対し、都度新しいキーワードを追加していくのは非常に手間がかかります。SVMはこうしたスパムメールの内容を分析し学習することで、スパムメールと同様の特徴を持つ未知のメールに対してスパムメール判定を行います。

上記の理由により、SVMは未知のスパムメールに対する非常に有効な対策です。

SVMが学習に必要なメールを自動的に抽出することで学習に必要な手間を省けるだけでなく、局所的な状況に左右されにくい作りにより過学習による性能の劣化を防ぐなど、管理保守効率の面でも優れた効率を提供します。SVMと他のスパムメールフィルタと組み合わせることで、効率的にトラフィックを減らすことが可能になります。