学習型フィルター「SVM」
「SVM」の学習型スパムフィルターとは
Active! hunterは学習型スパムフィルターにスパムメール業者による対策が進んでいるベイジアンフィルターに代わり、最新の機械学習理論「Support Vector Machine」(SVM)によるフィルターを採用しています。
「SVM」は文字認識や画像認識などの分野で最も優れた認識性能を持つ最新の学習モデルと言われ、特に、入力値の僅かな変化や未知の情報に対しても柔軟な対応が可能です。「SVM」には下記の優位性があります。
- 自然言語処理などの分野で有効性が高い学習アルゴリズムであること(日本語の口語体や話し言葉などのスパムに威力を発揮する)
- 未知のパターンのスパムメールに対しても正しく識別率が高い(高い汎化能力を持つ)
- 一部の範囲でのもっとも良い値で学習が止まってしまうという「局所最適解」の問題を回避する
日本語スパムや未知のスパムにも高い検知率を発揮
携帯電話のメールで見られる会話体の短い文体、単語の区切りが存在しない記法など、日本の電子メールには日本ならではの特徴が存在し、海外製のアンチスパム製品ではその対応に自ずと限界があります。
「SVM」フィルターは、日本語スパムや未知のスパムに対するインテリジェント判定の必要性から設計されました。「SVM」によるスパム判定エンジンはシステムが備える基本エンジンと学習結果によって成長する管理者設定エンジンで構成されています。
通常、スパムメールの判定には、正常メール・スパムメールともに100以上のサンプルが必要ですが、トランスウエアの「SVM」学習エンジン供給チームがあらかじめ100,000件以上のメールを学習済みの「SVM」学習エンジンをご提供。
日本国内で日本の環境(ドメイン)に最適なかたちで開発された「SVM」学習エンジンは、導入後もスパムメールの定義を構築し続け、日本語スパムや未知のスパムからもお客様を守り続けます。
「SVM」でのメール分類手順
「SVM」ではベクトル空間上にすべての学習データを配置し、各分類の間に境界線を引くことで、今後の分類に必要な定義を決定します。
学習されたメールは、全体を単語の集合体として評価(ベクトル化)され空間上に配置されます。このデータの中から、分類こそ違えど内容が非常に似通っているサンプル(「サポートベクター」と呼ばれます。)が取り出され、この両者からの距離が最も大きくなる地点が境界線として認識されます。
この手順によって、多くのデータから分類の境界を決定するのに最適なごく少数のサンプルが選別されます。その結果として、明確で性能の良い分類基準を設定・維持することが可能になるのです。
「SVM」はこうして設定された境界線を用いて、メールがスパムメールなのか正常メールなのかを判定します。

(多くのデータの中から境界線決定に必要なサンプル(ここでは●と■が該当)が選び出され、境界線が決定されます。)
ベイジアンフィルターとの差異
「SVM」とベイジアンフィルターは、どちらも経験測を基にしたスパムフィルタリングを提供する技術です。
ベイジアンフィルターの基となったベイズ理論は1764年に発表され、1998年頃よりスパムメールフィルタリングへの応用が試みられました。扱いやすい点から普及が進み、定番のスパム対策ツールとしての地位を確立しています。
しかしその一方で、スパムメール業者によって、フィルタリングを回避する対策も確立されつつあります。
「SVM」は新しい技術ですが、未知のスパムメールを判定する仕組みが単純です。そのため最近のスパム送信者が多用する局所的な回避対策に対しても、学習結果が左右されにくいという強みを持っています。精度の高いパターン分類の手法として応用範囲の拡大が期待されています。
| 要素 | 「SVM」 | ベイズ理論 |
|---|---|---|
| 発表 | 1992年 | 1764年 |
| 出力される値 | 2値(方程式) | 連続値(0.01〜0.99) |
| データの最適化方法 | 両分類から内容が最も似通っているサンプルを利用 | スパム確率が0.5から離れている特徴的なサンプルを利用* |
| 迷惑メールの判断基準 | マッピング後の分類が迷惑メールに該当すること | 出力値が0.9を超えること |
| 迷惑メール対策での応用例 | Microsoft Smart Screen技術(Hotmail、Exchangeなど) | MIME Sweeper、spamassassin、SPAM WATCHERなど |
*:Paul Graham 方式の場合
「SVM」とベイズ理論の主な差異
コンテンツフィルターを補完し未知のスパムも検知する「SVM」
「SVM」はActive! hunterの17段階の複合的なフィルタリングの1つです。
1段階から8段階はメール受信前の「フロー制御」、9段階から17段階はメール受信後の「フィルタリング」と多角的にフィルタリングを行いますが、「SVM」はメール本文を精査するコンテンツフィルタリングを補完する位置づけにあります。Active! hunterのコンテンツフィルターは、送信者、件名、本文といった情報に対してキーワードマッチングを行うものですが、日々進化するスパムメールの内容に対し、都度新しいキーワードを追加していくのは非常に手間がかかります。
「SVM」はこうしたスパムメールの内容を分析し学習することで、スパムメールと同様の特徴を持つ未知のメールに対してスパムメール判定を行います。
よって未知のスパムメールに対する非常に有効な対策となります。
「SVM」が学習に必要なメールを自動的に抽出することで学習に必要な手間を省けるだけでなく、局所的な状況に左右されにくい作りにより過学習による性能の劣化を防ぐなど、管理保守効率の面でも優れた効率を提供します。「SVM」とコラボレーション型の「CLOUDMARK」などほかのフィルターと組み合わせることで、効率的にトラフィックを減らすことが可能になります。
ご購入は販売パートナーへお問い合わせいただくか、こちらからお問い合わせください。


