SpamAssassin

SpamAssassin
	SpamAssassin がスパムとして認識した電子メール（Evolution クライアント）
開発元	Apacheソフトウェア財団
最新版	4.0.0 / 2022年12月17日 (23か月前)
リポジトリ	svn.apache.org/viewvc/spamassassin/;
プログラミング; 言語	Perl
プラットフォーム	クロスプラットフォーム
種別	スパムフィルタ
ライセンス	Apache License 2.0
公式サイト	http://spamassassin.apache.org
	テンプレートを表示

SpamAssassin（スパムアサシン）は、コンテンツマッチング規則に基づいたスパムフィルタリングのプログラムであり、Apache License 2.0 でリリースされている。現在はApacheソフトウェア財団のプロジェクトとして実施されている。

SpamAssassinは様々なスパム検出技法を使っており、例えばDNSベースの技法、チェックサムベースの技法、ベイジアンフィルタ、外部プログラム、ブラックリスト、オンラインのデータベースなどを利用する。

このプログラムはメールサーバに組み込んで、そのサイトに到達した全メールを自動的にフィルタリングするのに使うことができる。また、電子メールクライアントに組み込んで、個々のユーザーが自身のメールボックス上で動作させることもできる。SpamAssassin は柔軟な設定が可能で、システム全体のフィルターとして使う場合でも、ユーザー単位の設定が可能である。

SpamAssassinは Linux New Media Award 2006 でLinuxベースのアンチスパムソリューション部門賞を受賞した^[2]。

歴史

SpamAssassinの開発者 Justin Mason は、1997年8月に始まった Mark Jeftovic の filter.plx というプログラムにいくつものパッチを提供していた。Mason は Jeftovic のコードを一から書き直し、それを2001年 4月20日にSourceForge.netにアップロードした。これがSpamAssassinの始まりである。4.0.0 からは UTF-8 のメールにも対応した。

使用法

SpamAssassinはPerlで書かれており（CPANでは Mail::SpamAssassin）、通常は1人または数人のユーザーが受信するメールをフィルタリングする。独立したアプリケーションとしても別のアプリケーション（MailScannerなど）のサブプログラムとしても実行でき、デーモン（spamd）と通信するクライアント（spamc）としても動作可能である。後者の運用モードの方が性能的に有利だが、場合によってはセキュリティ上のリスクを増大させる可能性がある。

通常、汎用電子メールフィルタリングプログラムとして設定するか、電子メールクライアントがメールを受信するたびに直接呼び出す設定にする。procmailのような電子メールフィルタでは、ユーザーの .procmailrc ファイルの設定に従い、SpamAssassinとパイプで結んで受信メールを処理することもできる。

運用

SpamAssassinには、電子メールがスパムかそうでないかを判断するために適用する規則が大量に付属している。規則の多くは正規表現になっており、メールの本体やヘッダ部とのマッチングを行うが、SpamAssassinには他にもいくつかのスパム検出技法が使われている。規則群はSpamAssassinの文書では「テスト (test)」と呼ばれている。

各テストにはスコアがあり、そのテストにマッチしたメッセージにそのスコアが割り当てられる。スコアは正の場合と負の場合があり、正の値は「スパム」であることを示し、負の値はそうでないことを示す。メッセージに対して全テストを適用すると最終的なスコアが得られる。そのスコアが高いほどそのメッセージはスパムである可能性が高いということになる。

SpamAssassinには設定可能なスコアのしきい値があり、メッセージがスパムかどうかをそれによって判断する。通常、複数のテストとマッチしなければスパムとは見なされない。1つのテストとマッチしただけではしきい値に達しない。

SpamAssassinがあるメッセージをスパムと見なした場合、それを書き換えることができる。デフォルトの設定では、元々の電子メールの本文はMIMEアタッチメントとして添付され、本文にはその概略とスパムと判断する要因となったテストの説明が記述される。スコアが設定した値より低い場合、デフォルトではスコアとテストの概要が電子メールのヘッダ部に追加され、それをその後の処理に利用できる（例えば、怪しいメールとしてタグ付けするなど）。

SpamAssassinはシステム全体のサービスとしてインストールされていても、ユーザー毎の設定が可能である。設定はファイルから読み込むこともできるし、データベースから読み込むこともできる。ユーザーは例えば特定の個人からの電子メールをスパムと見なさないように設定できたり、特定の規則のスコアを変更したりできる。また、電子メールが書かれている言語を指定して受信することを宣言でき、SpamAssassinはそれ以外の言語で書かれたメールに高いスコアを割り当てる。

ネットワークベースのフィルタ技法

SpamAssassinは、以下のような機能もスパム検出手段としてサポートしている。

DNS-ベースのブラックホールリスト
SURBLやURIBL.comなどのURIブラックリスト（スパム発信元を監視しているサイト）
チェックサムベースのフィルタリング。Distributed Checksum Clearinghouse、Vipul's Razor、Cloudmark Authority プラグイン（商用）など。
Hashcash
Sender Policy Framework

多くの場合、SpamAssassin用プラグインをPerlで書くことで追加でき、比較的簡単に追加できる。

ベイジアンフィルタ

SpamAssassinは自前の規則群をベイジアンフィルタで補強しようとするが、ベイズ学習は実際の入力を伴ったとき最も効果を発揮する。通常ユーザーは、スパムメールの具体例と普通のメールの具体例を入力する必要があり、それによって両者の違いを学習させる。このため、SpamAssassinにはコマンド行ツール sa-learn があり、1つのメールやメールボックス丸ごとをスパムまたは普通のメールとして学習させることができる。

一般にユーザーはスパムと認識されなかったスパムメールを一旦特別なフォルダに分けておき、後からそのフォルダを指定して sa-learn を使い学習させる。あるいはメーラーがサポートしている場合は、個々のメールに対して sa-learn を自動的に呼び出すこともできる。学習をどのように行おうとも、SpamAssassinのベイジアンフィルタは以前に受信したスパムと似た電子メールには高いスコアを付けるようになる（正確に言えば、以前に受信したスパムメールがスパムであると判断されたのと類似した傾向のある電子メールに高いスコアを付ける）。

ライセンス

SpamAssassinはフリーソフトウェアでオープンソースであり、Apache License 2.0 でライセンスされている。3.0より以前のバージョンは Artistic License と GNU General Public License のデュアルライセンスだった。

sa-compile

sa-compile は SpamAssassin 3.2.0 に含まれているユーティリティである。SpamAssasin の規則群を決定性有限オートマトンにコンパイルし、プロセッサの性能をより効率的に発揮できるようにする。

SpamAssassinの評価

SpamAssassinは多くの場合、GTUBEという68バイトの文字列をスパムとして検出する。アンチウイルスソフトウェアの評価に使われるEICARテストファイルのように、GTUBEをSpamAssassinの評価に使うことができる。この文字列を RFC 2822 形式の電子メールの中に含め、SpamAssassinエンジンを通せば、スコア1000でスパムと判断する。

脚注・出典

^ View of /spamassassin/trunk/CREDITS
^ “Linux New Media Awards 2006” (PDF). Linux Magazine. 2008年7月10日閲覧。

外部リンク

SpamAssassin 公式サイト
SpamAssassin Wiki
sa-update SpamAssassinの自動更新
SpamAssassin Rules Emporium (SARE) SpammAssassin用のフィルタリング規則集（2008年前半ごろから更新されていない）
OpenProtect's SpamAssassin sa-update channel SAREにある最新のフィルタリング規則で自動的にSpamAssassinを更新するサイト（上の行にあるとおり、更新されていない）
Linux New Media Awards 2006 Linuxベースのアンチスパムソリューション部門で、SpamAssassinは69%の得票率だった。
Vipul's Razor (SourceForge)
Pyzor (SourceForge)
Exchange-SpamAssassin Sink
Questions about sa-compile

[1] View of /spamassassin/trunk/CREDITS

[2] “Linux New Media Awards 2006” (PDF). Linux Magazine. 2008年7月10日閲覧。

[1]

[2]

表話編歴 Apacheソフトウェア財団
トップレベルプロジェクト	Accumulo（英語版） ActiveMQ Airflow Ambari（英語版） Ant Aries（英語版） Arrow（英語版） Apache HTTP Server APR Avro（英語版） Axis Axis2 Beam Bloodhound（英語版） Brooklyn（英語版） Buildr（英語版） Calcite（英語版） Camel（英語版） Cassandra Cayenne（英語版） Chemistry（英語版） CloudStack（英語版） Cocoon Cordova CouchDB cTAKES（英語版） CXF（英語版） Derby Directory（英語版） Drill Druid（英語版） Empire-db（英語版） Felix（英語版） Flex Flink（英語版） Flume（英語版） FreeMaker（英語版） Geronimo Giraph（英語版） Gump（英語版） Hadoop HBase Helix（英語版） Hive Impala（英語版） Jackrabbit（英語版） James Jena（英語版） Jini（英語版） JMeter（英語版） Kafka Kudu（英語版） Kylin（英語版） Lucene Mahout Maven MINA（英語版） mod_perl（英語版） MyFaces（英語版） NetBeans Nutch（英語版） NuttX（英語版） OFBiz（英語版） Oozie（英語版） OpenEJB OpenJPA OpenNLP OpenOffice ORC（英語版） PDFBox（英語版） Parquet（英語版） Phoenix（英語版） POI Pig（英語版） Pinot（英語版） Pivot Qpid（英語版） Roller RocketMQ（英語版） Samza（英語版） ServiceMix（英語版） Shiro（英語版） SINGA（英語版） Sling（英語版） Solr Spark Storm（英語版） SpamAssassin Struts 1 Struts 2（英語版） Subversion Apache Superset SystemDS（英語版） Tapestry Thrift Tika（英語版） Tomcat Traffic Server（英語版） Turbine（英語版） UIMA（英語版） Velocity Wicket Xalan Xerces XMLBeans Yetus（英語版） ZooKeeper
Commons	BCEL（英語版） BSF（英語版） Collections Daemon（英語版） DBUtils Email IO Jelly（英語版） Lang Apache Commons Logging（英語版） Math
Incubator	Apache MXNet（英語版） Apache Taverna（英語版）
その他のプロジェクト	Apache Batik Chainsaw（英語版） FOP Ivy（英語版） log4j
Attic	Abdera（英語版） Apache Apex（英語版） AxKit Beehive（英語版） Bluesky（英語版） iBATIS c++ Standard Library（英語版） Cactus（英語版） Click（英語版） Continuum（英語版） Apache Deltacloud（英語版） Apache Etch（英語版） Excalibur（英語版） Forrest（英語版） Hama（英語版） Harmony HiveMind（英語版） Jakarta Lenya（英語版） Marmotta（英語版） ODE（英語版） Shale Slide（英語版） Shindig Stanbol（英語版） Tuscany（英語版） Wave（英語版） Wink（英語版） XML
ライセンス	Apache License
Category Commons