モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

第9回まっちゃ445勉強会(迷惑メール対策勉強会)で講師してきました

以前のエントリーにも書いた通り、東京でまっちゃ445勉強会が「迷惑メール対策」ということであり、そこで講師をさせていただいてきました。


その際の自分のプレゼン資料を公開しましたので、興味のある方はご参照ください。

「SMTPセッションでのスパム対策とtaRgrey」
http://k2net.hakuba.jp/spam/matcha445_9/20090829_tokyo_spam_satoh.pdf


また、プレゼンに出てくる自分の提案している各種スパム対策手法、Rgrey/Starpit/taRgreyについてのページです。プレゼン見て興味持たれた方は、詳しい内容についてはこちらをどうぞ。
Rgrey - S25R + greylisting
Starpitでほぼ誤検出無く98%のスパムを排除 (S25R+tarpittingによるスパム対策)
taRgrey - S25R + tarpitting + greylisting (tarpit + greylist policy server)


今回は、特にオープンソース系でスパム対策にかかわっている人たちが非常に多く集まれました。(と言いつつ、まだ何名か気になる方いるんですが)
スパム対策は、どの時点での対策かとか、手法によって実は分野が分かれるんですが、そのへんも結構バラけていたので、話す内容を各自のメインのところにフォーカスすることができ、密度の濃い話になったのではないか、と思います。


あと今回こういう形になったのは、スパム対策系やってるひとらで半年毎とかに集まって情報交換できたらいいよね、という滝澤さんの発案があったからなのですが、僕が先走って会いたい人に声かけてまわってしまったもんで、個人的には「僕がスパム対策系で会いたかった人に会うための勉強会」みたいな感じになっちゃいました。
しかも参加者として、僕のスキー仲間の… いやいや、日本からMAAWGに参加されてたmanabuさん、MTA のアクセス制御等書かれているyamayaさん、RgreyやtaRgreyのことでいろいろお世話になってるBirds Of a FeatherのCookieさん、セキュリティ系のことでよくブログ参照させてもらっているてくてく糸巻きのitochanさん、という感じで、会いたかった人に直接会って話が出来たので、ほんととてもよかったです。
話をしたかった人にいっぺんに会いすぎて、一人ひとりの人とあまりたくさん話が出来なかったのが残念なくらいでした。
そうそう、face-to-face重要。コミュニケーションの取りやすさが断然違ってくる。


今回も、まっちゃさん、ヴァルカンさんはじめ、運営のみなさんには大変お世話になりました。いわゆる決まり文句としての「お世話になった」、じゃなくてほんとうに。
特に今回は、講師人数が多かったので、時間配分とかいろいろと大変だったと思います。
楽しませていただきありがとうございました _o_
懇親会で話が出てましたが、この勉強会で出たアイデアを元に実際にこんなことをやってみて、その結果こうでした、みたいな発表を将来の勉強会で出来るようにしたいですね。

セッション内容と、その公開されてるプレゼン資料URLまとめです。

セッション1 「DKIM, SPF設定と送受信サーバの分離→メール送信サイトの設定」

http://matcha445.techtalk.jp/saturday-workshop/9th-workshop
dkim-milter などの FreeBSD 向けパッケージメンテナ / Hirohisa Yamaguchi (umq) さん
第09回 まっちゃ445勉強会 - umq の日記

セッション2  「S25R」

S25R 開発者 / 浅見秀雄 さん
Site: http://www.gabacho-net.jp/anti-spam/
S25Rスパム対策方式のご紹介

セッション4 「milter manager」

http://www.clear-code.com/archives/matcha445-9/
milter manager 開発者 / 須藤功平 さん (株式会社クリアコード)
Site: http://milter-manager.sourceforge.net/index.html.ja
第09回 まっちゃ445勉強会の資料公開 - ククログ(2009-08-31)

セッション5 「自動メール分類ツール POPFile」

http://idisk.mac.com/amatubu/Public/study/POPFile_20090829_amatubu.pdf
POPFile Core Team の中の人 / いいむらなおき さん
Site: http://getpopfile.org/docs/jp
第09回まっちゃ445勉強会資料 - あまつぶ@はてなダイアリー

セッション6 「日本語化SpamAssassin 」

SpamAssassin 日本語対応パッチ開発者 / 滝澤 隆史 さん
Site: http://spamassassin.jp/
第09回 まっちゃ445勉強会 - ぞえ の戯れ言

セッション7 「SA TLECレシピ」

http://www.flcl.org/~yoh/sa_user_prefs_matsuda.zip
TLEC の SpamAssassin のルールの中の人 / 松田陽一 さん
Site: http://tlec.linux.or.jp/topic.html
2009.8.29まっちゃ445勉強会アフターフォロー - 日本SpamAssassinユーザ会

セッション内容について気になったところのメモ

あと、個別のセッション内容について気になったところ、勉強会中で自分がメモった内容です。
ちなみに、umqさん(SPF/DKIM)や浅見さん(S25R)、須藤さん(milter-manager)の内容についてはメモが少ないですが、これは前回静岡の勉強会で話を聞いてるからということと、S25Rについては自分もすごくよく利用して知っているためなので、ためになる話が少なかった、ということではないですよ :) 念為

SPF/DKIM
  • DKIMのRFC5617が先週出てopendkim1.0も先週。なんてタイムリー!
  • DKIMの負荷はそんなにないらしい。
  • I社では入れてる(やまやさん)
S25R
milter-manager
  • milterではHEADERが1行ずつ、BODYも分割して渡されてくる
  • milterでもDKIMは最後に掛けないとまずいとか順番が重要な場合がある
  • 評価モードとその結果から統計グラフが出る
  • ユーザ毎にmilterの適用が出来る
POPFile
  • 元はスパム対策用ではなく分類用に作られた
  • imapの場合imap内で選り分けしてくれる?
  • ベイズって特定できないパラメータ部分は結構省略されてる
  • スペースはさんだり空タグ入れたりなどは、別で判定して名前付けしてそれはそれで判定材料にしている
    • → 全部が全部自動学習でうまくいくわけじゃない
  • Spammer's Compendiumというサイトにその手の手法が網羅されてる
  • 「不明」という判定入れることで判定率が上がる
  • 分かち書きパーサの違いでは判定率はほぼかわらない
  • 英語では2文字は無視するが日本語では2文字以上で単語
SA
  • sa-updateでルールを最新標準ルールにアップデートできる
  • sa-compileでルールを高速化出来るが日本語化のものはダメらしい
  • AS番号のプラグインもある 
  • 利用開始時はベイズ学習がまだなので required_score 5を大きくしといて徐々に5に近づける
  • trusted_networks の設定は必須
  • 設定ファイル変えたら spamassasin --lint して確認
  • spamass-milter は「拒否」も可能
  • ThunderbirdでSAのヘッダ情報利用するオプション指定がある
  • 12以上なら間違いなくスパムで20以上なら捨てていいだろう
  • 日本語ルール自動作成スクリプトがおもしろい
TLECレシピ
  • SAは日本語圏特有の事情が考慮されていない
  • 本家レシピが玉石混交で意外にずさん
  • 日本語スパムに特化したレシピがTLECレシピ
  • メタルール多用
    • → 複合条件でマッチしたときに点数を高くする
  • 良く使われる動的IPアドレス帯を登録している
  • DNSBLã‚„Razor2のルールも個別では低めにして複合条件で高くする
  • 正規表現はなるべく厳密に書いて誤検出しないように
  • fullルールでは「^」「$」はメール頭と末を表すので注意
  • 松田さんの収集してるアドレスでは日本語スパムが25%
    • → yahooのアドレスとかだと日本語スパムが多い?
  • 日本語スパムはアジア発が98%だからbotnetは使ってないだろう
  • Gmail発は判定がとても難しい
  • 公開アドレスと(yahooの?)ハニーポットアドレスでは全く違うスパムが来る
  • CNCグループからのスパムが8割(2009/3時点)


ちなみに今回、個人的に一番面白かったなあ、と思ったのはTLECレシピの松田さんの話でした。
他の方の内容は、やはりそれなりに「知ってる」内容が多かったのですが、松田さんの話には自分の知らない分野のことが多く、いろいろと刺激をうけました。
やはり自分の手法的にbot発のスパム対策について目を向けていることが多いので、日本語スパムについての話や傾向については特に参考になりました。泥臭い作業って絶対必要だし。

それに関連して、国により結構スパムの傾向が違うので、ルールのローカライズって実は重要だと思っていたのですが、今回特にその思いを強くしました。
例えば、海外のMLでS25Rの説明する時、結構否定的な意見をもらうこともあるんですが、これも地域毎の特性が結構大きいように思います。中国や韓国など、国によって逆引き設定しないのが結構良くある、普通、という場合、日本ほどは使い勝手良くないでしょうから。


今後も定期的にこういった勉強会を出来るようにしようね、という話が出てますので、興味のある勉強会開催者の方は、うーん、まっちゃさんに連絡してもらえれば良いのかな?
もしくはここにコメントしてもらえれば。


自分は新ネタ考えなくちゃな〜


(関連)

8/29(土)第9回まっちゃ445勉強会で「迷惑メール対策」の勉強会 - モーグルとカバとパウダーの日記
第2回静岡ITPRO勉強会で話してきました - モーグルとカバとパウダーの日記