モーグルとカバとパウダーの日記

モーグルやカバ(EXカービング)山スキー(BC)などがメインの日記でした。今は仕事のコンピュータ系のネタが主になっています。以前はスパム対策関連が多かったのですが最近はディープラーニング関連が多めです。

ほんとに「オオアリクイ」スパムはベイズよけのため生まれたのか?

5年くらい前に流行った「オオアリクイ」スパムについて、面白い考察が出ていた。


なぜ「主人がオオアリクイに殺されて1年が過ぎました」なのか? - あんちべ!
http://d.hatena.ne.jp/AntiBayesian/20111125/1322210338


要約すると、スパムフィルタでよく使われている、(迷惑メールによく使われる単語を自動学習する)ベイズフィルタを抜けるために、「オオアリクイ」というスパムではまず使われないであろう単語が、偶然(コンピュータのランダムによる文章自動生成によって)使われた、というわけである。


確かに説得力がある説明なのだが、自分はそれはたぶん違うんじゃないかなあ、という感想だった。


この説通りだとすると、その時期に同じテンプレートを使って、似たようなパターン、つまり「オオアリクイ」の代わりに「パンダ」だとか「ペンギン」だとかが入った文がたくさん出まわっていてもおかしくないはずだ。
だが、当時話題になってたのはあくまでオオアリクイだけで、他の単語が入ったパターンは取り上げられているところはなかったように思う。
少なくとも自分あてに届いたものも、他のブログで紹介されてたのもは見たことがない。
確かに「オオアリクイ」はインパクト強いが、他のいろんなパターンがあったなら、そういう例も見かけていると思う。*1


そしてなによりも直感的に違うなと感じたのは、日本語のスパムを出している連中は、そこまでスパムフィルタを抜けることを研究したり、頑張ったりしてない、という感触があるからだ。
世界のスパムでは既に、botを使って大量のスパムを吐き出すというのすらもはや終えようとしていて、もっと効率の良いSNSをターゲットとしたスパムやフィッシングへと移行しようとしている感じだ。
だが、日本のスパムは未だにフィリピンや韓国などの特定サーバ群から出されるタイプであり、換金手法も出会い系サイトへ誘導して架空請求とかそんなのをやってる。
あと例えば、日本語スパムでは画像スパムすら例が少ないし、(アンチOCRフィルタの)歪んだ文字使った画像スパムなんてなかったはずだ。


はっきり言って、日本のスパム界は旧態依然のガラパゴスなんだよね。
まさに言語の壁によって守られているという状態。


なので、ベイジアンフィルタを抜けるためにいろいろ工夫して… なんてやってるとは僕には到底思えなかったのだ。
だからと言って、日本のスパム業者もっと頑張れ!と言いたいわけじゃないんだけどさ… なんというかこんなとこでも日本のIT技術は遅れてる感じを受けてちょっと悲しい気になったり。

*1:その頃はもう、迷惑メール対策についていろいろ作ったり、調べたりしていたので