ニフティは3月26日、スパムブログを自動判別できるフィルタリング技術を開発、同技術による調査で国内ブログの4割がスパムブログであるという調査結果を発表した。
国内のブログ数全体に関する調査はこれまでも発表されていたが、スパムブログに関する調査結果は珍しい。今回のフィルタリング技術およびスパムブログ調査について、ニフティ コミュニケーションデザイン部の上符裕一マネージャーと名越潤也氏に伺った。
■ アフィリエイトや特定サイト誘導目的のブログを「スパム」と定義
|
ニフティ コミュニケーションデザイン部の上符裕一マネージャー(左)と名越潤也氏(右)
|
――本日はよろしくお願いします。初めに、スパムブログに関するフィルタリング技術の開発に至った経緯を教えて下さい。
名越:弊社ではスパムブログを「アフィリエイトで広告収入を得ることや、特定のサイトへ誘導したりすることを目的として生成されるブログのこと」と定義しています。
スパムブログの問題は大きく3つです。1つはブログサービス事業者にとって、大量かつ機械的に生成されるスパムブログはブログシステムの資源を大量に消費するためにコストがかかりますし、ブログサービスのレスポンス低下にもつながります。
また、クチコミマーケティングの分野でもスパムブログが混じることで分析結果が不正確なものとなり、本当の生活者の声がわからなくなる。最後にユーザーにとっても、スパムブログが大量に自動生成されることで、本当に欲しい情報にたどり着くことが難しくなってしまう。この3つがスパムブログの大きな問題だと考えています。
――スパムブログの種類を教えてください。
スパムブログは「自動生成系」「アダルト系」の2つに大きく分類できます。自動生成系はさらに「引用スパム」[アフィリエイトスパム」「ワードサラダ」「自動マルチポスト」の4つに、アダルト系は「わいせつ記事」「出会い系」「ワンクリック詐欺」の3つに分類しています。
|
スパムブログの分類
|
――どの種類のスパムブログが多いのでしょうか。
名越:正確な数字は計測していませんが、最も多いのは引用スパムですね。スパムブログの4割ぐらいは引用スパムではないかとと思われます。
上符:最近ではさまざまなサービスでAPIが公開されており、それらAPIを組み合わせることで引用ブログを生成しているケースも多いようです。
――日本国内のブログの約9割を対象としているとのことですが、その収集方法は。
上符:ブログサービス事業者の最新記事RSSとPingサーバーの情報から収集し、重複はできるだけ排除しています。Pingサーバーなどへ通知していないブログに関しては、しらみつぶしに探すしかありません。「アルファブロガー」と言われるブログは独自ドメインを取得している場合もあり、そういったブログも収集していないとブログ分析という主目的でデータの意味がなくなりますから、できる限り手動でも情報を集めています。
■ 複数のフィルタリングを組み合わせて精度を高める
――フィルタリングの仕組みを教えてください。
名越:自動生成系に対しては、ブログ内の記事が類似しているかどうかを判別するフィルタリング、記事の更新頻度と時間帯によるフィルタリング、リンク構造解析によるフィルタリングの3つでチェックを行ないます。アダルト系に対してはわいせつな単語を学習するフィルタリングを利用し、これら複数のフィルタリング技術を組み合わせることで、スパムブログの特性に合わせた最適な結果が得られます。
|
フィルタリングの仕組み
|
|
上符裕一マネージャー
|
――引用が中心の個人ブログの場合、スパムブログと判別が難しいように思われますが、個人ブログとのスパムブログはどのように区別しているのでしょうか。
名越:複数のフィルタリング技術を組み合わせることで対処しています。例えば記事更新の頻度や時間帯で言えば、1日に30件も投稿していたり、いつも投稿する時間が決まっている場合はスパムの可能性が高い。また、リンク構造解析の場合、特定のスパムサイトにリンクしているブログは、リンク先がスパムであるということを知っているわけですから、そのブログもスパムブログである可能性が高いということをリンク構造から解析しています。
もちろん、フィルタリング技術ですべてのブログを白と黒に分類できるわけではなく、どちらか分類が難しいグレーゾーンのブログもあります。
――グレーゾーンをすべてスパムと仮定した場合、どのくらいの数になるのでしょうか。
名越:明言はできませんが、おそらく50~60%程度になるのではないでしょうか。ただし、検索ワードによってスパムブログのばらつきはあって、ブログ検索などで検索されやすい人気のキーワードはスパムで利用されることも多いです。検索ワードで絞らずブログ全体で見ると40%という数字に落ち着くでしょう。
上符:スパムブログの40%という数字は「こんなに多いのか」という意見がある一方、「こんなに少ないのか」という反響もありました。ネットで積極的に情報を収集している方にとっては、40%という数字は少なく思われているようですが、そうした積極的なユーザーの場合、検索するキーワードがスパムブログで使われているケースも多く、感覚的にスパムブログが多く感じるのではないでしょうか。
■ スパムブログの75%は上位5事業者で占められる
|
名越潤也氏
|
――ブログ事業者ごとのスパムブログ比率は。
名越:社内ではそういった数値も調査していますが、弊社としてもブログサービスを提供している関係上、具体的な事業者名は差し控えさせていただきたいと思います。ただし、事業者によってはブログ記事の50~60%程度がスパムという事業者もいます。ココログの場合はそれらに比べると、かなり低い数値になります。
上符:スパムブログ比率が高いブログの場合、ブログの記事数やブログ数自体も多いので、結果としてスパムブログ比率だけでなくスパムブログの数も多くなっています。
名越:スパムブログの約75%は、スパムブログ数の多い上位5事業者で占められています。
――ユーザーがスパムブログを報告する仕組みは可能でしょうか。
上符:ユーザー報告の場合、「このブログが嫌いだから」という理由だけでスパムとして報告するケースもあり、報告されたデータすべてを信用するのは難しい実情があります。また、1カ月に1,500万件以上のブログ記事が作成されるため、これを人力でチェックするには相当な人数が必要でしょう。導入するとしても、個人がスパム報告したブログをフィルタリングシステムで分析するなど、2つを組み合わせた形になると思います。
――先日、1年間更新されていないココログフリーを削除するという発表がありましたが、これもスパム対策の一環でしょうか。
上符:ココログフリーの場合、開設したはいいが更新しないというブログも多く、ネット上の不要な情報をできるだけ少なくするということで今回の発表に至りましたが、同時にスパム対策という意味合いもあります。
■ 今後は事業者で連携したスパムブログ対策やAPI公開も検討
――スパムと判定されたブログはどうなるのでしょうか。
上符:事業者として難しいのは、公序良俗に反するブログや法律的に問題があるブログでない限り、スパムブログであっても削除という対策は取りにくいということです。ブログ検索などはスパムを表示しないという機能も導入されていますが、ブログ事業者としてできることと、ブログをナビゲーションする立場としてのできることは違いがあります。
また、ニフティのブログ分析サービス「BuzzPulse」のお客さまからは、「アフィリエイトのブログも含めて分析して欲しい」という要望をいただくこともあります。アフィリエイト目的であってもブログに書かれることが人気のバロメータである、という考えもありますので、我々としてはスパムと分類した上で、スパムブログも含めて分析することもできるようになっています。
――ブログ事業者間でスパムブログ対策を連携するという考えは。
名越:調査結果をリリースしたばかりということもあり、具体的な話はまだ出ていませんが、やれることはやっていきたいと思います。
上符:我々のビジネスは、ブログにきちんとした内容が書かれていてはじめて成り立つビジネスです。まずはココログやニフティでの連携が先ですが、スパムブログの多い事業者などとは、一緒にスパム対策について話を進めていきたいと考えています。
名越:こうしたスパムブログのフィルタリング技術を社内のプラットフォームとしてAPI公開したり、社外に対してもビジネスとしてAPIを提供する。そういった展開は今後ありえると思います。
――ありがとうございました。
■ URL
ニュースリリース(3月26日発表)
http://www.nifty.co.jp/cs/07shimo/detail/080326003337/1.htm
■ 関連記事
・ ニフティ、スパムブログの自動判別技術を開発。国内ブログの4割がスパム
(甲斐祐樹)
2008/04/09 10:52
|