「重複コンテンツはスパムでGoogleにペナルティを受ける」は、なぜ間違いなのか

[対象: 中級]

GoogleのMatt Cutts(マット・カッツ)氏が重複コンテンツの扱いについてあらためて説明しました。

ウェブ上のコンテンツを見ると、25〜30%くらいは重複コンテンツだと認識しておくことが重要だ。Linuxのmanコマンドについてのページなど、そういうのすべてだ。

つまり、重複コンテンツというのは確実に存在するものなんだ。ブログ記事の一部を引用してそのブログへリンクを張ることとかも当てはまる。

したがって重複コンテンツが起こるとどんな時でもスパムになるというのは事実じゃない。もし重複コンテンツがすべてスパムだと決めつけてしまったら、検索品質を上げるというよりも損なってしまう結果になってしまうだろう。

実際には次のようになる。
Googleは重複コンテンツを探す。重複コンテンツを見つけると、それら全部をまとめて1つであるかのように処理しようとすることが頻繁にある。
実質的に同一の2つのページを我々が検索結果に返したと想定してほしい。どうすると思う? 「同じ2つのページを見せるよりも、どちらか1つを見せるようにてもう片方を締め出そう。」と大抵の場合は我々は考えるんだ。

完全な検索結果を見たければ、検索結果ページの下まで行ってフィルタを変更すれば1つ残らずページを見ることができる。

だけど、ほとんどの場合には、重複コンテンツが本当にスパムとして扱われることはない。適切にまとめる必要があり正しく順位づけする必要があるものとして扱われているに過ぎない。

しかし重複コンテンツは確かに起こるものだ。

ただしそうは言っても、重複コンテンツしかなかったり、乱用・悪用したり騙したりするようなやり方で重複コンテンツを作っているのであれば、スパムとして対策する権利を僕たちは持っている。

「RSSを取得して自動投稿するブログをスパムとしてみなされないようにするにはどうしたらいいか?」という質問をツイッターで尋ねられたことがある。

RSSフィードで得たものだけを自動生成しているというのがここでは問題になる。独自の価値というものをたいして与えていない。だからスパムとしてみなされる可能性がなくもない。

だけど普通のウェブサイトを作っていて、.comドメインと.co.ukドメインがあるとか新旧2つの規約があるとか、そういうことについて心配するんだったら、そういう重複コンテンツはウェブには当たり前に発生するし、重複コンテンツがあるといって僕が本当にストレスを感じることはないだろう。

米国中のすべての都市とすべての州に対して大量にコピーして、一部だけを変えただけのほとんど同じページを見せたりしない限りは大丈夫だ。

 

重複コンテンツは普通にあるもの、スパムではない

まず大前提として理解しておかなければならないことは、「重複コンテンツはスパムではない」ということです。
以前にもGoogleは説明しています。

重複コンテンツによって検索結果に出なくなるまたは順位が下がるのは、同じ結果を1つの検索結果ページに出さないようにするための処理です。

検索結果に出てきたページのどれもが同じ内容だったら、検索ユーザー(あなた)はどう感じますか?
同じものを何個も見せられても役にはたたないでしょう。

重複するコンテンツを持つページを認識したときの原則的な処理は以下のようになります。

  • 代表を1つ選んで、それを検索結果に表示する
  • それ以外は検索結果に出さないようにする、または掲載順位を低くする

検索順位が下がったり検索結果に出なくなったりするという点では手動の対応(ペナルティ)と同じかもしれませんが、Googleの認識と処理はまったく異なります。
「重複コンテンツでペナルティを受けた」というのは普通はありません。

もちろん絶対にないわけではなく、Matt Cutts氏が言うように意図してコピペコンテンツを量産するのであれば、それはスパムとして手動による対策の対象になりえます。

しかし何度も言うように、重複コンテンツでペナルティを受けることは極めて稀です。

重複コンテンツが多いと評価が下がる

ところが、重複コンテンツが多いとサイトの評価が下がることは事実です。
パンダアップデートの導入以降、より顕著になりました。

サイト内で同じまたは類似したコンテンツばかりであれば評価が下がります。
DBと連動してページを生成するようなサイトでは正規化ができてないと重複コンテンツのURLが発生しやすくなります。

ECサイトで、すべての商品に対してメーカーが配布した商品説明文をそのままコピーして使っているだけで、しかも同じことをほかのサイトもみんなやっている、こんな運用を長きにわたってやっていれば評価は下がるでしょう。

自分のサイトに投稿した記事を他のサイトへ配信するシンジケーションを定期的に利用している場合も注意が必要です。
適切に処置しておかないと自分がコピー扱いされて検索結果から締め出されてしまうこともあります。

上で説明したようなことがあるので、「重複コンテンツ = スパム」という誤認識になってしまうのかもしれませんね。

繰り返しますが、ウェブに普通に存在するような重複コンテンツはスパムにはなりません。
ただし、特に大規模サイトにおいては、サイト内・ドメイン間にかかわらず、重複ページが大量に発生する状況では評価が下がることがあります。
ですが、それはスパム対策によるものではありません。