サーバレスのサムネイル

サーバレス

AIの学習ボット・クローラーからサイトを守るメリットとブロックする方法

日々増えてきているAIの学習ボット・クローラー。見方によってはサイト運営者へ何も還元しないAIの学習ボット・クローラーからサイトを守るメリットとブロックする方法を解説します。

編集ノート:SERVERSUSでは、パートナーリンクからコミッションを得ています。コミッションが記事の意見や、サービスの評価に影響を与えることはありません。

AIの学習ボット・クローラーからサイトを守るメリット

これまでもWebサイトやWebサービスは、検索エンジンなどの外部サービスによってクローリング(サイトの内容を取得する)をされてきていました。

AIサービスの学習ボット・クローラーも同様といえば同様ですが、違う点が一つだけあります。それは「情報を抜かれたサイト側にもたらずメリットがほぼない」という点です。

例えば、検索エンジンであれば、情報を抜かれたとしても、あくまで「サイトに到達するためのインデックス情報」として取得しているだけであって、最終的にはサイトへの送客という形で還元してくれると言えます。

法的にも、検索エンジンが自社以外のサイトの内容を掲載することは、著作権で例外的に侵害にあたらないとされています(平成21年の著作権法改正で『利用制限の例外』として規定)。検索エンジンのボット・クローラーが他サイトから抜いた情報は、掲載する際に情報元を記載するため「引用の範囲内」になるというものです。

一方で、AIの学習ボット・クローラーは学習した元のデータと併記することはほぼない(Bing Copliotなど一部例外はあり)ため、引用にはならず、サイト作成者に還元されるはありません。つまり、情報をただただ無償提供し、しかもクローラーがアクセスするサーバーはサイト運営者によって利用料金を支払っているため、AIの学習ボット・クローラーはほぼほぼ「タダ乗り」状態になるのです。

このように、現状メリットがほぼない以上は、AIの学習ボット・クローラーをブロックした方がケースがあります。もちろん、AIサービスに情報を取り込ませることで、自社ブランドや製品を知ってもらうというメリットがある場合は別ですが、ニュースサイトや情報サイトなどは情報が命となるため、AIの学習ボット・クローラーを積極的にブロックする意味があります。

AIの学習ボット・クローラーをブロックする方法

robots.txtに記載する

AIの学習ボット・クローラーからサイトを守る、誰でも出来る方法はrobots.txtに記載する方法でしょう。

AI大手のOpen AIは、同社のGPTが学習する際に使っているボットのユーザーエージェントを公開し、学習拒否をする方法を公開しています。

# robots.txt
User-agent: GPTBot
Disallow: /

ただし、robots.txtを使った拒否方法は、あくまで「ボット側がrobots.txtの内容に従ってくれる」という信頼の元、成立しているもので、確実に自サイトのコンテンツを守ることが出来るわけではありません。

Open AIの学習ボットはrobots.txtに従うことが確認されていますが、他のAIサービスはrobots.txtを無視して、他人のサイトの内容を学習に使っているというレポートもあります。

そのため、万全な方法ではないですが、現状最大手のAIサービスであるOpen AIにサイトデータを使わせないということはできます。

外部ツールを使う

一番確実な方法は外部ツールを使う方法です。

例えば、DNSサーバーやCDNを提供するClouflareは、同社のDNSサーバーを使っているユーザー(無料ユーザーも含む)に向けて、AIスクレイピングを防ぐツールを無料で提供しています。

Cloudflareのユーザーなら、「セキュリティ」メニューの「ボット」から「AI スクレーパーとクローラーをブロックする」という項目をオンにするだけで、大手のAIクローラー・ボットのアクセスをDNS時点で拒否してくれます。

Cloudflareに登録したドメインごとに設定が可能なので、どうしても学習させたくないサイトはこのブロック機能を使うのがベストです。


価格は記載がある場合を除き、すべて税込みです。

関連キーワード

サーバレスの新着記事