
ウェブページのキャッシュをネット上に保存するウェブアーカイブ (以下「魚拓」) は、短期間で消えてしまうニュースサイトの記事などを有効なソースや情報として残すのには便利なツールではあるのだが、その一方でやられる側にとっては必ずしも愉快な事ではない。
これは自分の著作物が勝手に複製されて自分の手の届かない所で半永久的にネット上に晒されるという状況だが、そもそも証拠を押さえたり言質を取るという事自体が本質的に敵対行為である。
このうち、日本の株式会社アフィリティーが運営するウェブ魚拓 (megalodon.jp) の場合は「robots.txt」「.htaccess」やMETAタグを使用する事で魚拓収得自体を拒否出来るのだが、海外の魚拓サービスには同じ方法では防げない厄介なサイトもあるため、このエントリーではブロックの困難なArchive.isの対処法を、特に手段の限られたブログにおける方法を検討してみる。
Archive.is
欧州の魚拓サイト「Archive.is」はロボット排除プロトコル (REP)[>>1] に従っていないため[>>2]、Facebookやツイッターのポストも魚拓出来てしまう最強ツールではあるのだが、逆に見れば「robots.txt」「.htaccess」やMETAタグなどの通常の方法では魚拓収得を拒否出来ない厄介な魚拓サイトでもある。
この場合でもIPアドレスを割り出して拒否する方法で対処できる。
IPアドレスの割り出し方
まずブログに一つ捨てエントリーを立ててみる。
それをArchive.isで魚拓に取るとこのようにキャッシュが保存される。
アクセス解析ツールのアクセスログで魚拓収得時の時刻のアクセスがArchive.isのIPアドレスである。
魚拓収集サイトのIPアドレスは携帯端末と同様に末端数字が変動するものであり、以下のように数回魚拓収得を行う事で変動IPである事が確認できる。
2015年3月現在のArchive.isのIPは「46.166.139.XXX」で、第4組の数字が変動数である。
これを「whois」検索にかけてみると変動数の範囲がわかる事がある。
変動の範囲は「46.166.139.0 - 46.166.139.255」であり、変化するのは末端の数字のみである。[>>3]
方法1:ブログの禁止設定を使って拒否する
アクセス制限の設定はブログのプロバイダーによって機能や操作法は異なるが、ここではFC2ブログの禁止設定でのやり方を示してみる。
FC2ブログの禁止設定にある「拒否IP」は特定のIPアドレスからのブログの閲覧自体を遮断する閲覧禁止設定ツールだが、FC2の場合は変動範囲を丸ごと遮断する広域ブロックに対応しているため、指定された「範囲指定」の書式[>>4]で「46.166.139.[0-255]」と設定する。
捨てエントリーの魚拓を再度収得して拒否IPが機能しているかどうか確認してみる。
重複収得は以下のようにまず確認画面が出るので「save the page」ボタンをクリックして再度収得する。
Archive.isのブロックが機能していれば以下のように「not found」が収得される。
この場合、Archive.isのIPを拒否しているのでこれは同一ブログの全てのエントリーに有効である。これで魚拓拒否は完了。
方法2:忍者バリアーを使って拒否する
ブログの禁止設定の機能はプロバイダーによってまちまちとして、範囲指定(広域ブロック)に対応していなければArchive.isは防げないのと、他の魚拓サイトにしても中にはすり抜けて来るものがあるなどブログのデフォルト機能では確実性がない場合がある。この場合は外部ツールの忍者バリアーを併用するのが有効だ。
忍者バリアーでは「制御制限の設定」の「新しい条件追加」でArchive.is用の設定項目を作り、そこの「IPアドレス」で拒否IPを指定する。
忍者バリアーの場合は変動数の部分は一括設定となり細かい範囲指定が出来ないが、Archive.isの場合は末尾の0〜255全てを使っているため問題はない。
再度捨てエントリーの魚拓収得を行ってみて、魚拓ブロックが有効の場合は以下のように忍者バリアーの拒否画面が表示される。これで魚拓拒否は完了。[>>8]
また、忍者バリアーを用いたこの方法はブログ以外にもウェブサイトにも適用出来る。
ウェブアーカイブの本来の主旨は「デジタル形式で保存された歴史資料を、研究者や歴史学者ひいては全世界の人々が将来にわたって利用できるようインターネット上に図書館を作るため」[>>5]という学術研究目的のフェアユースが前提で始まったものなのだが、昨今のようにコレクターのスクラップブック代わりや、嫌がらせツールともなっている実態を鑑みれば、サイト運営者にも自衛手段が提供されるべきである。
そういう点、REPに準拠する事でサイト管理者に選択を提供しているウェブ魚拓 (megalodon.jp) は良心的であり、自動クロールのブロック方法を提供しているインターネット・アーカイヴ[>>6]も一応良心的と言えるが、そのウェブ魚拓にしてもインターネットでの個人の権利として認められてきた「忘れられる権利」への対応が困難との理由から3月1日付で公開魚拓の機能を停止し、登録制の非公開魚拓(裁判資料等の証明用・資料用)の一本化を決めたようだ。[>>7]
その点、海外の魚拓サイトにはArchive.isのように防ぐのが難しい強引なサイトは他にもあるため、また順を追って扱う事にする。(了)
関連サイト:
・archive.is に魚拓取られてイヤな思いをしている子はいねがー (やわなね.net 2015/08/18公開 2016/01/05更新)
・キャッシュの取得を禁止するにはどうすればいいですか? (ウェブ魚拓)
・初心者にも分かる!robots.txtの作り方 (syncer 2015.09.17)
・IPアドレスとは (パソコン初心者講座)
脚註:
- ^ Robots Exclusion Protocol:検索ロボットの行動や検索エンジンのクロールやインデックス化を制御する標準的な手続きの総称. Web担当者Forum, 2008/2/27(水) 9:00.
- ^ Archive.isは「これは自動クローラーではなく、人間ユーザー専門の仲介業者として1ページずつしか保存しないため、こういったサービスはGoogleキャッシュ等と違いrobots.txtに準拠しない」と説明している。FAQ. archive.is.
- ^ このIPは2015年6月5日に開設されたものであり、オランダの「NFOrce Entertainment B.V.」のホストを使用している。
- ^ 国立国家図書館インターネット資料収集保存事業, 最終更新:2013/1/29.
- ^ インターネット・アーカイヴは魚拓取得の回避法として「robots.txt」の設置方法を提示している。この設置によりWayback Machineから拒否者のドメインのドキュメントが取り除かれる事、それから将来的なクロールが停止されるとされている。 archive.org.
- ^ 『ウェブ魚拓の「過去の魚拓」機能の停止につきまして』 株式会社アフィリティー, :2016年3月1日.
- ^ IPアドレスの他にも、Archive.isのUser-Agent「Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36」の条件で遮断する方法も試してみたが、この方法はArchive.isには有効でなかった。
脚註のリンクは悪用される可能性があるため限定公開とします。アクセス希望の方はアクティブなブログやツイッターやFacebookアカウントなど成り済ましでない事を示す情報をご提示のうえ、Facebook、ツイッターや当ブログ付属のメールフォームまでお問い合わせ下さい。
当ブログからの引用・転載に関して
当ブログはリンクフリーとしますが、引用や転載に関しては以下の条件においてフリーとします。条件を満たしている限りはその都度許可は必要ありません。
1. 引用元の明示(作者不明の怪文書として拡散しない)2. 内容の改変をしない(改変する場合は改変者の責任における編集である事を明記)
3. 営利目的に用いない。
なお当ブログにおける記事、写真、動画資料などの引用はフェアユースの条件または権利者の了解において行っているもので、アフィリエイトサイトの場合は条件が異なります。それらの二次転載によって権利者とトラブルになった場合は当ブログとしては責任は負いかねます。