2ちゃんねるBOTの作り方 準備編

アホな話

2ch画像まとめというウェブサービスをご存知でしょうか。
クロール?スパイダリング?スクレイピング?いわゆるBOTが2chに書き込まれた画像を取得し、
まとめて見れるようにしたサイトなのですが、今日、次の記事を見つけた。
http://www.oshiete-kun.net/archives/2009/02/2chdl.html
アホすぎる。クローラのクローラなんて。。

しかも、2ch画像まとめで見れる画像は全てWeb用に縮小した画像です。
ダウンロードするようなコレクターはオリジナルをダウンロードしたほうが良いですよ。

ということでBOTつくりましょう。

前知識

まずはコードを書く前に2chのしくみを簡単に。

2chはスレッド型掲示板の集合であり、全ての掲示板は次のHTMLファイルに一覧されてます

http://menu.2ch.net/bbsmenu.html

たとえばニュー速VIPを探すと次のようなリンクが見つかります。(2009.02.16時点)

<A HREF=http://takeshima.2ch.net/news4vip/>ニュー速VIP</A><br>

※各掲示板のリンク先は定期的に変更されています。


そして、その掲示板に属するスレッド情報は次のテキストファイルに保存されてます。

掲示板URL/subject.txt

例えば、上の例のニュー速VIPのスレッド一覧は次で取得できる。

http://takeshima.2ch.net/news4vip/subject.txt

中身はこんなの

1234788965.dat<>女に聞きたいんだけど (12)


そして最後に、スレッドの中身である、いわゆるDATファイルは次で取得できます

掲示板URL/dat/DATファイル名

例えば、「女に聞きたいんだけど」スレッドのDATファイルはコチラ

http://takeshima.2ch.net/news4vip/dat/1234788965.dat

中身はこんなの

以下、名無しにかわりましてVIPがお送りします<><>2009/02/16(月) 21:56:05.62 ID:bypsi+v7O<> 好きでも嫌いでもない男にどういう事されたらグッとくるのか教えろや <>女に聞きたいんだけど

<>で区切られて、名前やら時間やらコンテンツやらが書かれています。


以上から、2ちゃんBOTの処理の流れは次のようになる
1.掲示板一覧ファイルを読み込む

2.対象の掲示板リンクを探す

3.対象のsubject.txtを読み込む

4.対象のスレッドを探す

  • 1234788965.dat<>女に聞きたいんだけど (12)

5.DATファイルを読み込む

6.DATファイルをゴニョゴニョする


何らかのプログラム経験があれば、これだけ分かればBOTらしきものが作れるかと思います。


準備編おしまい!