このブログでは、crawling に関しては、nutch を紹介して、去年から使ってきましたが、その他の Java で書かれている open source の crawler には、Internet Archive の Heritrix があります。最近、2/20/2008 に、2.0.0 と major release があったので、紹介します。
ソースとバイナリは、sourceforge.net から、ダウンロードできます。バイナリには、Java API ドキュメントが含まれていないので、ソースも入手して、今後のために、Javadocs を作成しておきます。
$ cd /usr/local $ tar zxvpf /tmp/heritrix-2.0.0-dist.tar.gz $ tar zxvpf /tmp/heritrix-2.0.0-src.tar.gz $ cd heritrix-2.0.0 $ mkdir -p docs/api $ javadoc -d docs/api `find project/*/src/main/java -name '*.java' -print` ... $ |
Tags: computer_technology