Heritrix では、crawl したデータを、ARC File という基本的には、テキストファイルに書き込みます。ひとつの ARC File には、複数のコンテンツを含むことができます。各コンテンツの先頭には、1行のテキス
Java の API にも、org.archive.io.arc パッケージ があり、Java からアクセスすることが可能です。Heritrix 2 の lib ディレクトリには、たくさんの jar ファイルがありますが、Heritrix のものは、commons-2.0.0.jar, engine-2.0.0.jar, modules-2.0.0.jar の 3つです。org.archive.io.arc パッケージは、commons-2.0.0.jar に含まれていて、fastutil-5.0.7.jar に依存しています。これらを $SAMPO_HOME/lib にコピーしておきます。
$ cd /usr/local/heritrix-2.0.0/lib $ cp commons-2.0.0.jar $SAMPO_HOME/lib/heritrix-commons-2.0.0.jar $ cp fastutil-5.0.7.jar $SAMPO_HOME/lib |
Tags: computer_technology