Heritix の org.archive.io.arc パッケージを利用して、Nutch segment のコンテンツを ARC File に書き出す ContentsArcFileWriter.java を、sampo java.net project に commit しました。3/4/2008 に紹介した ContentsExtractor を extends して、ARC File に書き出すところだけを、override しました。一部、手抜きがあります。Build, 実行は、3/4 とほとんど同様の手順で OK です。Heritrix 関連の jar ファイルを CLASSPATH に加えて、ARCWriter のコンストラクタに渡すパラメータを、コマンドラインから渡すだけです。
Tags: computer_technology, programming