まずは、ContentExtractor ですが、新規に開発した URLFileMap を利用するようにしました。これで、dynamic に生成されたページのパターンの URL も、指定したファイル名に対応させることができるようになりました。
$ cat lj.sh #!/bin/sh L=$SAMPO_HOME/lib CP=$L/sampo-nutch.jar:$L/hadoop-0.12.2-core.jar:$L/nutch-0.9.jar\ :$L/commons-logging-1.1.1.jar:$L/log4j-1.2.15.jar:$L/commons-io-1.3.2.jar CN=net.java.sampo.nutch.util.ContentsExtractor S=`ls -d kazmuzik-segment-$1/20* | tail -1` U="http://kazuomik.livejournal.com/" D=$2 java -classpath $CP $CN $S $U $D $ sh lj.sh 20080309 lj $ |
まだ、URLFileMap を有効利用していませんが、上記の ContentExtractor は byte[] をそのままファイルに保存するだけなので、character based の parser を紹介するときに、使用例なども update したいと思います。
Tags: programming