はてなキーワード抽出の確認
上のエントリのスクリプトの動作確認。
とりあえず抽出ミスがないかどうかだけ確認。
#!/usr/bin/env perl use strict; use warnings; if (@ARGV != 2) { printf STDERR "usage: %s keywordlist keywordlist.extracted\n", $ARGV[0]; exit 1; } open my $rfh, $ARGV[0] or die; my $regex = join '', <$rfh>; close $rfh; open my $fh, $ARGV[1] or die; while (my $line = <$fh>) { chomp $line; if ($line !~ /^$regex$/o) { print STDERR "$line is not match\n"; close $fh; exit 2; } } print "ok\n"; close $fh;
% perl keywordcheck.pl keywordlist keywordlist.extracted ok
とりあえず変な抽出はしていないっぽい。
キーワード数を確認。
% wc -l keywordlist.extracted 164094 keywordlist.extracted
で、
現在173,559語のキーワードが登録されています。
とのことで、結構取りこぼしているな。むう、なんでだろ。多義語をエントリ毎に数えているとか?まぁ、プログラムの問題のような気もするが、良くわからん。