はてなダイアリーキーワードと辞書

自然言語処理講習会で形態素解析器への辞書の追加方法がわかった。「はてなバンザイ」ということで、はてなダイアリーキーワードを全部ユーザー辞書にしようということを考えた。
最初、一覧ページを全部持ってきてやろうかと思ってたけど、先輩に言われてはてなダイアリーキーワード自動リンクAPIの正規表現版があるということなのでそれを用いてはてなダイアリーキーワードを取得しようということに。

それで、ダウンロードしてみたら、よくわからない文字列になっていた。いろいろやってみると文字列を1バイトごとに分割しているTrieになっているっぽい。Regexp::Trie(http://search.cpan.org/dist/Regexp-Trie/lib/Regexp/Trie.pm)なんていうモジュールもあることだし。

そのため、展開してみようという話になったけど結局よくわからない。

う〜ん、もっと簡単にできると思ったんだけどなぁ。

形態素解析器に限らずMS-IMEやATOKの辞書に追加しても面白そうですね。

実はPlaggerでできたりする(はてなダイアリーキーワードの取得)???