上位下位関係抽出ツールを使ってみる

上位下位関係抽出ツールは Wikipedia のデータから上位下位関係をとってきてデータにしてくれるものなのだが使うのに少し苦労した。

ダウンロードして解凍し、フォルダに移動。
まず使うとshのエラーが出たので script/ex_hyponymy.sh の一行目を

#!/bin/sh

から

#!/bin/bash

に変更。

その後実行すると数時間動き続けるのだが、デフォルトの分類器の pecco の、すでにないオプションを指定して結果が出力されずに終わる。

上位下位関係抽出ツール自体2010年が最終更新なので pecco のずっと前のバージョンをインストールするか、もしくは動作は遅いが TinySVM のオプションがあるので、こちらを使うのもいい。ただ、公式サイトに書いてあるとおり TinySVM と data3 (大規模な学習データを使って生成)を使おうとすると pecco の5倍以上かかってしまうので、精度が高くや規模の大きいdata3を使う場合は古い pecco を使うのがいいと思う。

pecco は http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/pecco/#hist で公開されているうち、もっとも古い2011年1月のファイルをダウンロードし解凍。このときのバージョンのインストール方法は上位下位関係抽出ツールのサイトに書いてあるので、つまずいたらそちらを参考。

追記: 上位下位関係抽出ツールのサイトに書いてあるインストール方法は違うが、サイトにあるリンクの http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/pecco/pecco.tar.bz2 で、当時の最新版がダウンロードできるようなのでそちらを参照。

cd ex-hyponymy-1.0
wget http://www.tkl.iis.u-tokyo.ac.jp/~ynaga/pecco/pecco-20110110.tar.bz2
tar jxvf pecco.tar.bz2
cd pecco
make -f makefile.pecco
cd ..

そしてようやく上位下位関係認識ツールが使える。

PATH=./pecco/:$PATH script/ex_hyponymy.sh -t ./data3 Wikipediaファイル