MeCabでオリジナル辞書を
構築してみる
辞書の作り方 〜名詞〜
STEP1
Excelなどで,以下のように作成します.
登録した
い名詞
ID ID 重み 品詞 品詞の
説明
* * * * 登録した
い単語
カタカナ
表示
カタカナ
表記
IDは適当なものでOK
重みは低い値のものから
優先されるので,重要単語は
低く設定する
辞書の作り方 〜動詞〜
STEP1
Excelなどで,以下のように作成します.
• 動詞の辞書は,「原型」と「活用形」を表記する必要あり.
• IDは,MeCabに登録されている「する」「きる」「つく」などの
IDを動詞に合わせて設定する.
• 重みは,名詞と同様で低いものが優先される.
CSVファイルの文字コードをUTF-8に変換する
STEP2
MeCab辞書は,UTF-8の文字コードになっている.
なので,CSVファイルの文字コードをUTF-8に変換する.
COMMAND
$ nkf –w 変換元のCSVファイル名.csv > 変換後のCSVファイル名.csv
Icing on the cake
「-bash: nkf: command not found」が出る場合
HOME BREWなどでnkfコマンドのパッケージをインストールします.
→HOME BREWのインストール:http://brew.sh/index_ja.html
HOME BREWでnkfをインストール
→$ brew install nkf
CSVファイルをMeCab辞書にコンパイルする
STEP3
文字コードがUTF-8のオリジナル辞書用CSVファイルを,
MeCab辞書に変換する.
COMMAND
$ /usr/local/libexec/mecab/mecab-dict-index -d
/usr/local/lib/mecab/dic/ipadic -u original.dic -f utf-8 -t utf-8 オリジ
ナル辞書CSVファイル名.csv
※文字コードは「UTF-8」,改行コードは「¥r(LINUX)」でないと
エラーが出る
「original.dec」ファイルが作成される
オリジナル辞書をMeCabに登録する
STEP4
出来上がったMeCab用オリジナル辞書(original.dic)を,
MeCabに登録する.
作成された,「original.dec」ファイルを,以下のディレクトリに移動
/usr/local/lib/mecab/dic/ipadic/
COMMAND
$ sudo vi /usr/local/lib/mecab/dic/ipadic/dicrc
/usr/local/lib/mecab/dic/ipadic/dicrc
に,以下の一行を追加
userdic = /usr/local/lib/mecab/dic/ipadic/original.dic

MeCabでオリジナル辞書を構築してみる