和英辞書EDICTをPDICテキスト形式に変換する方法
この方策はEBStudio 変換スクリプト集のxedict.plを基にしたものである.また,正規表現およびサクラエディタについての情報を次のページから得た.
手順は次のとおりである.
- EDICTをThe EDICT Projectで入手する
- edictをサクラエディタで開く.正規表現を用いた置換作業もあるので,BREGEXP.DLLを導入しておくこと
- ファイル名を"edict.sjis"とでもして,文字コードをShiftJISにして保存する
- 改行コードをクリップボードにコピーする.今後クリップボードを編集してはならない
- 1行目を削除する(辞書データでないため)
- 置換作業を行う
- ファイル名を"edict.pdict"とでもして保存し,完了
- Rev. 2 修正@2005-10-12 20:07:41
- 「1行目を削除する」ことを追加(1行目が辞書データでないため)
- 置換作業の " \[" to " 【" を " \[" to "【" へ変更(置換後データ側に不要な空白があった,というのは嘘で,本当はただの写し間違い)
- 置換作業の "\/" to "\n" を "\/\(([a-z])" to "\n\($1" へ変更(複数の意味を持つ語がかわいそうなことになるため)
- Rev. 3 修正@2005-10-12 22:49:04
Rev. 3に従って作成したデータを,Personal Dictionary for Win32 Ver.4.72fの変換ツールでPDIC形式に変換する際,次の語が重複していると判明した.
- めん棒
- バラ
- 悪い(にくい)
- 心なし
- 白目
- (n) box to hold letters
- (n) (abbr) Ministry of Education, Culture, Sports, Science and Technology/(P)
- (n) civilized world/civilised world
- ...
ということで,またも失敗したといえる.問題は白目と文箱の間にあるのだ.PerlメモのSJIS文字に関する項について,うまく実行できたらいいのにな.
...
見つけた.とりあえずそのまま変換しておいて,pdictをテキストエディタで開く.「(n) box to hold letters」以前の,「英訳語が同じである語」,「文人墨客」を見つけた.この語をPDICで検索したところ,リスト表示が「文鳥【ぶんちょう】」で止まった.
pdictの該当部分は次のとおりである.
文鳥【ぶんちょう】
(n) Java sparrow
Java rice finch (Lonchura oryzivora, Padda oryzivora)
この改行は,改行作成時にできたものであるだろうから,
文鳥【ぶんちょう】
(n) Java sparrow /Java rice finch (Lonchura oryzivora, Padda oryzivora)
とする.
すなわち「Rev. 4」は,誤改行をPDIC変換作業を行ってみて,その都度改めよ,ということだ.
今回用いた,タイムスタンプ「2005年10月4日、20:23:20」のEDICTデータでは,先程挙げた五語のみが重複する事となった.また,"Java rice finch"をググると,文鳥問題なるページがヒットした.今回はただ一件のみだったが,Rev. 3で発生した本件も「文鳥問題」としよう.