OSS OCR の Tesseract がスゴイ件

洋書の輪講で、重たい本を持ち運びたくないのと、辞書引きを効率化するためにTesseractでOCR化してみた。

以前はsourceforge.netでホストされていたが、いつの間にか Google Code に移っていた。
詳しくは以下を参照。

Windows な人は

  • tesseract-2.xx.exe.tar.gz
  • tesseract-2.00.eng.tar.gz

をダウンロードしてくる。

tesseract.exe
tessdata/eng.*

というディレクトリ構造を作る。

見開き/段組をうまいこと処理する方法はないっぽい(未確認)なので、先に手作業でファイルを分割した。

圧縮されたtiffを扱えるようにするのは面倒なので、手元のファイルを非圧縮形式のtiffに変換した。

libtiff のbinary(http://gnuwin32.sourceforge.net/packages/tiff.htm)をおとしてきて

tiffcp -c none src.tiff dst.tiff

すると無圧縮のtiffファイルが得られる。

tesseract.exe src.tiff dst -l eng

まだ1ページ使ってみただけど、手直ししたところ*1は半角スペースを1つ入れただけで済んだ。神ツール!

ocropusも気になるけど試していない。

http://code.google.com/p/ocropus/

*1:Wordのスペルチェッカ調べ