注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
本の自炊の現在のワークフローは 本を裁断→スキャン(JPEG保存)→Acrobatでpdf化→必要に応じてOCR(Acro... 本の自炊の現在のワークフローは 本を裁断→スキャン(JPEG保存)→Acrobatでpdf化→必要に応じてOCR(Acrobat内) となっております。 さて、ここに、上記フローのうちOCRをかけていないPDFファイルがあります(Mac Fanでして、212ページあります)。ファイルサイズは1.21GB。これにOCRをかましてみましょう。けっこうな時間待たされますが、なんと145MBにまで縮みました。OCRでテキスト認識する際に、画像の傾き調整等の処理を行う関係上、再圧縮をかけているということのようです。 画質としてはちょっと荒れましたが、それにしても容量の低下のインパクトは絶大です(念の為。この処理の結果出力される画像のピクセル数に変化は無いようです)。 というわけで、積極的にOCRをかけていきたい所ですが、一つ問題がありまして、 こーいう結果が返ってきちゃうことがあるんですね。赤い帯部
2015/02/23 リンク