2013年5月18日土曜日

文字をコピーすると文字化し、内容を検索できない PDF ファイルを Adobe Acrobat Standard で OCR

1. PDF の内容を検索できない

ある PDF 文書の内容を検索したが、文字列がヒットしなかった。文字は画像ではなく、「選択ツール」で選択できる。しかし、目の前に見えている文字を検索しても、見つからない。

PDF 内の文字列を選択しコピーして、テキストエディタに貼りつけたら、なぜか文字化けした。恐らく、これが文字を検索できない原因と関係していそうだ。

これに対して、Adobe® Acrobat® Standard を利用し、
  1. PDF を画像に変換した後、
  2. OCR 機能を使い、
  3. PDF を作りなおした。

これにより、PDF 内を検索できるようになった。

 

2. 画像として保存する

最初に、対象の PDF ファイルを開き、画像として保存する。

  • ファイル > 名前を付けて保存 > 画像 > JPEG

複数のページがある場合、

XXXXX_ページ[ページ番号].jpg

という名前のファイルが複数できる。

 

3. ファイルを降順に表示し、追加

まず、1 ページ目となる画像ファイルを Adobe Acrobat で開く。

「ページサムネイル」ボタンを押す。

SnapCrab_No-0221

複数の画像ページがある場合、エクスプローラーでファイルの「名前」の降順に並び替える。

SnapCrab_No-0219

2ページ目以降の画像ファイルを選択し、先ほど Adobe Acrobat で開いた 1ページ目のサムネイルの後ろに D&D する。

ちなみに、「名前」を降順にしないと、ページが逆順になってしまった。

 

4. OCR 機能を利用

SnapCrab_No-0222メニューより、

  • 表示 > ツール > テキスト認識

を選択し、

このファイル内

をクリックする。

「すべてのページ」を対象にテキストの認識を行う。

最後に、メニューより、

  • ファイル > 名前を付けて保存

 

Adobe Acrobat Standard

Adobe® Acrobat® Standard は、ScanSnap iX500 : 富士通 を購入したら、付属してきた。

Adobe Acrobat XI Standard の値段を見ると、このスキャナーはお得だったのかな。

 

参考サイト