文字をコピーすると文字化し、内容を検索できない PDF ファイルを Adobe Acrobat Standard で OCR

2013年5月18日土曜日

ある PDF 文書の内容を検索したが、文字列がヒットしなかった。文字は画像ではなく、「選択ツール」で選択できる。しかし、目の前に見えている文字を検索しても、見つからない。

PDF 内の文字列を選択しコピーして、テキストエディタに貼りつけたら、なぜか文字化けした。恐らく、これが文字を検索できない原因と関係していそうだ。

これに対して、Adobe® Acrobat® Standard を利用し、

これにより、PDF 内を検索できるようになった。

最初に、対象の PDF ファイルを開き、画像として保存する。

複数のページがある場合、

XXXXX_ページ[ページ番号].jpg

という名前のファイルが複数できる。

まず、1 ページ目となる画像ファイルを Adobe Acrobat で開く。

「ページサムネイル」ボタンを押す。

複数の画像ページがある場合、エクスプローラーでファイルの「名前」の降順に並び替える。

2ページ目以降の画像ファイルを選択し、先ほど Adobe Acrobat で開いた 1ページ目のサムネイルの後ろに D&D する。

ちなみに、「名前」を降順にしないと、ページが逆順になってしまった。

メニューより、

を選択し、

このファイル内

をクリックする。

「すべてのページ」を対象にテキストの認識を行う。

最後に、メニューより、

Adobe® Acrobat® Standard は、ScanSnap iX500 : 富士通を購入したら、付属してきた。

Adobe Acrobat XI Standard の値段を見ると、このスキャナーはお得だったのかな。

すぐに忘れる脳みそのためのメモ