まずは、open source の PDF to HTML converter ということで検索してみると、PDFTOHTML というのがありました。トップページには、xpdf 2.02 をベースにした 0.36 が latest とありましたが、実際には、2008-11-03 にリリースされた 0.40 が最新のようです。Fedora 10 で、ソースから、一応コンパイルできて、pdftohtml のバイナリができました。小さな PDF ファイルでテストしてみたところ、テキストは展開されましたが、イメージは展開されま
そこで、yum install pdftohtml としたところ、poppler-util というパッケージがインストールされました。しかし、これでインストールされた pdftohtml を使用しても、イメージは展開されませんでした。ちなみに、Poppler は、xpdf 3.0 をベースにした PDF rendering library のようです。また、Xpdf を調べてみると、xpdf には pdfimages というコマンドラインのツールも含まれているようですが、これでもイメージは展開でき
さらに、Mac OS X を対象にして検索すると、DarwinPorts.com に pdftohtml version 0.40a の download, install 手順の説明がありました。DarwinPorts-1.6.0-10.5-Leopa
Open source による PDF から HTML への変換では、イメージの展開でつまづいてしまいました。
Tags: computer_technology