共有
  • 記事へのコメント93

    • 注目コメント
    • 新着コメント
    その他
    nekonyantaro
    nekonyantaro PDFが凄い技術の詰まった物なのは良く判る。たまにテキストPDFなのに、コピペすると順番がグチャグチャになったり余計な記号が入るのがあるが、あれは何なの?

    2020/08/28 リンク

    その他
    misshiki
    misshiki PDFからテキストデータを抽出するなど、自分で実装することはたぶん一生ないけど気になる。

    2020/08/17 リンク

    その他
    anone200909
    anone200909 分かり易くまとまっています。ただ、PDFからテキストを取り出すには、ここに書かれていることだけではまだまだたりなくて、他にもいっぱい課題があります。

    2020/08/16 リンク

    その他
    underd
    underd あとでよむ

    2020/08/15 リンク

    その他
    HHR
    HHR コマンドかpythonが無難そう

    2020/08/15 リンク

    その他
    T-miura
    T-miura ???javaでも、pythonでもpdfからデータ抜くためのライブラリあるから、頑張って仕様書なぞよもなくても、それでよくね?(結論はそれっぽいが)この前、10GB以上のpdf、elasticsearchにいれて全文検索できるようにしたぞ?

    2020/08/15 リンク

    その他
    kirakking
    kirakking 古の資料(論文とか)をスキャンしたPDFのフォントをなんとか入れ替えられないかと思っていたけど、そうか難しいのか。

    2020/08/15 リンク

    その他
    diveintounlimit
    diveintounlimit PDFの仕様書のPDFって1000ページ以上あるんだよな。。読むのを断念した。

    2020/08/15 リンク

    その他
    htnmiki
    htnmiki すごい

    2020/08/15 リンク

    その他
    garbagephilia
    garbagephilia 組版文化的にはDTP系のpostscriptファイル、TeX系のdviファイルというデバイス出力前のフォーマットがそれぞれにあったが、Adobe優勢のもとPDFというフォーマットに落ち着いたと認識している。

    2020/08/15 リンク

    その他
    rryu
    rryu PDFの中身は「スタックマシンなPostScriptで書かれたプログラム」で最終的にそういう絵になればいいだけだからやり方は様々という…

    2020/08/15 リンク

    その他
    strawberryhunter
    strawberryhunter 参考になるとか言ってる時点でお前らにPDFをゼロから扱えるわけが無い。既製のライブラリでも使うのがせいぜいだろう。

    2020/08/15 リンク

    その他
    moshimoshimo812
    moshimoshimo812 ぜんぜん関係ないけど、2000年代初頭までのAcrobat Readerは起動にめちゃめちゃ時間がかかって、PDFを開くのは地雷だった。それがここまで汎用的なフォーマットになるとは思わなかった。

    2020/08/15 リンク

    その他
    oqzl
    oqzl 勉強になる。とりあえず必要なときには印刷用のPDFとテキストファイルを両方用意することにしてる

    2020/08/15 リンク

    その他
    punkgame
    punkgame イラレデータの延長だと思ってたので特に不思議に思ったことはなかったな…

    2020/08/15 リンク

    その他
    nakachop
    nakachop 文体というか文章のリズムというのかな?スキ(内容に関係ない感想)

    2020/08/15 リンク

    その他
    hatayasan
    hatayasan 濃厚な解説。

    2020/08/15 リンク

    その他
    marmot1123
    marmot1123 強い人だ……と思ったらgolden-luckyさんじゃん。

    2020/08/15 リンク

    その他
    khtokage
    khtokage golden-luckyさん、アンテナハウスの方だったのか。さすがだ。

    2020/08/15 リンク

    その他
    y-kobayashi
    y-kobayashi pdf

    2020/08/15 リンク

    その他
    hazardprofile
    hazardprofile 2年前読みたかった記事・・・

    2020/08/15 リンク

    その他
    wdoomer
    wdoomer 生成するソフトによって違うのか。reader凄いな。

    2020/08/15 リンク

    その他
    fotus4
    fotus4 3万のPDFファイルからテキストデータを抽出して検索できるプログラム書いてもらう仕事発注したけど、裏側はこんなだったのな

    2020/08/15 リンク

    その他
    fossilcat
    fossilcat いつか参考にするときがあるかもしれない……

    2020/08/15 リンク

    その他
    rasterson
    rasterson 画像とフォント意外は基本的にテキストなのだが、Deflate圧縮されてバイナリになっているだけ。圧縮解いたら構造はわかるよ。確かにテキスト取り出そうとはしない方がいい。特に日本語は難しいね。

    2020/08/15 リンク

    その他
    tarotarorg
    tarotarorg これは大事

    2020/08/15 リンク

    その他
    mkusunok
    mkusunok PDFからテキストを取り出すのがムッチャ大変という記事。アクセシビリティ、読み上げソフト用のメタデータなんかはもっと読み出しやすいかたちでは入ってないのかな?

    2020/08/15 リンク

    その他
    crimsonstarroad
    crimsonstarroad なるほど難しい

    2020/08/15 リンク

    その他
    kei2100
    kei2100 PDF spec 仕様

    2020/08/15 リンク

    その他
    dekasasaki
    dekasasaki 少し潜ると面白いよね

    2020/08/15 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    プログラマーから見たPDFファイル - アンテナハウス PDF資料室

    更新日: 2020年8月14日 このページの目的 プログラマーは、クライアントから提供されたPDFファイルで、...

    ブックマークしたユーザー

    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事