エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
AWS Textractは、PDFデータや画像データに含まれるフォーム形式のデータ、または、表形式のデータを読み... AWS Textractは、PDFデータや画像データに含まれるフォーム形式のデータ、または、表形式のデータを読み取り、機械判読可能なデータに変換するサービスです。 [https://aws.amazon.com/jp/textract/] 2019年8月現在まだ日本語をサポートしていませんが、どのようなデータをパースできるのか実際に使ってみました。 条件 Excelで作成したデータをPDF形式で出力し、PDFファイルをAWS Textractにアップロードして認識させた。現実バージョンのPDFデータは、tabula-javaのテストに用いられているPDFデータをそのまま利用した。 シンプルな表(罫線あり) シンプルな表(罫線一部のみ) シンプルな表(罫線なし) 複雑な表(罫線あり) 複雑な表(罫線一部のみ) 複雑な表(罫線なし→これはありえないのでパス) テキストの列挙 同じ構造の繰り返し