あっぷでーと:
単位:千円で決算を出している決算書に対応。
要約財政状態計算書しか公開していない困ったちゃんに対応。
とりあえず、資産の部の6割を流動資産とみなすことにした。
そして、今のところ対応できないのが、決算短信の財務諸表を画像データで添付している場合。
画像で添付するとか、なんでそんなことするのさ・・・
pytesseractとかを試してみたけど、OCRの精度低すぎて使えない。
と、いうか、貸借対照表や損益計算書ぐらいpdfではなくて、共通フォーマットのメタデータと整備してほしいわ。
Permalink | 記事への反応(0) | 17:19
ツイートシェア
気が付くと朝4時になっていた。 なんか動くところまで出来たので貼っておく。 NYSLなので、バグがあったら治しといて。 import pdfplumberimport re#クリーンアップdef cleanuptext(text): #決算書...
あっぷでーと: 単位:千円で決算を出している決算書に対応。 要約財政状態計算書しか公開していない困ったちゃんに対応。 とりあえず、資産の部の6割を流動資産とみなすことにした。...