見出し画像

YomiToku で漫画のOCRを試す

「YomiToku」で漫画のOCRを試したのでまとめました。


1. YomiToku

YomiToku」は、ローカルサーバーで実行可能かつ、日本語文書に特化したOCRおよびドキュメント画像解析を行うPythonパッケージです。

2. Google Colabでの実行

「Google Colab」での実行手順は、次のとおりです。

(1) パッケージのインストール。

# パッケージのインストール
!pip install yomitoku

(2) 左端のフォルダアイコンでファイル一覧を開き、「sample.png」をアップロード。

・sample.png

(3) OCRの実行。

# OCR
!yomitoku sample.png -f md -o results -v --figure

・${path_data} : 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してください。ディレクトリを対象とした場合はディレクトリのサブディレクトリ内の画像も含めて処理を実行。
・-f, --format : 出力形式のファイルフォーマットを指定。(json, csv, html, md をサポート)
・-o, --outdir : 出力先のディレクトリ名を指定。存在しない場合は新規で作成されます。
・-v, --vis : 解析結果を可視化した画像を出力。
・-d, --device : モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実行。(デフォルト: cuda)
・--ignore_line_break : 画像の改行位置を無視して、段落内の文章を連結して返す。(デフォルト:画像通りの改行位置位置で改行します。)
・--figure_letter : 検出した図表に含まれる文字も出力ファイルにエクスポート。
・--figure : 検出した図、画像を出力ファイルにエクスポート。(html と markdown のみ)

results」フォルダ下に3つのファイルが出力されます。

・_sample_p1_layout.jpg

・sample_p1_ocr.jpg

・_sample_p1.md

あう〜

ファイルサイズ<br>ぜんぜん小さく<br>ならないよ

どうしよう<br>i坊

ファイルサイズ<br>小さくするには<br>コツがあるからな

クラスや<br>メソッドの数を<br>少なくしたり

1つの変数を<br>使い回したり

プリプロセッサ<br>を使ったり

逆アセンブル<br>して無駄ないか<br>チェックしたり

さすがi坊<br>その方法で<br>小さくして<br>おいてね

300K



いいなと思ったら応援しよう!