YomiToku で漫画のOCRを試す

npaka

2024年11月27日 05:28

「YomiToku」で漫画のOCRを試したのでまとめました。

1. YomiToku

「YomiToku」は、ローカルサーバーで実行可能かつ、日本語文書に特化したOCRおよびドキュメント画像解析を行うPythonパッケージです。

2. Google Colabでの実行

「Google Colab」での実行手順は、次のとおりです。

(1) パッケージのインストール。

# パッケージのインストール
!pip install yomitoku

(2) 左端のフォルダアイコンでファイル一覧を開き、「sample.png」をアップロード。

・sample.png

(3) OCRの実行。

# OCR
!yomitoku sample.png -f md -o results -v --figure

・${path_data} : 解析対象の画像が含まれたディレクトリか画像ファイルのパスを直接して指定してください。ディレクトリを対象とした場合はディレクトリのサブディレクトリ内の画像も含めて処理を実行。
・-f, --format : 出力形式のファイルフォーマットを指定。(json, csv, html, md をサポート)
・-o, --outdir : 出力先のディレクトリ名を指定。存在しない場合は新規で作成されます。
・-v, --vis : 解析結果を可視化した画像を出力。
・-d, --device : モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実行。(デフォルト: cuda)
・--ignore_line_break : 画像の改行位置を無視して、段落内の文章を連結して返す。（デフォルト：画像通りの改行位置位置で改行します。）
・--figure_letter : 検出した図表に含まれる文字も出力ファイルにエクスポート。
・--figure : 検出した図、画像を出力ファイルにエクスポート。(html と markdown のみ)

「results」フォルダ下に3つのファイルが出力されます。

・_sample_p1_layout.jpg

・sample_p1_ocr.jpg

・_sample_p1.md

あう〜

ファイルサイズ<br>ぜんぜん小さく<br>ならないよ

どうしよう<br>i坊

ファイルサイズ<br>小さくするには<br>コツがあるからな

クラスや<br>メソッドの数を<br>少なくしたり

1つの変数を<br>使い回したり

プリプロセッサ<br>を使ったり

逆アセンブル<br>して無駄ないか<br>チェックしたり

さすがi坊<br>その方法で<br>小さくして<br>おいてね

300K

YomiToku で漫画のOCRを試す

1. YomiToku

2. Google Colabでの実行

いいなと思ったら応援しよう！