SlideShare a Scribd company logo
文字認識は
CNNで
終わるのか?
内田誠一・井手将太(九大)
Dipesh Dangol(Univ. Kaiserslautern)
Convolutional
Neural Network
突然ですが…
北九州市をご存じでしょうか?
 ここです  治安で度々お騒がせ
JNN
twitter
現在地
突然ですが…
北九州市をご存じでしょうか?
 公害でも悪名を馳せた
【1960年代】大腸菌も棲めない
死の海 洞海湾
【1960年代】煙に覆われた空、
多数のぜん息患者が現われた
http://www.city.kitakyushu.lg.jp/kankyou/
いち早く環境問題に取り組んだ北九州
http://www.kcta.or.jp/shugaku
1950年代から
取組みの萌芽が
1970~80年代
環境技術の進展
1990年代~
環境問題克服の
ノウハウを世界に
展開
環境問題で世界をリードする北九州へ
環境問題で世界をリードする北九州へ
早くから問題が顕在化した領域は
(努力次第では)
いち早く問題の解決法を見出し,
さらに他の領域に貢献できる
環境問題で世界をリードする北九州へ
早くから問題が顕在化した領域は
(努力次第では)
いち早く問題の解決法を見出し,
さらに他の領域に貢献できる
文字認識研究
環境問題で世界をリードする北九州へ
早くから問題が顕在化した領域は
(努力次第では)
いち早く問題の解決法を見出し,
さらに他の領域に貢献できる
文字認識研究
認識率がCNNで飽和?研究終わる?
環境問題で世界をリードする北九州へ
早くから問題が顕在化した領域は
(努力次第では)
いち早く問題の解決法を見出し,
さらに他の領域に貢献できる
文字認識研究
パターン認識研究全般
認識率がCNNで飽和?研究終わる?
本発表の内容
 「大規模データ + CNN」の実験を通し
文字認識研究の危機的(?)現状を確認
 上を踏まえ,今後の文字認識研究が
進むべき方向を考察
「大規模データ + CNN」の
実験結果
活字 手書
フォント
使用したCNN
 ベタベタのデフォルトLeNet
 ReLU + back-propagation, ランダム初期値
32x32画素
バトル1:印刷数字認識
スキャンした活字数字
フォントは2種類程度
512,265サンプル
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 99.99 %
(誤認識は2画像のみ!)
5→6 6→4
バトル2:手書き数字認識
スキャンした手書き数字
不特定多数の筆記者
819,652サンプル
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 99.89 %
(誤認識は92画像のみ)
MNISTの
10倍規模
MNISTだと
99.77%
[Ciresan,CVPR2012]
全ての誤認識
全ての誤認識
ここまできたら頑張って読んでほしかった
「納得」してしまう誤認識(人間の認識限界に近い?)
バトル3:ユニバーサルOCR実験
(活字と手書きの混合認識)
先ほどの2つのデータセットを混合
819,652+52,265サンプル
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 99.92 %
誤認識→115
ユニバーサル化で誤認識に転化→36
ユニバーサル化で改善→15
最後(?)の聖戦:多フォント数字認識
6,721種のフォント
飾り文字的なものも非常に多い
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 96.4 %
聖戦ver.2:多フォント英文字認識
32 x 32画素 26 文字種
6,721種のフォント x 26文字種
全サンプル
10%
90%Random
認識
学習
Trained CNN
認識率: 94%程度
正しく認識した
文字の例
大規模データを全部使った最近傍認識でも
同程度では?と疑ってみる
データ 最近傍認識
(ハミング距離) (%)
CNN
(%)
印刷数字 100.00 99.99
手書き数字 99.03 99.89
印刷+手書き
混合数字
99.45 99.92
多フォント数字 90.00 96.40
誤認識が1/10に
上記の手書きの差がそのまま出た
ちなみにCNNの方が1000倍高速
誤認識が1/3に
こんな感じで,個人的には,文字認識
研究について心が折れそうな状態
こんな感じで,個人的には,文字認識
研究について心が折れそうな状態
お断り:
もちろん今回の結果は限定的!
 高々「10カテゴリ/切り出し済/大量データ」での話
 残る疑問:手書き漢字認識は出来るのか?
 2000~4000カテゴリのfine-grained problem
 「千」「干」の差異がプーリングに耐えられるのか?
 残る疑問:自動切り出しは?
 残る疑問:レイアウト解析は?
文字認識は終わってない!
お断り:
もちろん今回の結果は限定的!
 高々「10カテゴリ/切り出し済/大量データ」での話
 残る疑問:手書き漢字認識は出来るのか?
 2000~4000カテゴリのfine-grained problem
 「千」「干」の差異がプーリングに耐えられるのか?
 残る疑問:自動切り出しは?
 残る疑問:レイアウト解析は?
文字認識は終わってない!
しかし,それでも,
早暁来るかも知れない「Xデー」に対して
心構えは必要では?
世界的には現状で
96-98%ぐらい
(データが決定的に不足)
認識精度向上の
恩恵を直接受ける
認識率100%が達成できたとして
次に何をやるべきか?
それを考えるときが来ている
100%の認識精度があって
初めて展開できる研究
「すべてが読める,全能状態」
Topics Beyond 100% (1)
超詳細(ultra high-grained)物体認識
 文字の存在意義の一つは「非」曖昧化
wikipedia naturalsobsessed.blogspot.com
“bar-code free” world!
情景理解への応用
 情景や状態の「非」曖昧化も,文字の重要な仕事
www.theaircanadacentre.com
lifehacker.com
www.thomasmorris.co.uk
www.insidehousing.co.uk
“The total recall”
 読んだ文字をすべて認識,ライフログ的に記録
 Reading-life log
備忘録/自動日記/パーソナル知識ベース/
シェア/比較/評価/定量化/
推薦/To-Doサポート/
教育/福祉
応用
情景内文字画像処理
 情景内テキスト強調・拡大
 プライバシ保護のためのテキスト情報隠蔽
www.proidee.co.uk
by
[Inai, et al., ICPR2014]
文字検出
“ドキュメント”の新たな定義へ
Texts on signboard Texts on digital displayTexts on notebook
Texts on object label
すべてシームレスに扱える
Texts on poster / ad Texts on book page
認識率競争とは無縁な
“ブルーオーシャン”へ
「Accuracistよ,さらば」
Topics Beyond 100% (2)
http://daiko-yushutsu.com
デザインと工学の架け橋:
フォント自動デザイン
Campbell, ACM Trans.Graphics, 2014
Font manifold by Gaussian
Process Latent Variable Model
[Uchida, ICDAR, 2015]
文字質感の解明
Dior
Dior Dior
ちょっとした実施例
食品関係には
サンセリフ体が多め
フォント形状特徴
“food”
意味特徴
情景内文字が与える意味的情報の解析
 我々はどのような言語情報を環境から受け取っているか?
 情景内単語16,500の意味分布
 Word2vec + k-means + Multidimensional-scaling
[品原, PRMU2015]
人工知能の中心課題である
「文字Aとは何か?」をめぐる旅
Average before registration
Average after registration
[Uchida, ICDAR, 2015]
Hofstadter,
Metamagical
Themas, 1985
まとめ
 大規模データ+CNNによる文字認識
 人間の可読限界にも近い認識率
 今後は“Beyond 100%”も積極的に考えるべき!
 100%認識器でできること
 認識率とは無関係な文字研究
そろそろ
“北九州”の話だけ
ではないかも
乞う,
ご意見・
ご批判!
内田誠一(北九州市出身)

More Related Content

文字認識はCNNで終わるのか?