12. 発達段階に応じた知識獲得戦略の動的遷移
主要機能の
利用比 発達が進むに従い、機能もより高次に推移
発達が進むに従い 機能もより高次に推移
• Innate/knowledge
hybrid
h b id
• Semi-supervised
Semi-
• Knowledge-b
Knowledge-based
K l d d
• Top-down
Top-
• Reinforcement
• Innate behavior 低次処理も一定程度の割合で用いられる
• Bottom-up
Bottom-
• Fully supervised
初期段階 中期段階 後期段階 発達段階
達 階
October 20, 2011
12 "Mission incomplete, but not impossible"
13. 構想実現のためのアプローチ
Kimura et al. "Media Scene Learning: A framework for extracting meaningful
parts from audio and video signals,“ NTT Technical Review, November 2010.
October 20, 2011
13 "Mission incomplete, but not impossible"
14. これからお話しすること
Cognitive Developmental Approach
自ら発達し成長する素養を計算機に与えたい
Video Language Processing
「自然言語処理」 が映像を理解するためのヒント
自然言語処理」 映像を理解するた ン
Video Morphological Analysis
映像版「形態素解析」 が全ての始まり
Dynamical Learning Strategy
概念を,順を追って,かつ自力で獲得する必然性
概念を 順を追って かつ自力で獲得する必然性
October 20, 2011
14 "Mission incomplete, but not impossible"
15. 機能実現へ: 自然言語処理にヒント?
Text semantic
Explicit/implicit
description information of
i f ti f
the text can be
derived.
Semantic
analysis
Knowledge
dictionary
A/ woman/ is/ riding/ on/ a/ horse. Parsing
Parsing
dictionary
di ti
Morphological
A/ woman/ is/ riding/ on/ a/ horse. analysis
a. n. v. mv. p p
prep. a. n.
Morpheme
dictionary
A woman is riding on a horse. Text
October 20, 2011
15 "Mission incomplete, but not impossible"
16. 「映像言語処理」を考えてみよう
Video semantic
Explicit/implicit
p p
Meaning:
description
d i ti information of
the video can be
A person is riding on a horse.
derived.
Video semantic Person
analysis
Video knowledge
dictionary
y Riding
Person
Video parsing
Video parsing
dictionary Horse
H
Video morphological
analysis
Video morpheme Horse
dictionary
Video clip
p
October 20, 2011
16 "Mission incomplete, but not impossible"
17. 映像言語処理の実現には 何が必要か?
Video semantic
Explicit/implicit
p p
映像の「言語体系」を
description
d i ti information of
the video can be 計算機自身が学び構築する
が び 築
derived.
「形態素」「構文」「意味」
Video semantic
の候補を探り当てる
analysis
Video knowledge 「形態素」「構文」「意味」
dictionary
y の候補に適切な知識を与える
Video parsing
Video parsing
dictionary
保有知識の水準に合わせて
Video morphological 学び方を動的に変化させる
analysis 「形態素解析」「構文解析」
形態素解析」 構文解析」
Video morpheme
dictionary 「意味解析」を、成熟度に
合わせて順を追って構築
Video clip
p
October 20, 2011
17 "Mission incomplete, but not impossible"
18. 映像形態素の候補を取り出す
1. 福地ほか “グラフコストの逐次更新を用いた映像顕著領域の自動抽出”、
電子情報通信学会論文誌、Vol.J93-D, No.8, pp.1523-1532, 2010年8月
2. Akamine et al. "Fully automatic extraction of salient objects in near real-time,"
the Computer Journal, DOI:10.1093/comjnl/bxq075, November 2010.
October 20, 2011
18 "Mission incomplete, but not impossible"
19. 発達初期段階
Video semantic
Explicit/implicit
p p
全てのスタート地点
description
d i ti information of
the video can be 保有する事前知識がまったく
derived.
ない状態で何ができるか?
Video semantic
analysis
Video knowledge
dictionary
y 基礎的な事前知識を蓄える
Video parsing 本来的に備わっている機能
Video parsing
から重要な部分を抽出
dictionary
Video morphological
analysis 言語処理的に考えると,
Video morpheme
dictionary 「映像形態素候補の抽出」
Video clip
p
October 20, 2011
19 "Mission incomplete, but not impossible"
20. 発達初期段階の実現方針
事前知識なくして,与えられた映像のどの部分が
重要であるか? を判断することは困難.
では,ヒトはどうしているのか?
, う
まーたー(当時8-10ヶ月)を観察してみることにしました
目立つ「もの」に目を向ける 外観
外観から「もの」を学習する
も 」を学習する
「もの」の名前を聞いて覚える
October 20, 2011
20 "Mission incomplete, but not impossible"
21. 特に注目すべきは「顕著性」
Task learning with bottom-up attention [Nagai 2009]
乳児(8~12ヶ月)にその親がタスク教示を行った際の
動作をsaliency mapを用いて解析
赤丸: saliency mapから推定された注視位置
October 20, 2011
21 "Mission incomplete, but not impossible"
23. 映像形態素候補の抽出と選択
2.その領域が 形態素」であるかどうか
2.その領域が「形態素」であるかどうか =
取り出した領域に意味を持たせるかどうか は、
教育者たる人間が判断する
1.目立つ領域は「形態素」である可能性が高いはず
October 20, 2011
23 "Mission incomplete, but not impossible"
24. なぜ顕著性が必要なのか?
計算機はどこに何があるかをまだ理解できていない.
知識を使わずに「もの」らしいものを検出できる.
入力映像 注目位置推定結果
We can easily find an
object without any prior
knowledge by using the
saliency only
only.
Saliency map
October 20, 2011
24 "Mission incomplete, but not impossible"
25. 顕著性も万能ではない
ある程度知識を駆使しないと,どうしようもならない
部分が,実世界にはたくさんある.
We can distinguish black
objects and backgrounds
since we know some
prior knowledge (table,
keyboard, mouse,
keyboard mouse curtain
etc.).
October 20, 2011
25 "Mission incomplete, but not impossible"
26. 映像形態素の意味を獲得する
Sekhon et al. "Action planning for interactive visual scene understanding based
on knowledge confidence defined on latent spaces,“ 電子情報通信学会技術報告、
PRMU2010-83、福岡県福岡市、2010年9月
October 20, 2011
26 "Mission incomplete, but not impossible"
27. 発達中期段階
Video semantic
Explicit/implicit
p p
獲得した知識がどの程度
description
d i ti information of
the video can be 信頼できるのか?
derived.
Video semantic
初期段階は基本「受け売り」
analysis 知識の「質」を評価する術を
Video knowledge
dictionary
y
持ち合わせていない
Video parsing ではどうする?
Video parsing 計算機側から能動的に知識
dictionary
の信頼性を確認し高める,
Video morphological
analysis
強化学習的アプローチ
Video morpheme
dictionary 言語処理的に考えると,
考
Video clip
p
映像形態素辞書を精緻化
October 20, 2011
27 "Mission incomplete, but not impossible"
28. 発達中期段階の実現方針
能動的に知識の信頼性を確認…って何?
まーたー(当時(たぶん)2歳)を観察してみることにしました
確かに「てーぶる」と言っている 「とんねる」…どこがやねん!!
自分の知識がどの程度正しいかを検証している(ように感じる)
量だけかき集めた知識から,質の悪いモノを捨て,
質の良いモノをさらに強化する作業をしている(と思いたい)
October 20, 2011
28 "Mission incomplete, but not impossible"
29. でも,強化学習なんて,本当にしているの?
でも 強化学習なんて 本当にしているの?
@tanichu 先生の著書をご精読下さい…
潜在意識下でも行われている [Pessiglione 2009]
報酬がもらえるか
ON +£1 or £0 or -£1
ON: £1
どうかの手掛かり
OFF: 常に£0
[msec]
手がかり刺激が短時間過ぎて,意識に上らない.
にも関わらず多くの人が徐々に儲けていく(+£7/120試行)
でも,報酬が実際にもらえない場合は,chance level.
October 20, 2011
29 "Mission incomplete, but not impossible"
30. 皆さんならどんな「意味」を与えますか?
壁、窓、建物
広告、釧路
回文
ジョーク、つまらない
1. 対象とする人間を固定し、
何が問題なのか? 2 その人に適切な質問をする
2.
Semantic gap の存在 ことで解決可能、なはず!
Semantics の個人間分散の大きさ
October 20, 2011
32 "Mission incomplete, but not impossible"
31. 対話を通じた映像形態素の意味付け
対話を通した学習において、計算機が、
特に、どのように
どのように質問をすれば良いか? を考える
質問の種類を選ぶ鍵 = 保有知識の確信度
確信度に応じて質問の対象をできるだけ絞り込む
→ 有用な教師情報を多く回収 & ノイズラベルを抑制
What is this? Which is this? Is this … ? This is …
Low Confidence
C fid High
October 20, 2011
33 "Mission incomplete, but not impossible"
32. 議論: 映像形態素解析のその先へ
木村 ほか “対話型映像認識理解における動的学習戦略に関する取り組み,“
電子情報通信学会技術報告、PRMU2010-***、山口県山口市、2010年12月
October 20, 2011
34 "Mission incomplete, but not impossible"
33. 「映像言語処理」構想の復習
Video semantic
Explicit/implicit
p p
その1:
description
d i ti information of
the video can be 映像形態素の候補を抽出
derived.
Video semantic
analysis その2:
Video knowledge
dictionary
y 映像
映像形態素辞書を精緻化
素辞書を精緻
Video parsing
Video parsing
dictionary
本日の議論のネタ:
Video morphological 映像の「構文解析」、及び
analysis
Video morpheme
各解析の相互作用を検討
dictionary
Video clip
p
October 20, 2011
35 "Mission incomplete, but not impossible"
34. 「映像構文」の探索と構築
Video semantic
Explicit/implicit
p p
構文解析 =
description
d i ti information of
the video can be 形態素の関係を記述する
derived.
Video semantic
その関係に意味を与える
analysis
Video knowledge
dictionary
y 映像 場合
映像の場合には…
Riding
Video parsing Upper
Video parsing Person
dictionary
共起
Video morphological 位置
analysis
Video morpheme
dictionary
形状
Lower
Video clip
p Horse
October 20, 2011
38 "Mission incomplete, but not impossible"
35. 関連研究 その1 [Siddiquie+
[Siddi i CVPR2010]
複数物体の関係性を考慮した対話型動的学習
物体領域と不確定領域との位置関係に基づく質問生成
関係性そのものの意味を問うことはできない
Q Q M
A
E E
A
M
Q
E
October 20, 2011
39 "Mission incomplete, but not impossible"
36. 関連研究 その2 [Sadeghi
[S d hi 2011]
物体とその関係性を同時に獲得する
1. 関係性も物体同様,1つの「クラス」と見なす.
な
なので,真に関係性を認識しているわけではない.
,真 関係性を認識 るわけ な
2. クラス間の位置関係を考慮して,
クラス別での認識結果を修正 (追加・削除)
(追加 削除)
1
2
October 20, 2011
40 "Mission incomplete, but not impossible"
37. 構文解析と形態素解析との相互作用
Video semantic
Explicit/implicit
p p
形態素解析の不確定性
description
d i ti information of
the video can be 部分領域の情報だけでは
derived.
実体を特定できない場合も
Video semantic
analysis
Video knowledge
dictionary
y 構文知識を援用すれば…
Jockey
Video parsing Upper
Jockey?
Video parsing Policeman?
dictionary
Video morphological Horse
analysis
Video morpheme
dictionary
Lower
Video clip
p Horse? Tiger? Unicorn?
g
October 20, 2011
41 "Mission incomplete, but not impossible"
38. 関連研究、はありますが…
関連研究 はありますが [Ladicky+
[L di k BMVC2010]
一般物体認識・物体領域・深度の同時推定
目指すべき実現形態の1つではある
膨大なクラスを扱える構造にはなっていない
Disparity
Segmentation
Object class
October 20, 2011
42 "Mission incomplete, but not impossible"
39. まとめ
計算機が映像を理解できるようになるためには
どうすれば? という根本的かつ難解な問いに対し
1年前に提案した枠組を実現するための
具体的なアプローチを提案 〔映像言語処理〕
このアプローチに基づいて、この1年で
実際に行った研究を整理して紹介
実際に行 た研究を整理して紹介 〔映像形態素解析〕
(まだ検討中) 〔動的学習戦略〕
まだまだ課題は山積、でも光は見えつつあります。
“Mission incomplete, but not impossible.”
October 20, 2011
43 "Mission incomplete, but not impossible"
40. Thank you for your kind attention
Acknowledgment
This talk is based on the ones at PRMU research meeting in Dec 2009 & 2010.
hi lk i b d h h i i
I’d like to thank all the collaborators and supporters for this research:
Framework: Y. Minami, H. Sakano, H. Sugiyama, E. Maeda (NTT CS Labs)
Visual attention: D. Pang (Stanford Univ.), T. Takeuchi (Nihon Women Univ.),
J. Yamato, K. Kashino (NTT CS Labs), K. Miyazato (Okinawa National College Tech.)
Object detection: K. Fukuchi (JAIST), S. Takagi (Okinawa National College Tech.),
K. Akamine (Miyazaki Univ.), R. Y
K Ak i (Mi ki U i ) R Yonetani (K
i (Kyoto U i )
Univ.)
Action planning: Gurbachan Sekhon (UBC)
Supporters: H. Arai (NTT SP Labs), K. Takeuchi (NTT CS Labs), T. Suzuki (Waseda Univ.)
This work is supported by Grant-in-Aid for Scientific Research
on Innovative Areas “Founding a creative society via collaboration
between humans and robots”.
Corresponding author
Akisato Kimura, Ph.D @ NTT CS Labs.
[E-mail] [email protected]
[ il] i @i [Twitter] @ ki
[ i ] @_akisato
October 20, 2011
44 "Mission incomplete, but not impossible"