SlideShare a Scribd company logo
映像認識/理解への認知発達的アプローチ
    (Cognitive developmental approach towards the realization of sophisticated visual scene understanding)




木村 昭悟 (Akisato Kimura)
日本電信電話(株) コミュニケーション科学基礎研究所
[ E mail ] akisato@ieee.org
  E-mail akisato@ieee org                                  @_akisato
                                               [ Twitter ] @ akisato
[Web] “Akisato Kimura” を goo で 検索! (^_^;)
今日のおしながき
1.   人間が映像を理解できるのはなぜか?
2.   計算機が映像を理解できていないのはなぜか?
3.
3    そもそも「映像を理解する」とはどういうことか?
4.   計算機は「映像を理解」できるようになるのか?
5.
5    できるとするならば、どうすれば良いのか?
     できるとするならば どうすれば良いのか?

Keywords:
   【認知発達】   人間の発達過程に学ぶ
   【知識獲得】   知識は与えられるものではない
   【発達段階】   計算機だって成長できる
   【動的遷移】   成長すればできることが増えてくる
                                                         October 20, 2011
 2            "Mission incomplete, but not impossible"
この映像,理解できますか?
この映像 理解できますか?




   人間は,特に意識せずに映像を認識・理解できる.
   現状では,計算機に人間と同程度の
    映像認識・理解をさせることは難しい.



                                                        October 20, 2011
    3        "Mission incomplete, but not impossible"
この映像,乳幼児が理解できますか?
この映像 乳幼児が理解できますか?




            大人にはわかるけど、
            乳幼児にはちょっと・・・?


   人間は,特に意識せずに映像を理解できる.
   現状では,計算機に人間と同程度の映像理解を
    させることは難しい.
   人間とて,理解能力が生まれつきあるわけではない.

                                                        October 20, 2011
    4        "Mission incomplete, but not impossible"
では,この映像は理解できますか?
では この映像は理解できますか?




         知っていればわかるけど、
               でもねぇ
               でもねぇ・・・


   人間は,特に意識せずに映像を理解できる.
   現状では,計算機に人間と同程度の映像理解を
    させることは難しい.
   人間とて,理解能力が生まれつきあるわけではない.
   成人であっても,知らないことは理解できない.
    成人であっても 知らないことは理解できない
                                                         October 20, 2011
    5         "Mission incomplete, but not impossible"
「映像を理解する」とはどういうことか?
   人間とて理解能力が産まれつきあるわけではない。
   成人であっても、知らないことは理解できない。

   これを踏まえると、「映像を理解する」 とは
    × 与えられた映像から最も尤もらしい意味を抽出
    ○ 与えられた映像と自身の持つ知識とから、
      その知識を組み合わせ変換をすることで、
      最も尤もらしい意味を抽出
          高度な映像の認識や映像の理解には,
        人間と同様の【発達】と【知識獲得】が不可欠!
                                                           October 20, 2011
    6           "Mission incomplete, but not impossible"
発達を考慮する: 認知発達ロボティクス
   Existing approach
       獲得すべき行動手順なり知識獲得戦略なりを、
        ロボットの脳に設計者が直接書き込む

   認知発達ロボティクス
       他者を含む環境を介して [社会性]
       ロボット自身が自らの身体を通じて [身体性]
       情報を取得し [適応性]
       情報を解釈していく [自律性]
       その挙動から、ヒトの発達モデルの新たな理解を目指す。
        その挙動から ヒトの発達モデルの新たな理解を目指す
       音声言語処理を介した言語獲得にも大きな影響を与える
        (ex.
        (ex ACORNS)
                                                                   October 20, 2011
    7                   "Mission incomplete, but not impossible"
では,人間と同じようにすれば良いのか?
では 人間と同じようにすれば良いのか?
   それはNoでしょう。
       2度のニューロブームにおける失敗の教訓:
        神経細胞レベルの模擬と高次機能の模擬との間に大きなギャップ
       計算機の優れた特性の活用:
        計算機 優れた特性 活用
        人間をはるかに凌ぐ高速並列演算や大量・確実な記憶
       発達過程の完全記述の非現実性:
        機能そのものの自然発生や発達を記述することはほぼ不可能
       人間は人間、計算機は計算機:
               算機  算機
        「身体性」なき計算機に、人間と同じようなことをさせることはできない。


理解をより高度化する上で重要となる要素を抽出し、
理解をより高度化する上で重要となる要素を抽出し
計算機が得意とする特性と融合させる方向性が現実的

                                                               October 20, 2011
    8               "Mission incomplete, but not impossible"
重要となる要素,とは何か?
重要となる要素 とは何か?
   認知発達ロボティクス独自の思想を生かす
       [社会性][適応性][自律性]の確保:
        他者を含む環境を介して情報を取得し解釈
       内部構造と外部環境の分離:       外部環境設計
        設計者の思い込み・作為を排除

                                                             内部構造設計


• 必要な知識の能動的・自律的獲得
        – 知識は自分から取りに行くことも必要
• 発達段階に応じた知識獲得戦略の動的遷移
        – 計算機だ て成長できる できることの幅が広がる
          計算機だって成長できる,できることの幅が広がる
                                                              October 20, 2011
    9             "Mission incomplete, but not impossible"
発達と知識獲得を軸にした映像理解の枠組
     大まかに初期・中期・後期の3つの発達段階を想定
     各発達段階に対応する主要機能を想定

      [ 初期段階 ]             [ 中期段階 ]                                     [ 後期段階 ]

     Innate behavior    Knowledge-based
                               g                                      Innate/knowledge
                                                                                    g
       (Bottom-up)        (Top-down)                                        hybrid

  Fully supervised       Reinforcement                                Semi-supervised

• 感覚器相当の機能から           • 蓄えた知識がどの程度                                 • 自身の知識を統合して
  重要信号要素を抽出              信頼できるか能動的に検証                                 自律的に映像を解釈
• その信号要素に対する                                                        • 真に必要なときのみ
  知識を外部から順次蓄積                                                         外部から知識を要求


                                                                           October 20, 2011
     10                  "Mission incomplete, but not impossible"
発達と知識獲得を軸にした映像理解の枠組
     大まかに初期・中期・後期の3つの発達段階を想定
     各発達段階に対応する主要機能を想定

      [ 初期段階 ]           [ 中期段階 ]                                   [ 後期段階 ]

     Innate behavior   Knowledge-based
                              g                                   Innate/knowledge
                                                                                g
       (Bottom-up)       (Top-down)                                     hybrid

  Fully supervised      Reinforcement                             Semi-supervised

  • 本枠組=映像認識理解のための
• 感覚器相当の機能から  • 蓄えた知識がどの程度   • 自身の知識を統合して
  重要信号要素を抽出     信頼できるか能動的に検証   自律的に映像を解釈
    知識獲得に関するメカニズム [素質] の提供
• その信号要素に対する                 • 真に必要なときのみ
  • どのように教示情報を与えるかに関する
  知識を外部から順次蓄積                  外部から知識を要求
  戦略 [教育] については枠組の外
                                                                       October 20, 2011
     11                "Mission incomplete, but not impossible"
発達段階に応じた知識獲得戦略の動的遷移
主要機能の
  利用比         発達が進むに従い、機能もより高次に推移
              発達が進むに従い 機能もより高次に推移

                                                              • Innate/knowledge
                                                                hybrid
                                                                h b id
                                                              • Semi-supervised
                                                                Semi-

                                • Knowledge-b
                                  Knowledge-based
                                  K    l d      d
                                • Top-down
                                  Top-
                                • Reinforcement

        • Innate behavior          低次処理も一定程度の割合で用いられる
        • Bottom-up
          Bottom-
        • Fully supervised



        初期段階                    中期段階                                    後期段階         発達段階
                                                                                      達 階
                                                                               October 20, 2011
  12                         "Mission incomplete, but not impossible"
構想実現のためのアプローチ




  Kimura et al. "Media Scene Learning: A framework for extracting meaningful
 parts from audio and video signals,“ NTT Technical Review, November 2010.
                                                                        October 20, 2011
13                           "Mission incomplete, but not impossible"
これからお話しすること
   Cognitive Developmental Approach
        自ら発達し成長する素養を計算機に与えたい


   Video Language Processing
        「自然言語処理」 が映像を理解するためのヒント
          自然言語処理」 映像を理解するた    ン
   Video Morphological Analysis
        映像版「形態素解析」 が全ての始まり
   Dynamical Learning Strategy
        概念を,順を追って,かつ自力で獲得する必然性
         概念を 順を追って かつ自力で獲得する必然性



                                                                October 20, 2011
    14               "Mission incomplete, but not impossible"
機能実現へ: 自然言語処理にヒント?
                                                             Text semantic
                                                                             Explicit/implicit
                                                              description     information of
                                                                              i f      ti   f
                                                                             the text can be
                                                                                  derived.

                                                                Semantic
                                                                analysis
                                                                              Knowledge
                                                                               dictionary

A/ woman/ is/ riding/ on/ a/ horse.                                Parsing
                                                                                Parsing
                                                                               dictionary
                                                                               di ti
                                                             Morphological
A/ woman/ is/ riding/ on/ a/ horse.                            analysis
a.        n.   v.   mv.   p p
                          prep. a.        n.
                                                                              Morpheme
                                                                              dictionary

      A woman is riding on a horse.                                 Text

                                                                             October 20, 2011
     15                         "Mission incomplete, but not impossible"
「映像言語処理」を考えてみよう
  Video semantic
                       Explicit/implicit
                           p       p
                                                  Meaning:
    description
    d    i ti           information of
                      the video can be
                                                  A person is riding on a horse.
                            derived.

  Video semantic                                                          Person
     analysis
                       Video knowledge
                          dictionary
                                   y                             Riding
                                                                                   Person
   Video parsing
                         Video parsing
                           dictionary                   Horse
                                                        H
Video morphological
      analysis
                       Video morpheme                                 Horse
                          dictionary

      Video clip
               p

                                                                                      October 20, 2011
 16                                  "Mission incomplete, but not impossible"
映像言語処理の実現には 何が必要か?
  Video semantic
                       Explicit/implicit
                           p       p
                                                    映像の「言語体系」を
    description
    d    i ti           information of
                      the video can be               計算機自身が学び構築する
                                                          が び 築
                            derived.
                                                        「形態素」「構文」「意味」
  Video semantic
                                                         の候補を探り当てる
     analysis
                       Video knowledge                  「形態素」「構文」「意味」
                          dictionary
                                   y                     の候補に適切な知識を与える
   Video parsing
                         Video parsing
                           dictionary
                                                    保有知識の水準に合わせて
Video morphological                                  学び方を動的に変化させる
      analysis                                          「形態素解析」「構文解析」
                                                          形態素解析」 構文解析」
                       Video morpheme
                          dictionary                     「意味解析」を、成熟度に
                                                         合わせて順を追って構築
      Video clip
               p

                                                                                October 20, 2011
 17                                  "Mission incomplete, but not impossible"
映像形態素の候補を取り出す


       1. 福地ほか “グラフコストの逐次更新を用いた映像顕著領域の自動抽出”、
         電子情報通信学会論文誌、Vol.J93-D, No.8, pp.1523-1532, 2010年8月
2. Akamine et al. "Fully automatic extraction of salient objects in near real-time,"
          the Computer Journal, DOI:10.1093/comjnl/bxq075, November 2010.
                                                                            October 20, 2011
 18                              "Mission incomplete, but not impossible"
発達初期段階
  Video semantic
                       Explicit/implicit
                           p       p
                                                    全てのスタート地点
    description
    d    i ti           information of
                      the video can be                   保有する事前知識がまったく
                            derived.
                                                          ない状態で何ができるか?
  Video semantic
     analysis
                       Video knowledge
                          dictionary
                                   y                     基礎的な事前知識を蓄える
   Video parsing                                         本来的に備わっている機能
                         Video parsing
                                                          から重要な部分を抽出
                           dictionary
Video morphological
      analysis                                      言語処理的に考えると,
                       Video morpheme
                          dictionary                 「映像形態素候補の抽出」
      Video clip
               p

                                                                                October 20, 2011
 19                                  "Mission incomplete, but not impossible"
発達初期段階の実現方針
    事前知識なくして,与えられた映像のどの部分が
     重要であるか? を判断することは困難.
    では,ヒトはどうしているのか?
       ,    う
         まーたー(当時8-10ヶ月)を観察してみることにしました
目立つ「もの」に目を向ける                                             外観
                                                          外観から「もの」を学習する
                                                               も 」を学習する




                  「もの」の名前を聞いて覚える

                                                                October 20, 2011
     20              "Mission incomplete, but not impossible"
特に注目すべきは「顕著性」
   Task learning with bottom-up attention [Nagai 2009]
        乳児(8~12ヶ月)にその親がタスク教示を行った際の
         動作をsaliency mapを用いて解析




赤丸: saliency mapから推定された注視位置
                                                                   October 20, 2011
    21                  "Mission incomplete, but not impossible"
発達初期段階を模したプロトタイプ
   映像顕著性に基づく視覚情報フィルタリングにより、
    事前知識を仮定せずに重要領域を自動的に抽出
           [Pang 2008] [宮里 2009]                            [福地 2009][Akamine 2010]
入力映像
          注目位置推定                                            重要領域抽出
              視覚特性に基づく処理で
                                                                     「もの」のありそうな
              人間が目を向けそうな
                                                                     箇所から、「もの」
              箇所を自動的に推定
                                                                     らしい領域を自動的
              (その付近に「もの」が
                                                                     に抽出
              あるだろうという仮説)


                 [Kimura 2010][木村 2010] [Takagi 2011]
教示情報
           モデル学習                                      特徴抽出 – 画像認識
                                                                「もの」らしい領域から
             「もの」に関する教示情報
                                                                画像特徴量を抽出、その
             と「もの」の画像特徴量と
                                                                特徴量と蓄えた知識から
              から、それらの関係性を
                                                                「もの」が何であるか?
              学習し、知識として蓄積
              学習し 知識として蓄積
                                                                に関する情報を提示

                                                                     October 20, 2011
    22           "Mission incomplete, but not impossible"
映像形態素候補の抽出と選択
        2.その領域が 形態素」であるかどうか
        2.その領域が「形態素」であるかどうか =
        取り出した領域に意味を持たせるかどうか は、
        教育者たる人間が判断する




      1.目立つ領域は「形態素」である可能性が高いはず




                                                    October 20, 2011
23       "Mission incomplete, but not impossible"
なぜ顕著性が必要なのか?
      計算機はどこに何があるかをまだ理解できていない.
      知識を使わずに「もの」らしいものを検出できる.
                                                       入力映像           注目位置推定結果



We can easily find an
object without any prior
knowledge by using the
saliency only
         only.




                                                                      Saliency map


                                                                          October 20, 2011
       24                  "Mission incomplete, but not impossible"
顕著性も万能ではない
      ある程度知識を駆使しないと,どうしようもならない
       部分が,実世界にはたくさんある.


We can distinguish black
objects and backgrounds
since we know some
prior knowledge (table,
keyboard, mouse,
keyboard mouse curtain
etc.).




                                                                      October 20, 2011
       25                  "Mission incomplete, but not impossible"
映像形態素の意味を獲得する



 Sekhon et al. "Action planning for interactive visual scene understanding based
on knowledge confidence defined on latent spaces,“ 電子情報通信学会技術報告、
                                       PRMU2010-83、福岡県福岡市、2010年9月
                                                                          October 20, 2011
 26                            "Mission incomplete, but not impossible"
発達中期段階
  Video semantic
                       Explicit/implicit
                           p       p
                                                    獲得した知識がどの程度
    description
    d    i ti           information of
                      the video can be               信頼できるのか?
                            derived.

  Video semantic
                                                         初期段階は基本「受け売り」
     analysis                                            知識の「質」を評価する術を
                       Video knowledge
                          dictionary
                                   y
                                                          持ち合わせていない
   Video parsing                                    ではどうする?
                         Video parsing                   計算機側から能動的に知識
                           dictionary
                                                          の信頼性を確認し高める,
Video morphological
      analysis
                                                          強化学習的アプローチ
                       Video morpheme
                          dictionary                言語処理的に考えると,
                                                           考
      Video clip
               p
                                                     映像形態素辞書を精緻化
                                                                                October 20, 2011
 27                                  "Mission incomplete, but not impossible"
発達中期段階の実現方針
   能動的に知識の信頼性を確認…って何?
        まーたー(当時(たぶん)2歳)を観察してみることにしました




         確かに「てーぶる」と言っている                  「とんねる」…どこがやねん!!

        自分の知識がどの程度正しいかを検証している(ように感じる)
        量だけかき集めた知識から,質の悪いモノを捨て,
         質の良いモノをさらに強化する作業をしている(と思いたい)
                                                                  October 20, 2011
    28                 "Mission incomplete, but not impossible"
でも,強化学習なんて,本当にしているの?
でも 強化学習なんて 本当にしているの?
   @tanichu 先生の著書をご精読下さい…
   潜在意識下でも行われている [Pessiglione 2009]
                  報酬がもらえるか
                                                ON +£1 or £0 or -£1
                                                ON:              £1
                  どうかの手掛かり
                                                OFF: 常に£0




                                                                         [msec]
        手がかり刺激が短時間過ぎて,意識に上らない.
        にも関わらず多くの人が徐々に儲けていく(+£7/120試行)
        でも,報酬が実際にもらえない場合は,chance level.

                                                               October 20, 2011
    29              "Mission incomplete, but not impossible"
皆さんならどんな「意味」を与えますか?
                                                壁、窓、建物
                                                広告、釧路
                                                回文
                                                ジョーク、つまらない




                                                1. 対象とする人間を固定し、
   何が問題なのか?                                    2 その人に適切な質問をする
                                                2.
        Semantic gap の存在                       ことで解決可能、なはず!

        Semantics の個人間分散の大きさ
                                                               October 20, 2011
    32              "Mission incomplete, but not impossible"
対話を通じた映像形態素の意味付け
   対話を通した学習において、計算機が、
    特に、どのように
       どのように質問をすれば良いか? を考える
   質問の種類を選ぶ鍵 = 保有知識の確信度
        確信度に応じて質問の対象をできるだけ絞り込む
         → 有用な教師情報を多く回収 & ノイズラベルを抑制
What is this?   Which is this?          Is this … ?                 This is …




Low                      Confidence
                         C fid                                               High
                                                                        October 20, 2011
    33                   "Mission incomplete, but not impossible"
議論: 映像形態素解析のその先へ




     木村 ほか “対話型映像認識理解における動的学習戦略に関する取り組み,“
     電子情報通信学会技術報告、PRMU2010-***、山口県山口市、2010年12月
                                                             October 20, 2011
34                "Mission incomplete, but not impossible"
「映像言語処理」構想の復習
  Video semantic
                       Explicit/implicit
                           p       p
                                                    その1:
    description
    d    i ti           information of
                      the video can be               映像形態素の候補を抽出
                            derived.

  Video semantic
     analysis                                       その2:
                       Video knowledge
                          dictionary
                                   y                 映像
                                                     映像形態素辞書を精緻化
                                                          素辞書を精緻
   Video parsing
                         Video parsing
                           dictionary
                                                    本日の議論のネタ:
Video morphological                                  映像の「構文解析」、及び
      analysis
                       Video morpheme
                                                     各解析の相互作用を検討
                          dictionary

      Video clip
               p

                                                                                October 20, 2011
 35                                  "Mission incomplete, but not impossible"
「映像構文」の探索と構築
  Video semantic
                       Explicit/implicit
                           p       p
                                                    構文解析 =
    description
    d    i ti           information of
                      the video can be                  形態素の関係を記述する
                            derived.

  Video semantic
                                                        その関係に意味を与える
     analysis
                       Video knowledge
                          dictionary
                                   y                映像 場合
                                                     映像の場合には…
                                                                     Riding
   Video parsing                                                                          Upper
                         Video parsing                                                    Person
                           dictionary
                                                                共起
Video morphological                                             位置
      analysis
                       Video morpheme
                          dictionary
                                                                形状
                                                                                Lower
      Video clip
               p                                                                Horse

                                                                                        October 20, 2011
 38                                  "Mission incomplete, but not impossible"
関連研究 その1                  [Siddiquie+
                          [Siddi i CVPR2010]

   複数物体の関係性を考慮した対話型動的学習
        物体領域と不確定領域との位置関係に基づく質問生成
        関係性そのものの意味を問うことはできない




           Q                                Q                     M


                                                                  A
           E                                  E
                   A
                                                                  M
               Q

                                      E
                                                                      October 20, 2011
    39                 "Mission incomplete, but not impossible"
関連研究 その2             [Sadeghi
                     [S d hi 2011]
物体とその関係性を同時に獲得する
1. 関係性も物体同様,1つの「クラス」と見なす.
        な
         なので,真に関係性を認識しているわけではない.
            ,真 関係性を認識   るわけ  な
2.       クラス間の位置関係を考慮して,
         クラス別での認識結果を修正 (追加・削除)
                       (追加 削除)
              1

                                                             2




                                                                 October 20, 2011
 40               "Mission incomplete, but not impossible"
構文解析と形態素解析との相互作用
  Video semantic
                       Explicit/implicit
                           p       p
                                                   形態素解析の不確定性
    description
    d    i ti           information of
                      the video can be                 部分領域の情報だけでは
                            derived.
                                                        実体を特定できない場合も
  Video semantic
     analysis
                       Video knowledge
                          dictionary
                                   y               構文知識を援用すれば…
                                                                    Jockey
   Video parsing                                                                   Upper
                                                                                   Jockey?
                         Video parsing                                             Policeman?
                           dictionary
Video morphological                                            Horse
      analysis
                       Video morpheme
                          dictionary
                                                                       Lower
      Video clip
               p                                                       Horse? Tiger? Unicorn?
                                                                                g

                                                                                    October 20, 2011
 41                                  "Mission incomplete, but not impossible"
関連研究、はありますが…
関連研究 はありますが                                    [Ladicky+
                                               [L di k BMVC2010]

   一般物体認識・物体領域・深度の同時推定
        目指すべき実現形態の1つではある
        膨大なクラスを扱える構造にはなっていない

                                                      Disparity




                                                        Segmentation




                                                             Object class
                                                                      October 20, 2011
    42            "Mission incomplete, but not impossible"
まとめ
   計算機が映像を理解できるようになるためには
    どうすれば? という根本的かつ難解な問いに対し
        1年前に提案した枠組を実現するための
         具体的なアプローチを提案 〔映像言語処理〕
        このアプローチに基づいて、この1年で
         実際に行った研究を整理して紹介
         実際に行 た研究を整理して紹介 〔映像形態素解析〕
        (まだ検討中) 〔動的学習戦略〕


   まだまだ課題は山積、でも光は見えつつあります。
        “Mission incomplete, but not impossible.”


                                                                         October 20, 2011
    43                        "Mission incomplete, but not impossible"
Thank you for your kind attention
Acknowledgment
     This talk is based on the ones at PRMU research meeting in Dec 2009 & 2010.
        hi lk i b d           h                        h       i i
     I’d like to thank all the collaborators and supporters for this research:
         Framework: Y. Minami, H. Sakano, H. Sugiyama, E. Maeda (NTT CS Labs)
         Visual attention: D. Pang (Stanford Univ.), T. Takeuchi (Nihon Women Univ.),
          J. Yamato, K. Kashino (NTT CS Labs), K. Miyazato (Okinawa National College Tech.)
         Object detection: K. Fukuchi (JAIST), S. Takagi (Okinawa National College Tech.),
          K. Akamine (Miyazaki Univ.), R. Y
          K Ak i (Mi           ki U i ) R Yonetani (K
                                                   i (Kyoto U i )
                                                            Univ.)
         Action planning: Gurbachan Sekhon (UBC)
         Supporters: H. Arai (NTT SP Labs), K. Takeuchi (NTT CS Labs), T. Suzuki (Waseda Univ.)
     This work is supported by Grant-in-Aid for Scientific Research
      on Innovative Areas “Founding a creative society via collaboration
      between humans and robots”.

                                           Corresponding author
                         Akisato Kimura, Ph.D @ NTT CS Labs.
            [E-mail] akisato@ieee.org
            [    il]   i    @i              [Twitter] @ ki
                                            [ i ] @_akisato
                                                                                      October 20, 2011
 44                                     "Mission incomplete, but not impossible"

More Related Content

立命館大学 AMLコロキウム 2011.10.20

  • 1. 映像認識/理解への認知発達的アプローチ (Cognitive developmental approach towards the realization of sophisticated visual scene understanding) 木村 昭悟 (Akisato Kimura) 日本電信電話(株) コミュニケーション科学基礎研究所 [ E mail ] [email protected] E-mail akisato@ieee org @_akisato [ Twitter ] @ akisato [Web] “Akisato Kimura” を goo で 検索! (^_^;)
  • 2. 今日のおしながき 1. 人間が映像を理解できるのはなぜか? 2. 計算機が映像を理解できていないのはなぜか? 3. 3 そもそも「映像を理解する」とはどういうことか? 4. 計算機は「映像を理解」できるようになるのか? 5. 5 できるとするならば、どうすれば良いのか? できるとするならば どうすれば良いのか? Keywords: 【認知発達】 人間の発達過程に学ぶ 【知識獲得】 知識は与えられるものではない 【発達段階】 計算機だって成長できる 【動的遷移】 成長すればできることが増えてくる October 20, 2011 2 "Mission incomplete, but not impossible"
  • 3. この映像,理解できますか? この映像 理解できますか?  人間は,特に意識せずに映像を認識・理解できる.  現状では,計算機に人間と同程度の 映像認識・理解をさせることは難しい. October 20, 2011 3 "Mission incomplete, but not impossible"
  • 4. この映像,乳幼児が理解できますか? この映像 乳幼児が理解できますか? 大人にはわかるけど、 乳幼児にはちょっと・・・?  人間は,特に意識せずに映像を理解できる.  現状では,計算機に人間と同程度の映像理解を させることは難しい.  人間とて,理解能力が生まれつきあるわけではない. October 20, 2011 4 "Mission incomplete, but not impossible"
  • 5. では,この映像は理解できますか? では この映像は理解できますか? 知っていればわかるけど、 でもねぇ でもねぇ・・・  人間は,特に意識せずに映像を理解できる.  現状では,計算機に人間と同程度の映像理解を させることは難しい.  人間とて,理解能力が生まれつきあるわけではない.  成人であっても,知らないことは理解できない. 成人であっても 知らないことは理解できない October 20, 2011 5 "Mission incomplete, but not impossible"
  • 6. 「映像を理解する」とはどういうことか?  人間とて理解能力が産まれつきあるわけではない。  成人であっても、知らないことは理解できない。  これを踏まえると、「映像を理解する」 とは × 与えられた映像から最も尤もらしい意味を抽出 ○ 与えられた映像と自身の持つ知識とから、 その知識を組み合わせ変換をすることで、 最も尤もらしい意味を抽出 高度な映像の認識や映像の理解には, 人間と同様の【発達】と【知識獲得】が不可欠! October 20, 2011 6 "Mission incomplete, but not impossible"
  • 7. 発達を考慮する: 認知発達ロボティクス  Existing approach  獲得すべき行動手順なり知識獲得戦略なりを、 ロボットの脳に設計者が直接書き込む  認知発達ロボティクス  他者を含む環境を介して [社会性]  ロボット自身が自らの身体を通じて [身体性]  情報を取得し [適応性]  情報を解釈していく [自律性]  その挙動から、ヒトの発達モデルの新たな理解を目指す。 その挙動から ヒトの発達モデルの新たな理解を目指す  音声言語処理を介した言語獲得にも大きな影響を与える (ex. (ex ACORNS) October 20, 2011 7 "Mission incomplete, but not impossible"
  • 8. では,人間と同じようにすれば良いのか? では 人間と同じようにすれば良いのか?  それはNoでしょう。  2度のニューロブームにおける失敗の教訓: 神経細胞レベルの模擬と高次機能の模擬との間に大きなギャップ  計算機の優れた特性の活用: 計算機 優れた特性 活用 人間をはるかに凌ぐ高速並列演算や大量・確実な記憶  発達過程の完全記述の非現実性: 機能そのものの自然発生や発達を記述することはほぼ不可能  人間は人間、計算機は計算機: 算機 算機 「身体性」なき計算機に、人間と同じようなことをさせることはできない。 理解をより高度化する上で重要となる要素を抽出し、 理解をより高度化する上で重要となる要素を抽出し 計算機が得意とする特性と融合させる方向性が現実的 October 20, 2011 8 "Mission incomplete, but not impossible"
  • 9. 重要となる要素,とは何か? 重要となる要素 とは何か?  認知発達ロボティクス独自の思想を生かす  [社会性][適応性][自律性]の確保: 他者を含む環境を介して情報を取得し解釈  内部構造と外部環境の分離: 外部環境設計 設計者の思い込み・作為を排除 内部構造設計 • 必要な知識の能動的・自律的獲得 – 知識は自分から取りに行くことも必要 • 発達段階に応じた知識獲得戦略の動的遷移 – 計算機だ て成長できる できることの幅が広がる 計算機だって成長できる,できることの幅が広がる October 20, 2011 9 "Mission incomplete, but not impossible"
  • 10. 発達と知識獲得を軸にした映像理解の枠組  大まかに初期・中期・後期の3つの発達段階を想定  各発達段階に対応する主要機能を想定 [ 初期段階 ] [ 中期段階 ] [ 後期段階 ] Innate behavior Knowledge-based g Innate/knowledge g (Bottom-up) (Top-down) hybrid Fully supervised Reinforcement Semi-supervised • 感覚器相当の機能から • 蓄えた知識がどの程度 • 自身の知識を統合して 重要信号要素を抽出 信頼できるか能動的に検証 自律的に映像を解釈 • その信号要素に対する • 真に必要なときのみ 知識を外部から順次蓄積 外部から知識を要求 October 20, 2011 10 "Mission incomplete, but not impossible"
  • 11. 発達と知識獲得を軸にした映像理解の枠組  大まかに初期・中期・後期の3つの発達段階を想定  各発達段階に対応する主要機能を想定 [ 初期段階 ] [ 中期段階 ] [ 後期段階 ] Innate behavior Knowledge-based g Innate/knowledge g (Bottom-up) (Top-down) hybrid Fully supervised Reinforcement Semi-supervised • 本枠組=映像認識理解のための • 感覚器相当の機能から • 蓄えた知識がどの程度 • 自身の知識を統合して 重要信号要素を抽出 信頼できるか能動的に検証 自律的に映像を解釈 知識獲得に関するメカニズム [素質] の提供 • その信号要素に対する • 真に必要なときのみ • どのように教示情報を与えるかに関する 知識を外部から順次蓄積 外部から知識を要求 戦略 [教育] については枠組の外 October 20, 2011 11 "Mission incomplete, but not impossible"
  • 12. 発達段階に応じた知識獲得戦略の動的遷移 主要機能の 利用比 発達が進むに従い、機能もより高次に推移 発達が進むに従い 機能もより高次に推移 • Innate/knowledge hybrid h b id • Semi-supervised Semi- • Knowledge-b Knowledge-based K l d d • Top-down Top- • Reinforcement • Innate behavior 低次処理も一定程度の割合で用いられる • Bottom-up Bottom- • Fully supervised 初期段階 中期段階 後期段階 発達段階 達 階 October 20, 2011 12 "Mission incomplete, but not impossible"
  • 13. 構想実現のためのアプローチ Kimura et al. "Media Scene Learning: A framework for extracting meaningful parts from audio and video signals,“ NTT Technical Review, November 2010. October 20, 2011 13 "Mission incomplete, but not impossible"
  • 14. これからお話しすること  Cognitive Developmental Approach  自ら発達し成長する素養を計算機に与えたい  Video Language Processing  「自然言語処理」 が映像を理解するためのヒント 自然言語処理」 映像を理解するた ン  Video Morphological Analysis  映像版「形態素解析」 が全ての始まり  Dynamical Learning Strategy  概念を,順を追って,かつ自力で獲得する必然性 概念を 順を追って かつ自力で獲得する必然性 October 20, 2011 14 "Mission incomplete, but not impossible"
  • 15. 機能実現へ: 自然言語処理にヒント? Text semantic Explicit/implicit description information of i f ti f the text can be derived. Semantic analysis Knowledge dictionary A/ woman/ is/ riding/ on/ a/ horse. Parsing Parsing dictionary di ti Morphological A/ woman/ is/ riding/ on/ a/ horse. analysis a. n. v. mv. p p prep. a. n. Morpheme dictionary A woman is riding on a horse. Text October 20, 2011 15 "Mission incomplete, but not impossible"
  • 16. 「映像言語処理」を考えてみよう Video semantic Explicit/implicit p p Meaning: description d i ti information of the video can be A person is riding on a horse. derived. Video semantic Person analysis Video knowledge dictionary y Riding Person Video parsing Video parsing dictionary Horse H Video morphological analysis Video morpheme Horse dictionary Video clip p October 20, 2011 16 "Mission incomplete, but not impossible"
  • 17. 映像言語処理の実現には 何が必要か? Video semantic Explicit/implicit p p  映像の「言語体系」を description d i ti information of the video can be 計算機自身が学び構築する が び 築 derived.  「形態素」「構文」「意味」 Video semantic の候補を探り当てる analysis Video knowledge  「形態素」「構文」「意味」 dictionary y の候補に適切な知識を与える Video parsing Video parsing dictionary  保有知識の水準に合わせて Video morphological 学び方を動的に変化させる analysis  「形態素解析」「構文解析」 形態素解析」 構文解析」 Video morpheme dictionary 「意味解析」を、成熟度に 合わせて順を追って構築 Video clip p October 20, 2011 17 "Mission incomplete, but not impossible"
  • 18. 映像形態素の候補を取り出す 1. 福地ほか “グラフコストの逐次更新を用いた映像顕著領域の自動抽出”、 電子情報通信学会論文誌、Vol.J93-D, No.8, pp.1523-1532, 2010年8月 2. Akamine et al. "Fully automatic extraction of salient objects in near real-time," the Computer Journal, DOI:10.1093/comjnl/bxq075, November 2010. October 20, 2011 18 "Mission incomplete, but not impossible"
  • 19. 発達初期段階 Video semantic Explicit/implicit p p  全てのスタート地点 description d i ti information of the video can be  保有する事前知識がまったく derived. ない状態で何ができるか? Video semantic analysis Video knowledge dictionary y  基礎的な事前知識を蓄える Video parsing  本来的に備わっている機能 Video parsing から重要な部分を抽出 dictionary Video morphological analysis  言語処理的に考えると, Video morpheme dictionary 「映像形態素候補の抽出」 Video clip p October 20, 2011 19 "Mission incomplete, but not impossible"
  • 20. 発達初期段階の実現方針  事前知識なくして,与えられた映像のどの部分が 重要であるか? を判断することは困難.  では,ヒトはどうしているのか? , う  まーたー(当時8-10ヶ月)を観察してみることにしました 目立つ「もの」に目を向ける 外観 外観から「もの」を学習する も 」を学習する 「もの」の名前を聞いて覚える October 20, 2011 20 "Mission incomplete, but not impossible"
  • 21. 特に注目すべきは「顕著性」  Task learning with bottom-up attention [Nagai 2009]  乳児(8~12ヶ月)にその親がタスク教示を行った際の 動作をsaliency mapを用いて解析 赤丸: saliency mapから推定された注視位置 October 20, 2011 21 "Mission incomplete, but not impossible"
  • 22. 発達初期段階を模したプロトタイプ  映像顕著性に基づく視覚情報フィルタリングにより、 事前知識を仮定せずに重要領域を自動的に抽出 [Pang 2008] [宮里 2009] [福地 2009][Akamine 2010] 入力映像 注目位置推定 重要領域抽出 視覚特性に基づく処理で 「もの」のありそうな 人間が目を向けそうな 箇所から、「もの」 箇所を自動的に推定 らしい領域を自動的 (その付近に「もの」が に抽出 あるだろうという仮説) [Kimura 2010][木村 2010] [Takagi 2011] 教示情報 モデル学習 特徴抽出 – 画像認識 「もの」らしい領域から 「もの」に関する教示情報 画像特徴量を抽出、その と「もの」の画像特徴量と 特徴量と蓄えた知識から から、それらの関係性を 「もの」が何であるか? 学習し、知識として蓄積 学習し 知識として蓄積 に関する情報を提示 October 20, 2011 22 "Mission incomplete, but not impossible"
  • 23. 映像形態素候補の抽出と選択 2.その領域が 形態素」であるかどうか 2.その領域が「形態素」であるかどうか = 取り出した領域に意味を持たせるかどうか は、 教育者たる人間が判断する 1.目立つ領域は「形態素」である可能性が高いはず October 20, 2011 23 "Mission incomplete, but not impossible"
  • 24. なぜ顕著性が必要なのか?  計算機はどこに何があるかをまだ理解できていない.  知識を使わずに「もの」らしいものを検出できる. 入力映像 注目位置推定結果 We can easily find an object without any prior knowledge by using the saliency only only. Saliency map October 20, 2011 24 "Mission incomplete, but not impossible"
  • 25. 顕著性も万能ではない  ある程度知識を駆使しないと,どうしようもならない 部分が,実世界にはたくさんある. We can distinguish black objects and backgrounds since we know some prior knowledge (table, keyboard, mouse, keyboard mouse curtain etc.). October 20, 2011 25 "Mission incomplete, but not impossible"
  • 26. 映像形態素の意味を獲得する Sekhon et al. "Action planning for interactive visual scene understanding based on knowledge confidence defined on latent spaces,“ 電子情報通信学会技術報告、 PRMU2010-83、福岡県福岡市、2010年9月 October 20, 2011 26 "Mission incomplete, but not impossible"
  • 27. 発達中期段階 Video semantic Explicit/implicit p p  獲得した知識がどの程度 description d i ti information of the video can be 信頼できるのか? derived. Video semantic  初期段階は基本「受け売り」 analysis  知識の「質」を評価する術を Video knowledge dictionary y 持ち合わせていない Video parsing  ではどうする? Video parsing  計算機側から能動的に知識 dictionary の信頼性を確認し高める, Video morphological analysis 強化学習的アプローチ Video morpheme dictionary  言語処理的に考えると, 考 Video clip p 映像形態素辞書を精緻化 October 20, 2011 27 "Mission incomplete, but not impossible"
  • 28. 発達中期段階の実現方針  能動的に知識の信頼性を確認…って何?  まーたー(当時(たぶん)2歳)を観察してみることにしました 確かに「てーぶる」と言っている 「とんねる」…どこがやねん!!  自分の知識がどの程度正しいかを検証している(ように感じる)  量だけかき集めた知識から,質の悪いモノを捨て, 質の良いモノをさらに強化する作業をしている(と思いたい) October 20, 2011 28 "Mission incomplete, but not impossible"
  • 29. でも,強化学習なんて,本当にしているの? でも 強化学習なんて 本当にしているの?  @tanichu 先生の著書をご精読下さい…  潜在意識下でも行われている [Pessiglione 2009] 報酬がもらえるか ON +£1 or £0 or -£1 ON: £1 どうかの手掛かり OFF: 常に£0 [msec]  手がかり刺激が短時間過ぎて,意識に上らない.  にも関わらず多くの人が徐々に儲けていく(+£7/120試行)  でも,報酬が実際にもらえない場合は,chance level. October 20, 2011 29 "Mission incomplete, but not impossible"
  • 30. 皆さんならどんな「意味」を与えますか?  壁、窓、建物  広告、釧路  回文  ジョーク、つまらない 1. 対象とする人間を固定し、  何が問題なのか? 2 その人に適切な質問をする 2.  Semantic gap の存在 ことで解決可能、なはず!  Semantics の個人間分散の大きさ October 20, 2011 32 "Mission incomplete, but not impossible"
  • 31. 対話を通じた映像形態素の意味付け  対話を通した学習において、計算機が、 特に、どのように どのように質問をすれば良いか? を考える  質問の種類を選ぶ鍵 = 保有知識の確信度  確信度に応じて質問の対象をできるだけ絞り込む → 有用な教師情報を多く回収 & ノイズラベルを抑制 What is this? Which is this? Is this … ? This is … Low Confidence C fid High October 20, 2011 33 "Mission incomplete, but not impossible"
  • 32. 議論: 映像形態素解析のその先へ 木村 ほか “対話型映像認識理解における動的学習戦略に関する取り組み,“ 電子情報通信学会技術報告、PRMU2010-***、山口県山口市、2010年12月 October 20, 2011 34 "Mission incomplete, but not impossible"
  • 33. 「映像言語処理」構想の復習 Video semantic Explicit/implicit p p  その1: description d i ti information of the video can be 映像形態素の候補を抽出 derived. Video semantic analysis  その2: Video knowledge dictionary y 映像 映像形態素辞書を精緻化 素辞書を精緻 Video parsing Video parsing dictionary  本日の議論のネタ: Video morphological 映像の「構文解析」、及び analysis Video morpheme 各解析の相互作用を検討 dictionary Video clip p October 20, 2011 35 "Mission incomplete, but not impossible"
  • 34. 「映像構文」の探索と構築 Video semantic Explicit/implicit p p  構文解析 = description d i ti information of the video can be  形態素の関係を記述する derived. Video semantic  その関係に意味を与える analysis Video knowledge dictionary y  映像 場合 映像の場合には… Riding Video parsing Upper Video parsing Person dictionary 共起 Video morphological 位置 analysis Video morpheme dictionary 形状 Lower Video clip p Horse October 20, 2011 38 "Mission incomplete, but not impossible"
  • 35. 関連研究 その1 [Siddiquie+ [Siddi i CVPR2010]  複数物体の関係性を考慮した対話型動的学習  物体領域と不確定領域との位置関係に基づく質問生成  関係性そのものの意味を問うことはできない Q Q M A E E A M Q E October 20, 2011 39 "Mission incomplete, but not impossible"
  • 36. 関連研究 その2 [Sadeghi [S d hi 2011] 物体とその関係性を同時に獲得する 1. 関係性も物体同様,1つの「クラス」と見なす.  な なので,真に関係性を認識しているわけではない. ,真 関係性を認識 るわけ な 2. クラス間の位置関係を考慮して, クラス別での認識結果を修正 (追加・削除) (追加 削除) 1 2 October 20, 2011 40 "Mission incomplete, but not impossible"
  • 37. 構文解析と形態素解析との相互作用 Video semantic Explicit/implicit p p  形態素解析の不確定性 description d i ti information of the video can be  部分領域の情報だけでは derived. 実体を特定できない場合も Video semantic analysis Video knowledge dictionary y  構文知識を援用すれば… Jockey Video parsing Upper Jockey? Video parsing Policeman? dictionary Video morphological Horse analysis Video morpheme dictionary Lower Video clip p Horse? Tiger? Unicorn? g October 20, 2011 41 "Mission incomplete, but not impossible"
  • 38. 関連研究、はありますが… 関連研究 はありますが [Ladicky+ [L di k BMVC2010]  一般物体認識・物体領域・深度の同時推定  目指すべき実現形態の1つではある  膨大なクラスを扱える構造にはなっていない Disparity Segmentation Object class October 20, 2011 42 "Mission incomplete, but not impossible"
  • 39. まとめ  計算機が映像を理解できるようになるためには どうすれば? という根本的かつ難解な問いに対し  1年前に提案した枠組を実現するための 具体的なアプローチを提案 〔映像言語処理〕  このアプローチに基づいて、この1年で 実際に行った研究を整理して紹介 実際に行 た研究を整理して紹介 〔映像形態素解析〕  (まだ検討中) 〔動的学習戦略〕  まだまだ課題は山積、でも光は見えつつあります。  “Mission incomplete, but not impossible.” October 20, 2011 43 "Mission incomplete, but not impossible"
  • 40. Thank you for your kind attention Acknowledgment  This talk is based on the ones at PRMU research meeting in Dec 2009 & 2010. hi lk i b d h h i i  I’d like to thank all the collaborators and supporters for this research:  Framework: Y. Minami, H. Sakano, H. Sugiyama, E. Maeda (NTT CS Labs)  Visual attention: D. Pang (Stanford Univ.), T. Takeuchi (Nihon Women Univ.), J. Yamato, K. Kashino (NTT CS Labs), K. Miyazato (Okinawa National College Tech.)  Object detection: K. Fukuchi (JAIST), S. Takagi (Okinawa National College Tech.), K. Akamine (Miyazaki Univ.), R. Y K Ak i (Mi ki U i ) R Yonetani (K i (Kyoto U i ) Univ.)  Action planning: Gurbachan Sekhon (UBC)  Supporters: H. Arai (NTT SP Labs), K. Takeuchi (NTT CS Labs), T. Suzuki (Waseda Univ.)  This work is supported by Grant-in-Aid for Scientific Research on Innovative Areas “Founding a creative society via collaboration between humans and robots”. Corresponding author Akisato Kimura, Ph.D @ NTT CS Labs. [E-mail] [email protected] [ il] i @i [Twitter] @ ki [ i ] @_akisato October 20, 2011 44 "Mission incomplete, but not impossible"