SlideShare a Scribd company logo
ラベル伝搬法入門
~日本の若手NLPerの仕事を垣間
見る~


                  @niam
               TokyoNLP
                  11/23



                     1
2
経緯
ラベル伝搬に関連する日本のNLPerは割と多い
一方,TokyoNLPではあまり聞かない気が
→一度どんな研究があるか話してみよう

アルゴリズム自体は行列*ベクトルの演算ができ
ればすぐ実装できるものが多い.
→興味があれば実装は割と楽
簡単な実装→自作ライブラリに凝りすぎて千行超え
(C++11).
僕には使いやすい.
                      3
ラベル伝搬法とは?
    パターン     インスタンス
    素性(特徴)   例:単語, 文, 文書など
                         シードから
             負           ラベルを
                    l    グラフ上に
             正       シード 伝搬させて
M            ?
                         uの部分の
                           ラベルを
                    u
             …
                           推定する
             ?
                           方法の総称
                 枝の太さ=重み
                   は色々



                                   4
なぜ言語処理でグラフ?
→分布仮説
Wikipediaによると:
“words that occur in the same contexts tend
to have similar meanings.” [Harris, 1954]
Context:
• Social context
  – 例:誰の発言か?
• Verbal context
  – 例: words that occur in the same
    • 下線部がoccurに対するcontext
                                              5
グラフ→行列    Y                                                  M
          負                               l                   i           xi
                                                                               T



                  l                                          X
          正
                                     u
M         ?
                                                              j


                 u
         …?                 W                    XX               T

      (l+u) x (l+u) 類似度行列                                             j
                            W        ij              i
     その他にも
                                                     T
                                                xi                xj
     W ij の取り方は色々                               xi       xj
                                                              2

                            W   ij        exp            2



                                                                                   6
ラベル伝搬←→逆行列 1/2
 GRF [Zhu and Ghahramani, ICML2003]


                                             Wij>=0かつ,
                                             Wは正定値
                                             (すべての固有値>0)


確率行列とみなせる                       Wll Wlu      Yl
                           W            ,Y      とすると,
             W   ij
                                Wul Wuu      Yu
 1
D W
                                        WulYl に収束することを証明 .
      ij   u l                          1
                 W    ij
                           Yu   I Wuu
           j 1
                                                        7
ラベル伝搬←→逆行列 2/2
LLP [Zhou+, NIPS2004], [Ito+, KDD2005]
Regularized Laplacian Kernel:
                          1
     Kreg W   I    Lreg W
 ρ(W)をスペクトル半径(絶対値最大の固有値)と
 すると,β<1/ρ(Lreg(W))の時,無限和に分解できる
                                     1                 t            t
     K reg W    I        Lreg W                            Lreg W
                                         t 0

                                                                 T回で止める
                        T                                  T
                              t                t                             t
               fT                   Lreg W         y                Lreg W       y
                        t 0                                t 0

               fT   1             Lreg W fT            y

                                                                                     8
グラフラプラシアン
                                                                     fLu f       f D W f
      l u                     l u l u
                          2                                2
min         yi       fi                  wij f i      fj             Dii               Wij
 f
      i 1                     i 1 j 1
                                                                                 j 1



スコアベクトルf                                         グラフ上で
をなるべく                                            類似度の高い
シードに近づける                                         ノード同士のスコアは
                                                 似たものにする
これを解くと…                                                    c.f.:
                *                        1                                                      1
            f             I   Lu             y               Kreg W          I         Lreg W
                                  1/ 2             1/ 2              1/ 2         1/ 2
                    Lreg      D          Lu D                  I D      WD
                                                                                                9
Simplified Espresso
[Komachi+, EMNLP2008], [Pantel+, ACL2006]をラベル伝
搬で定式化




                        i0: y
                        i: インスタンスのスコアf
                                               t
                                 1
                 t回目:    i
                             | I || P |
                                        MM T       i0
                                                        10
LLP > Espresso
             [Komachi+, EMNLP2008]
NLP2008最優秀発表賞, JSAI2010論文賞
                      t
        1
i              MM T       i0
    | I || P |


• ずっと繰り返すと,()内の行列の最大固有値
  に対応する固有ベクトルに漸近して,i0の影
  響はなくなる→意味ドリフト
• 正規化ラプラシアンカーネルなら,正規化
  によって,次数の高いノードの重みがより
  大きく減じられるので,意味ドリフトを避
  けやすい
                                     11
g-Monaka    [萩原+, NLP2009, 最優秀発表賞]
文字n-gram間の有向グラフM ←正方非対称行列
目的例:日本語生文     低頻度のものなどを除外
からの地名の発見
                         1      1                     1
  東京近辺では…
                                               m                      m
               Wij   m              MTM                   MM T
                         2   | V |2       ij
                                                   | V |2        ij
   東   近

  京     辺            Wijに対してLLPなどを行う
  東京   近辺            左右の続きやすさを
                     一般化重み付き平均で
  地名に対応する            同時に考慮する
  文字n-gram
  に対応する
  ノードをシードに
                                                                 12
グラフスパース化 [Ozaki+, CoNLL2011]
ハブ:グラフ中で多くのノードに隣接するノード
 「グラフ上で類似度の高いノード同士は同じラベルに割り
 当てられやすい」に反するので誤識別の原因に.


• グラフ構築の際にハブを取り除きたい
• ラベル伝搬の多くは行列*ベクトルをiterativeに回
  す手法
   – 行列を疎にすれば計算も高速に!
Mutual k-NN: 互いのk近傍に入っているノード同士を繋ぐ

この話とは別にハブを作らないグラフ構築法
→今年の山下記念賞                           13
まとめ

• ラベル伝搬はNLPでは近年定番化しつつある
 – ACL 2011 Best Paperなどでも使われている
• 日本の若手NLPerにもラベル伝搬に関わった
  /ている方は多いので垣間見た
 – 一方,TokyoNLPではラベル伝搬の話はあまり紹
   介されていないように思われたので概観してみ
   ました.
• 個人的には分布仮説と直結するので,重要
  な分野だと思います.
• 顔写真は検索してみるといいと思います.
                                   14
参考文献リスト
• Zhu, X., Ghahramani, Z., & Lafferty, J. (2003). Semi-Supervised
  Learning Using Gaussian Fields and Harmonic Functions. ICML.
• Zhou, D., Bousquet, O., Lal, T. N., Weston, J., & Scholkopf, B. (2004).
  Learning with Local and Global Consistency. NIPS.
• Ito, T., & Shimbo, M. (2005). Application of kernels to link analysis.
  KDD.
• Pantel, P., & Pennacchiotti, M. (2006). Espresso: Leveraging generic
  patterns for automatically harvesting semantic relations. ACL.
• Komachi, M., Kudo, T., Shimbo, M., & Matsumoto, Y. (2008). Graph-
  based Analysis of Semantic Drift in {Espresso}-like Bootstrapping
  Algorithms. EMNLP.
• 萩原正人,小川泰弘,外山勝彦 . ”グラフカーネルに基づく非分かち書
  き文からの意味的語彙カテゴリの抽出”, NLP 2009, 最優秀発表賞.
• Ozaki, K., Shimbo, M., Komachi, M., & Matsumoto, Y. (2011). Using
  the Mutual k-Nearest Neighbor Graphs for Semi-supervised
  Classification of Natural Language Data. CoNLL.                        15
参考ブログ

• 生駒日記
• Standard ML of Yukkuri
  – https://github.com/smly




                              16
ご清聴ありがとうございました




                 17

More Related Content

Tokyo nlp #8 label propagation

  • 2. 2
  • 4. ラベル伝搬法とは? パターン インスタンス 素性(特徴) 例:単語, 文, 文書など シードから 負 ラベルを l グラフ上に 正 シード 伝搬させて M ? uの部分の ラベルを u … 推定する ? 方法の総称 枝の太さ=重み は色々 4
  • 5. なぜ言語処理でグラフ? →分布仮説 Wikipediaによると: “words that occur in the same contexts tend to have similar meanings.” [Harris, 1954] Context: • Social context – 例:誰の発言か? • Verbal context – 例: words that occur in the same • 下線部がoccurに対するcontext 5
  • 6. グラフ→行列 Y M 負 l i xi T l X 正 u M ? j u …? W XX T (l+u) x (l+u) 類似度行列 j W ij i その他にも T xi xj W ij の取り方は色々 xi xj 2 W ij exp 2 6
  • 7. ラベル伝搬←→逆行列 1/2 GRF [Zhu and Ghahramani, ICML2003] Wij>=0かつ, Wは正定値 (すべての固有値>0) 確率行列とみなせる Wll Wlu Yl W ,Y とすると, W ij Wul Wuu Yu 1 D W WulYl に収束することを証明 . ij u l 1 W ij Yu I Wuu j 1 7
  • 8. ラベル伝搬←→逆行列 2/2 LLP [Zhou+, NIPS2004], [Ito+, KDD2005] Regularized Laplacian Kernel: 1 Kreg W I Lreg W ρ(W)をスペクトル半径(絶対値最大の固有値)と すると,β<1/ρ(Lreg(W))の時,無限和に分解できる 1 t t K reg W I Lreg W Lreg W t 0 T回で止める T T t t t fT Lreg W y Lreg W y t 0 t 0 fT 1 Lreg W fT y 8
  • 9. グラフラプラシアン fLu f f D W f l u l u l u 2 2 min yi fi wij f i fj Dii Wij f i 1 i 1 j 1 j 1 スコアベクトルf グラフ上で をなるべく 類似度の高い シードに近づける ノード同士のスコアは 似たものにする これを解くと… c.f.: * 1 1 f I Lu y Kreg W I Lreg W 1/ 2 1/ 2 1/ 2 1/ 2 Lreg D Lu D I D WD 9
  • 10. Simplified Espresso [Komachi+, EMNLP2008], [Pantel+, ACL2006]をラベル伝 搬で定式化 i0: y i: インスタンスのスコアf t 1 t回目: i | I || P | MM T i0 10
  • 11. LLP > Espresso [Komachi+, EMNLP2008] NLP2008最優秀発表賞, JSAI2010論文賞 t 1 i MM T i0 | I || P | • ずっと繰り返すと,()内の行列の最大固有値 に対応する固有ベクトルに漸近して,i0の影 響はなくなる→意味ドリフト • 正規化ラプラシアンカーネルなら,正規化 によって,次数の高いノードの重みがより 大きく減じられるので,意味ドリフトを避 けやすい 11
  • 12. g-Monaka [萩原+, NLP2009, 最優秀発表賞] 文字n-gram間の有向グラフM ←正方非対称行列 目的例:日本語生文 低頻度のものなどを除外 からの地名の発見 1 1 1 東京近辺では… m m Wij m MTM MM T 2 | V |2 ij | V |2 ij 東 近 京 辺 Wijに対してLLPなどを行う 東京 近辺 左右の続きやすさを 一般化重み付き平均で 地名に対応する 同時に考慮する 文字n-gram に対応する ノードをシードに 12
  • 13. グラフスパース化 [Ozaki+, CoNLL2011] ハブ:グラフ中で多くのノードに隣接するノード 「グラフ上で類似度の高いノード同士は同じラベルに割り 当てられやすい」に反するので誤識別の原因に. • グラフ構築の際にハブを取り除きたい • ラベル伝搬の多くは行列*ベクトルをiterativeに回 す手法 – 行列を疎にすれば計算も高速に! Mutual k-NN: 互いのk近傍に入っているノード同士を繋ぐ この話とは別にハブを作らないグラフ構築法 →今年の山下記念賞 13
  • 14. まとめ • ラベル伝搬はNLPでは近年定番化しつつある – ACL 2011 Best Paperなどでも使われている • 日本の若手NLPerにもラベル伝搬に関わった /ている方は多いので垣間見た – 一方,TokyoNLPではラベル伝搬の話はあまり紹 介されていないように思われたので概観してみ ました. • 個人的には分布仮説と直結するので,重要 な分野だと思います. • 顔写真は検索してみるといいと思います. 14
  • 15. 参考文献リスト • Zhu, X., Ghahramani, Z., & Lafferty, J. (2003). Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions. ICML. • Zhou, D., Bousquet, O., Lal, T. N., Weston, J., & Scholkopf, B. (2004). Learning with Local and Global Consistency. NIPS. • Ito, T., & Shimbo, M. (2005). Application of kernels to link analysis. KDD. • Pantel, P., & Pennacchiotti, M. (2006). Espresso: Leveraging generic patterns for automatically harvesting semantic relations. ACL. • Komachi, M., Kudo, T., Shimbo, M., & Matsumoto, Y. (2008). Graph- based Analysis of Semantic Drift in {Espresso}-like Bootstrapping Algorithms. EMNLP. • 萩原正人,小川泰弘,外山勝彦 . ”グラフカーネルに基づく非分かち書 き文からの意味的語彙カテゴリの抽出”, NLP 2009, 最優秀発表賞. • Ozaki, K., Shimbo, M., Komachi, M., & Matsumoto, Y. (2011). Using the Mutual k-Nearest Neighbor Graphs for Semi-supervised Classification of Natural Language Data. CoNLL. 15
  • 16. 参考ブログ • 生駒日記 • Standard ML of Yukkuri – https://github.com/smly 16