Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Revisiting Over-smoothing in BERT from the Pers...

Sho Yokoi
September 26, 2022

Revisiting Over-smoothing in BERT from the Perspective of Graph

第14回最先端NLP勉強会
https://sites.google.com/view/snlp-jp/home/2022

Sho Yokoi

September 26, 2022
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. 読む⼈︓横井 祥 (東北⼤学) 2022-09-26, 第14回最先端NLP勉強会 ※ とくに注釈がない限り図表は紹介論⽂からの引⽤です Revisiting Over-smoothing in

    BERT from the Perspective of Graph Han Shi, JIAHUI GAO, Hang Xu, Xiaodan Liang, Zhenguo Li, Lingpeng Kong, Stephen M. S. Lee, James Kwok ICLR 2022 https://openreview.net/forum?id=dUV91uaXm3
  2. まとめ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 2 • BERT は層を深くすると埋込同⼠がどんどん似てくる

    • この現象の鍵のひとつは「層正規化に投げ込まれるトーク ン埋込がどんな数値を含むか」 (詳細後述) BERT に⼊⼒したテキストのトークン埋込たちが 層を進むにつれて似てくる様⼦
  3. 注 3 • NLP ⽬線での経験的な新しさはあまりありませんが,今後の NLP 研究・開発に効きそうな話です. − グラフニューラルネットの知⾒を BERT

    に転⽤した,という話です. − 持ち込まれた考え⽅は NLP 研究に⽰唆を与える⾯⽩いものです. − 経験的知⾒は NLP コミュニティとしてはそこまで新しくありません. • 論⽂の⼀部のみを紹介します. − 紹介するコンテンツも詳細は⾶ばします. をつけておきます. − 式もだいたい⾶ばします.⼤事な式だけ,その読み⽅ (お気持ち) の説 明をします. − 論⽂からは読み取りづらい式変形に関しても補⾜しておきます. • 脱線もたくさんします. SKIP ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ
  4. 扱うモデル︓BERTs ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 4 • 論⽂では Transformer

    という⽤語が 使われているけれどちょっと強い • 提⽰された理論が直接適⽤できるのは ⾃⼰注意機構 (self-attention) − cf. cross-attention • とくに,議論や数値実験の対象は BERT 型のモデル − cf. left-to-right LMs 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020)
  5. グラフニューラルネットにおける過平滑化 [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 6 • グラフNNで知られる過平滑化

    (over-smoothing) 問題 − 層を積むとノード表現同⼠が似てくる,⾒分けがつかなくなる. − 正規化隣接⾏列を何度も掛けわせる作⽤が効く. https://towardsdatascience.com/over-smoothing-issue-in-graph-neural-network-bddc8fbc2472 📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)
  6. 仮説︓BERTs でも過平滑化が起きるのでは︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 7 • 🤔

    BERT は注意機構を介して トークンを全結合したグラフを 扱っているように⾒える • 🤔 実際 BERT とグラフ畳み込みネットの構成は似ている Fig. 2(a) 𝐹𝐹(𝑿′) = 𝑅𝑒𝐿𝑈 𝑿′𝑾! + 𝒃! 𝑾" + 𝒃" : attention ⾏列 : (正規化) 隣接⾏列 ,
  7. 観察︓BERT でも過平滑化が起きている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 8 • 測り⽅︓同⼀⽂内のトークン埋込同⼠の

    cos は⼤きい︖ • 結果︓層が深くなるにつれて どんどんトークン埋込同⼠の ⾒分けがつかなくなる Fig. 1(a) データ︓WikiBio モデル︓SQuAD で fine-tune 済
  8. 注︓トークン埋込の「過平滑化」は NLP では「⾮等⽅性」という名前で知られている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 9 •

    注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側で は既知の知⾒ − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワ ードで知られる − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21] • [私⾒] これは決して悪いことではないと思ってます − GNN の過平滑化の知⾒と,NLP の⾮等⽅性の知⾒の相互輸⼊の契機 − 実際,今⽇紹介する論⽂の貢献を悪意をもって要約すれば「GNN の理 論を Transformer に輸⼊してみた」になるでしょう − 分野間に橋をかけるのはそれ⾃体偉い 📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019) 📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)
  9. 注︓トークン埋込の「過平滑化」は NLP では「⾮等⽅性」という名前で知られている ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 10 •

    注︓トークン埋込同⼠の⾒分けがつかなくなる話は NLP 側で は既知の知⾒ − 埋込の配置の「⾮等⽅性 (anisotropy)」や「錐 (cone)」というキーワ ードで知られる − たとえば [Ethayarajh EMNLPʼ19][Cai+ICLRʼ21] • さらに注︓NLP の「等⽅性」や「錐」の⽤法も⼤変あやしい − NLP では過平滑化された埋込の性質が「⾮等⽅性 (anisotropy)」「等 ⽅性 (isotropy)」と⾔及されるが,「等⽅性 (isotropy)」の⼀般的な 定義を無視したややお気持ちキーワード − NLP では過平滑化された埋込の配置が「錐 (cone)」と⾔及されるが, 「錐 (cone)」の定義を無視したややお気持ちキーワード − 定義に戻って埋込を観察すると⾯⽩いことが⾊々わかる.乞うご期待 📄 Ethayarajh, How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings (EMNLP 2019) 📄 Cai+, Isotropy in the Contextual Embedding Space: Clusters and Manifolds (ICLR 2021)
  10. 注︓CosSim では過平滑化は測りきれない ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 11 • CosSim

    − 過平滑化 (GNN) でも⾮等⽅性 (NLP) でも典型的な評価尺度 − が,実際には過平滑化・⾮等⽅性の尺度としてはやや不⾃然
  11. 注︓CosSim では過平滑化は測りきれない ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 12 • CosSim

    SimCos ≈ 0 過平滑化 (埋込集中) なし SimCos ≈ 1 過平滑化 (埋込集中) あり SimCos ≈ 0 過平滑化 (埋込集中) なし? ✔ ✔ ︖
  12. ここから ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 14 • BERTs はグラフ畳み込みネットっぽいな……

    • → グラフニューラルネットの⾮平滑化の理論的知⾒ [Oono&Suzuki,ICLRʼ20][Huang+arXivʼ20] を活かして BERTs の⾮平滑化にも理論的知⾒を与えたい 📄 Oono&Suzuki, Graph Neural Networks ExponenXally Lose Expressive Power for Node ClassificaXon (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph ConvoluXonal Networks (arXiv 2020)
  13. 主結果︓⾃⼰注意機構における過平滑化 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 17 • 適当な条件の下で,埋込を積んだ⾏列 𝑯

    は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑑ℳ (𝑯) 𝑯 と ℳ の距離 “正射影して距離 (Frobenius norm) を測る” ℳ ⾏列全体のうち,全⾏ (全トークン埋込) が 全く同じ⾏列の集合 𝑯" ⼊⼒テキストを構成するトークンの埋込 (⾏) を積んだ⾏列 層を経る毎に (𝑖 = 0, 1, …) 更新されていく
  14. 証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 18 1.

    各モジュールが埋込⾏列 𝑯 に与える作⽤を陽に書く Proof of Thm. 2 これを式に 落としているだけ 📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020)
  15. 証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 19 2.

    各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える
  16. 証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 20 2.

    各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える たとえば⾏列 𝑾 をかける場合, 𝑾 の最⼤特異値 𝑠 が縮退具合に効く 𝑾 が⼀番引き伸ばす⽅向での拡⼤率 これが 1 より⼩さければ (全⽅向の拡⼤率が 1 より⼩さければ), 𝑾 をかけることで 𝑯 が⼊っているスペースが縮んでいく https://en.wikipedia.org/wiki/Singular_value_decomposition
  17. 証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 21 2.

    各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える 新規性︖︓上の3つは [Oono&Suzuki,ICLRʼ20] [Huang+arXivʼ20] より 今⽇紹介している論⽂は, GNN の過平滑化を分析する技術を BERTs 向けに翻訳しているのが偉い 技術的新規性は少ないかもしれないけれど, 分野間に橋をかけるのはそれ⾃体偉い (私⾒)
  18. 証明の肝 NLP で活⽤できそうな技術 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 22 2.

    各作⽤が埋込⾏列をどの程度縮退させるか (= 埋込たちが存在できる空間をぎゅっと潰すか) を考える NLP から⾒た嬉しさ︓ BERTs 内でトークン埋込が配置変更されるか (過平滑化, ⾮等⽅化するか) についての 定量的なガイドが増えた
  19. Q. 埋込たちが過平滑化する (𝒗 < 𝟏) のは 具体的にどういうとき︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI

    *$-3 ঺հऀԣҪ 24 • 適当な条件の下で,埋込を積んだ⾏列 𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2)
  20. ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 25 • 層正規化 (layer normalization)

    📄 Xiong+, On Layer Normalization in the Transformer Architecture (ICML 2020) A. BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値
  21. ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 26 • 層正規化 (layer normalization)

    − 個々の埋込をスカラーの集合だと思って 中⼼化 & 基準化 (標準偏差で割る) 📄 Xiong+, On Layer NormalizaXon in the Transformer Architecture (ICML 2020) A. BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値 📄 Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021)
  22. • 層正規化 (layer normalization) − 個々の埋込をスカラーの集合だと思って 中⼼化 & 基準化 (標準偏差で割る)

    • BERTs で過平滑化が起きる条件 − 層正規化 × 2 に⼊ってくる埋込の 標準偏差の最⼩値 𝜎!, 𝜎" が 𝜎!𝜎" > 1 − =層正規化に⼊ってくるどの埋込も 要素が⼗分バラついている A. BERTs の過平滑化の鍵は, 層正規化に⼊る埋込の標準偏差の最⼩値 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 27 📄 Xiong+, On Layer NormalizaXon in the Transformer Architecture (ICML 2020) 複数のトークン埋込が同時に流れてくるので, トークン数だけ標準偏差が計算される 正確には,起きる⼗分条件 (𝑣 < 1) の近似 (𝑠 ≈ 0)
  23. 層正規化に⼊る埋込の標準偏差の最⼩値 𝝈𝟏 𝝈𝟐 と過平滑化現象には関係がありそう ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 28

    • 層正規化に⼊る埋込の標準偏差の最⼩値 𝜎!𝜎" • cos 平均 どんな⽂ (トークン列) を⼊れても 𝜎#𝜎$ > 1 となる (=理論上過平滑化が起こりやすい) データ cos 平均 (実際の埋込の集中具合; ⻘線) が⼤きい =経験的にも過平滑化が強く起きる
  24. ⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 30 • 適当な条件の下で,埋込を積んだ⾏列

    𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列 の最⼤特異値 𝑠 ⾃⼰注意機構 の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 SKIP
  25. ⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 31 • 適当な条件の下で,埋込を積んだ⾏列

    𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列 の最⼤特異値 𝑠 ⾃⼰注意機構 の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 ≈ 1 𝜎2 𝜎3 NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと… 𝜎# 𝜎$ > 1 SKIP
  26. ⾊々コンポーネントがある中でなぜ層正規化 だけ⾒れば良い︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 32 • 適当な条件の下で,埋込を積んだ⾏列

    𝑯 は,全⾏が同じ⾏ 列の集合 ℳ に近づいていく (定理2) 𝑣 < 1 ℎ 層数 𝑠 FF 内の⾏列 の最⼤特異値 𝑠 ⾃⼰注意機構 の出⼝の⾏列 (𝑾%𝑾&) の最⼤特異値 𝜆 𝑨' 𝑰 − # ( 𝟏𝟏' 𝑨 の最⼤固有値 𝑨: Attention ⾏列 ≈ 1 𝜎2 𝜎3 NN 内の⾏列パラメータは weight decay で結構つぶれる (𝑠 ≈ 0) と思うと… 𝜎# 𝜎$ > 1 SKIP
  27. 𝝈𝟏 𝝈𝟐 はどこから降ってきました︖ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 33 •

    層正規化の処理は3段階 1. ベクトルを引く −𝑚(𝒉) 2. 右から ! # 𝒉 diag(𝜸) をかける 3. ベクトルを⾜す +𝜷 • 上の 2 を 𝐻 に対する作⽤の形に書き換えると︓ − diag ! # 𝒉) , ! # 𝒉* , … 𝑯 diag 𝜸 • この作⽤の最⼤特異値 (縮退に⽀配的な係数) は,層正規化 にまとめて突っ込まれる 𝒉& たちの標準偏差 𝑠(𝒉&) の最⼩値 で決まる • ※ 復習したい⼈向けの注︓論⽂には陽に書かれていません − 𝑫%& という記号が出てくる式周辺をエスパーするとたぶんこう 📄 Kobayashi+, Incorporating Residual and Normalization Layers into Analysis of Masked Language Models (EMNLP 2021) SKIP
  28. まとめ ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 35 • BERT は層を深くすると埋込同⼠がどんどん似てくる

    • 主結果︓BERTs の過平滑化のダイナミクスを [Oono&Suzuki,ICLRʼ20] [Huang+,arXivʼ20] に基づいて記述 − 基本的なアイデア︓点群の存在域が狭くなっていく様⼦を,個々の作 ⽤の最⼤固有値 (特異値) で押さえる − とくに,層正規化に⼊る埋込の標準偏差の最⼩値が⼤きい場合に過平 滑化が起きやすそう. 📄 Oono&Suzuki, Graph Neural Networks Exponentially Lose Expressive Power for Node Classification (ICLR 2020) 📄 Huang+, Tackling Over-Smoothing for General Graph Convolutional Networks (arXiv 2020)
  29. ⾶ばした話 ୈճ࠷ઌ୺/-1ษڧձ 3FWJTJUJOH0WFSTNPPUIJOHJO#&35GSPNUIF1FSTQFDUJWFPG(SBQI *$-3 ঺հऀԣҪ 36 • モデル提案 −

    後半層で over-smoothing しちゃうなら,前半層と後半層の表現を 同時に使えるように繋げば良いのでは︖ − → 過平滑化が緩和 − ※ 主結果で得られた話 (縮退は何に起因するのか,とくに縮退の肝は layer normalization っぽい) との繋がりはない提案