SlideShare a Scribd company logo
Transformer
メタサーベイ
参加者
品川、村山、山本、邱、鈴木、
釜堀、北村、楢木、金沢
アドバイザ
片岡、牛久
1
http://xpaperchallenge.org/cv
1. Transformerの躍進
2
いま、Transformerがアツい
3
大規模かつ多様なデータでの学習が盛んに
人間と一見遜色ない言語生成・画像生成の報告も
DALL-E (https://openai.com/blog/dall-e/)
GPT-3の検索結果
1 Transformer
の躍進
NLPからVision and Language、CVへ
4
論文が最初に発表された年月
2017 2018 2019 2020 2021
Transformer
出現
事前学習モデ
ルの提案
マルチモーダル化
CVタスクへの
応用
2017/06
Transformer
2018/06
GPT-1
2018/10
BERT
2019/08
ViLBERT
LXMERT
VLBERT
2020/05
DETR
2020/10
ViT
2021/02
TimeSformer
1 Transformer
の躍進
NLPからVision and Language、CVへ
5
最近はCV、Vision and Languageへの応用が激化
サーベイ論文も立て続けに登場
2020/12/23
A Survey on Visual Transformer (2020)
https://arxiv.org/abs/2012.12556
2021/01/04
Transformers in Vision: A Survey
https://arxiv.org/abs/2101.01169
2021/03/06
Perspectives and Prospects on Transformer Architecture for
Cross-Modal Tasks with Language and Vision
https://arxiv.org/abs/2103.04037
1 Transformer
の躍進
Transformerがいかにして生まれたか
6
1 Transformer
の躍進
NLP界隈の悩み:時系列をRNNで扱うのは時間がかか
る
RNN
embedding
RNN
embedding
RNN
embedding
Transformerの登場
7
1 Transformer
の躍進
Self-attentionで時系列データを一度に処理(学習時)
RNN
embedding
RNN
embedding
RNN
embedding
学習の高速化により大規模データでの学習が可能に
→NLP分野での大規模学習時代の到来
Transformer block
CV界隈にとっての嬉しさ
8
1 Transformer
の躍進
CNNは局所結合を重ねた構造
大域的な関係性を見るのは苦
手
Self-attentionで大域的な関係性も見られるようにな
った
Transformer block
Transformerは領域同士の
関係性を大域的に見ることが可
能
Self-attentionの適用事例
9
Self-Attention Generative Adversarial Networks [H. Zhang+, ICML2018]
• GANによる画像生成にSelf-attentionを適用した例
• 点が示す領域をクエリとしたとき、画像のどの領域が強
く対応しているかを可視化
• 各クエリ点が近くの領域や遠くの領域を見ていることが
わかる
1 Transformer
の躍進
Transformerは最強?
10
1 Transformer
の躍進
Transformerの強み
• RNNより処理が速い→大規模学習向き
• CNNより大域な特徴も見られる→性能が高くなり
そう
Transformerの弱み?
• まだまだ不明な点が多い点
• ゆえに世界中がいま分析や応用に躍起
この構造がベストなのか?
精度を上げるには学習にどういう工夫がいるのか?
データセットのサイズはどのくらいの規模が必要か?
これらの疑問を解消するため、
我々はArXivの奥地へと進んだ・・・
参考文献1
11
参考文献
[H. Zhang+, ICML2018] Zhang, Han, et al. “Self-Attention Generative Adversarial
Networks.” Proceedings of the 36th International Conference on Machine Learning
(2019).
2. Transformer解体新書
12
親の顔より見たかもしれない図
13
2 Transformer
解体新書
基本構成はそんなに難しくない
14
2 Transformer
解体新書
Transformer block
Transformer block
Transformer block
classification head
positional encoding
embedding
入力
入力をトークンごとにベクトル化
Self-attentionを中心とし
た
メインの処理
分類の予測を行う
位置情報の付与
基本構成はそんなに難しくない
15
2 Transformer
解体新書
Transformer block
Transformer block
Transformer block
classification head
positional encoding
embedding
入力
入力をトークンごとにベクトル化
位置情報の付与
Self-attentionを中心とし
た
メインの処理
分類の予測を行う
positional encoding
16
2 Transformer
解体新書
self-attentionには各トークンの位置を考慮する機構が
ない→明示的に位置embeddingを与えると性能が向上
大きく分けると3つの観点がある
a) position情報をどんな関数で表現するか?
b) 絶対位置か?相対位置か?
c) どの段階で足し合わせるか?
単純に足し合わせることが多い
a) position情報をどんな関数で表現するか?
17
2 Transformer
解体新書
さらに3種類に分かれる
a1) sin関数とcos関数で明示的に与える(学習不要)
a2) 学習可能なパラメータとして適当に初期化して学
習する
a3) 位相部分のみを学習可能なパラメータとする
a1) sin関数とcos関数で明示的に与える
18
2 Transformer
解体新書
• Sinusoidal positional embeddings (SPEs) [A. Vaswani+, NIPS2017]
• Transformerの元論文をはじめとしてよく使われている
• 学習不要で使えるのが利点
SPEsの気持ちは時計型embedding?
19
2 Transformer
解体新書
from:https://github.com/jalammar/jalammar.github.io/blob/master/noteboo
kes/transformer/transformer_positional_encoding_graph.ipynb
長針
周期短い
短針
周期長い
“私”
“は”
“元気”
“です”
“。”
位置embeddingは足すべきか?
20
2 Transformer
解体新書
from:https://github.com/jalammar/jalammar.github.io/blob/master/noteboo
kes/transformer/transformer_positional_encoding_graph.ipynb
位置embeddingは入力に足す実装が多い
best practiceは不明。concatする方が良い可能性もある
Sinusoidal positional embeddingsの場合
• ベクトルの最初の数十次元が位置情報に
よって汚染される(学習済みembedding
を使うときは注意が必要?)
• ソフトにconcatしているともいえる
Learnable positional embeddingsの場合
• すべての次元が位置情報によって汚染さ
れ得る
• が、良い性能が出ているのでたぶん学習
でうまく住みわけがなされている模様
a2) 学習可能なパラメータとして
適当に初期化して学習する
21
2 Transformer
解体新書
• Learnable positional embeddings [J. Gehring+, ICML2017]
• BERTやGPT、ViTなどよく使われている
https://huggingface.co/transformers/_modules/transfo
rmers/models/vit/modeling_vit.html#ViTModel
初期化の方法は様々
HuggingfaceのViTだとゼ
ロベクトルで初期化
他にも一様分布や
正規分布などの場合があ
る(実装による)
22
2 Transformer
解体新書
● Learnable sinusoidal positional embeddings [B. Wang+, ICLR2021]
● Sinusoidalの形だと2つの位置の内積がcosの和で表される
23
2 Transformer
解体新書
位置embeddingが全てsin、cosだとすると、
ある位置は他の位置の線形結合で表現することができる
ちなみに元論文[A. Vaswani+, NIPS2017]の著者らの主張
だから相対位置を学習しやすそう
という著者らのお気持ちが込められている
b) 絶対位置か?相対位置か?
24
2 Transformer
解体新書
Sinusoidal型で位置embeddingを定義する場合
絶対位置ではなく相対位置で定義する方法がある
特徴:長文の処理やスパン予測に強い [B. Wang+, ICLR2021]
https://openreview.net/forum?id=onxoVA9FxMw
例:訓練データより長い文での機械翻訳で強い [M. Neishi+,
CoNNL2019] https://www.aclweb.org/anthology/K19-1031/
下の2文のように、「突然」が入ると絶対位置では変わるが
、相対位置なら位置embeddingが変わらない。
「猫 が 犬 を 追う 。」
「突然 、 猫 が 犬 を 追う 。」
c) どの段階で足し合わせるか?
25
2 Transformer
解体新書
● 入力のembeddingに足す(よくある方法)
● Modified Attention Matrix (MAM)
呼び方はPosition Information in Transformers: An
Overview [P. Dufter+, arXiv2021]に依拠
Modified Attention Matrix (MAM)
26
2 Transformer
解体新書
位置embeddingをattantion mapのバイアスとして足す
Rethinking Positional Encoding in Language Pre-training [G. Ke+, ICLR2021]
https://openreview.net/forum?id=09-528y2Fgf
(b)のように、素子と位置のembeddingを別々に計算して
attention mapで加算する方法をとる
従来の入力で足す方法 MAM
MAMにはどのような利点がある?
27
2 Transformer
解体新書
Rethinking Positional Encoding in Language Pre-training [G. Ke+, ICLR2021]
https://openreview.net/forum?id=09-528y2Fgf
Attention mapは素子(Unit)と位置(Position)のembeddingからなる
BERTの学習済みモデルで素子と位置の相関を見てみると相関がない
→わざわざ相関を無くすように学習をしている
→MAMによってこの部分を明示的に除去することで、表現力を別の部分に
使えて同じモデルでも性能が向上する
Positional embedding関連でおススメの文献
28
2 Transformer
解体新書
Position Information in Transformers: An Overview [P. Dufter+, arXiv2021]
https://arxiv.org/abs/2102.11090
位置embeddingについての網羅的なサーベイ論文
On Position Embeddings in BERT [B. Wang+, ICLR2021]
https://openreview.net/forum?id=onxoVA9FxMw
位置embeddingの性質としてSinusoidal型と学習型を様々な条件で比較
タスクごとのおすすめの設定を示唆している
● 絶対位置が分類タスクで優れている(特殊トークンを柔軟に扱えるため?)
● 相対位置がスパンの予測タスクで優れている
● 分類タスクでは対称性は崩れていた方が性能が良い
What Do Position Embeddings Learn? An Empirical Study of Pre-Trained
Language Model Positional Encoding [Y.A. Wang+, EMNLP2020]
https://arxiv.org/abs/2010.04903
BERT、RoBERTa、GPT-2などの位置embeddingの可視化
基本構成はそんなに難しくない
29
2 Transformer
解体新書
Transformer block
Transformer block
Transformer block
classification head
positional encoding
embedding
入力
入力をトークンごとにベクトル化
Self-attentionを中心とし
た
メインの処理
分類の予測を行う
位置情報の付与
Transformer block
30
2 Transformer
解体新書
Transformer block
学習方法やタスクに非依存のTransfomerの基本処理単位
Transformerブロックの中身
31
2
Transformer
解体新書
Transformerブロックを構成している要素
1. Multi-head attention (次元分割型Self-attention)
2. 残差接続(Residual connection)
3. Layer Normalizationによる正規化
4. Position-wise feed forward networks
5. DropOut
ややこしい図でいうところの
Transformerブロック部分
Self-attention
32
2 Transformer
解体新書
辞書型の非線形処理機構
周りの情報を取り入れて新しいベクトルを作る
self-attention
Self-attention
33
+
このクエリについ
てみると・・・
ベースの料理(Query)に関係する周りの料理を選び(Key)
その材料(Value)で新しい料理(ベクトル)をつくる
attention map
2 Transformer
解体新書
Multi-head attentionへの拡張
34
次元分割型Self-attention(Multi-head attention)
Self-attentionの内積はベクトルの各要素にわたって大
域的な類似度を取っている
高次元にすると、
次元ごとの小さな特徴が無視されやすい
attention
map
• 小さなベクトルに切り分け計算
• トークン間の多様な類似性を
発見できる
• 多様性を上げる損失関数を加え
ると性能向上[J. Li+, EMNLP2018],
[P.Y. Huang+, EMNLP2019]
2 Transformer
解体新書
残差接続(Residual connection)
35
• 入力からの差分を学習する
• 入力からの差分の学習が不要の場合
sublayer部分が0になるように学習が進む
• 学習の安定化に寄与
多層での学習性能を上げる工夫
2 Transformer
解体新書
Layer normalization
36
入力系列をトークンごとに正規化する操作
Layernorm
Layernorm
Layernorm
Layernorm
嬉しい特徴
Large batch訓練がbatch accumulationで安心してできる
※batch normalizationだと統計量が変わってしまう
2 Transformer
解体新書
DropOut
37
Transformerでは3種類のDropOutがある
● positional encoding後の入力embedding
● 残差接続&Layernormの直前
● attention計算時のattention map
訓練時に、ある層の入力(出力)を確率的に0にする
ことで汎化性能を上げる工夫
2 Transformer
解体新書
Position-wise feed forward networks
38
2 Transformer
解体新書
言語モデルでは一種のkey-valueメモリ
の役割を担っていると報告
[M. Geva+,arXiv2021]
https://arxiv.org/abs/2012.14913
2層の線形層を各位置ごとに適用(Layernormと同様)
この層はtransformerの2/3の重みを占めるが、どのような役割
や重要性があるのか?
重みで学習された情報(networkに埋め込まれ
た情報)をこの部分で引き出しているらしい
参考文献
39
参考文献
[A. Vaswani+, NIPS2017] Vaswani, Ashish et al. “Attention is All you Need.”
Advances in Neural Information Processing Systems 30 (2017).
[J. Gehring+, ICML2017] Gehring, Jonas et al. “Convolutional Sequence to Sequence
Learning.” Proceedings of the 34th International Conference on Machine Learning
(2017).
[B. Wang+, ICLR2021] Wang, Benyou, et al. “On Position Embeddings in BERT.”
Proceedings of International Conference on Learning Representations (2021).
[M. Neishi+, CoNNL2019] Neishi, Masato and Yoshinaga, Naoki “On the Relation
between Position Information and Sentence Length in Neural Machine Translation.”
Proceedings of the 23rd Conference on Computational Natural Language Learning
(2019).
[P. Dufter+, arXiv2021] Dufter, Philipp et al. “Position Information in Transformers: An
Overview.” arXiv preprint arXiv:2102.11090 (2021).
[G. Ke+, ICLR2021] Ke, Guolin, et al. “Rethinking Positional Encoding in Language
Pre-training.” Proceedings of International Conference on Learning Representations
(2021).
[Y.A. Wang+, EMNLP2020] Wang, Yu-An and Chen, Yun-Nung “What Do Position
Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional
Encoding.” Proceedings of the 2020 Conference on Empirical Methods in Natural
Language Processing (2021).
参考文献
40
参考文献
[J. Li+, EMNLP2018] Li, Jian, et al. “Multi-Head Attention with Disagreement
Regularization.” Proceedings of the 2018 Conference on Empirical Methods in
Natural Language Processing (2018).
[P.Y. Huang+, EMNLP2019] Huang, Po-Yao, et al. “Multi-Head Attention with
Diversity for Learning Grounded Multilingual Multimodal Representations.”
Proceedings of the 2019 Conference on Empirical Methods in Natural Language
Processing and the 9th International Joint Conference on Natural Language
Processing (2019).
[M. Geva+,arXiv2021] Geva, Mor, et al. “Transformer Feed-Forward Layers Are Key-
Value Memories.” arXiv preprint arXiv:2012.14913 (2020).
3. Transformerの学習と推論
41
NLPにおけるTransformerの類型
42
3 Transformerの学習
と推論
大きく分けて2種類のタイプがある
• 【Seq2seq】Attention is all you need [A. Vaswani+, NIPS2017]
• 【BERT】BERT: Pre-training of Deep Bidirectional
Transformers for Language Understanding [J. Devlin+, NAACL2019]
Seq2seq型
43
3 Transformerの学習
と推論
EncoderとDecoderの2種類のTransformerで構成
Encoder Decoder
Seq2seq型
44
3 Transformerの学習
と推論
EncoderとDecoderの2種類のTransformerで構成
Encoder情報はKey, Value情報としてDecoderへ
Encoder Decoder
Key
Value
自己回帰型と非自己回帰型
45
自己回帰
過去の系列のみを参照(GPT-1,2,3など)
非自己回帰
未来を含め系列全体を参照(BERTなど)
※図は[N. Chen+, arXiv2019](https://arxiv.org/abs/1911.04908)より
3 Transformerの学習
と推論
自己回帰型と非自己回帰型
46
3 Transformerの学習
と推論
「私 は 元気 です」をデコーダで出力するように学習す
る場合
私
は
元気
で
す
Query
Key
「私」に対応するQueryは、未
来の情報である「は」「元気
」「です」のKeyを考慮しない
(ちなみに推論時も同様にマ
スクされている)
非自己回帰型のSeq2seq
47
3 Transformerの学習
と推論
トークン
の消去
トークン用
穴の作成
穴埋め
トークンの消去、トークン穴の作成、穴埋め
の操作を通して全系列を段階的に編集する
全系列を一度に予測する。有名なのは
Levenshtein Transformer [J. Gu+, NeurIPS2019]
https://arxiv.org/abs/1905.11006
BERT型
48
3 Transformerの学習
と推論
非自己回帰のDecoderに似た新しい言語モデルの枠組み
事前学習で以下の2つのタスクを行うことで色々なNLPタスク
で効果を発揮(V&LのモデルやViTもこの流れを汲んでいる)
• Masked language modeling (MLM)
• Next sentence prediction (NSP)
BERT
[CLS] [SEP]
文A 文B
Masked Language Modeling
49
3 Transformerの学習
と推論
系列の一部を[MASK]トークンで置き換えるなど処理を施してそ
のトークンの予測を行うタスク
(ViTでもpatch単位で同じことをしている)
BERTでは15%を選択して処理
● 80%は[mask]トークンで置き換え
● 10%はrandomなトークンで置き換え
● 10%はそのままにする
15%
Next sentence prediction
50
3 Transformerの学習
と推論
2つの文AとBが連続しているかを2値で予測するタスク
(V&Lのモデルでは画像とテキストがマッチするかで使われて
いる)
BERT
[CLS] [SEP]
文A 文B
連続/不連続
BERTでは50%が連続(IsNext),50%が不連続(NotNext)のデータ
RoBERTa[Y. Liu+, arXiv2019]では性能向上に寄与しないとの報
告がある
Segment embeddingsの追加
51
3 Transformerの学習
と推論
どちらの文に所属しているかをより明示的に扱うための
embeddingを追加で加算する(複数文の場合はABを繰り返すこ
とが多い?)
参考文献
52
参考文献
[A. Vaswani+, NIPS2017] Vaswani, Ashish et al. “Attention is All you Need.”
Advances in Neural Information Processing Systems 30 (2017).
[J. Devlin+, NAACL2019] Devlin, Jacob, et al. “BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding.” Proceedings of the 2019
Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)
(2019).
[N. Chen+, arXiv2019] Chen, Nanxin, et al. “Listen and Fill in the Missing Letters:
Non-Autoregressive Transformer for Speech Recognition.” arXiv preprint
arXiv:1911.04908 (2019).
[J. Gu+, NeurIPS2019] Gu, Jiatao, et al. “Levenshtein Transformer” Advances in
Neural Information Processing Systems 32 (2019).
[Y. Liu+, arXiv2019] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining
approach." arXiv preprint arXiv:1907.11692 (2019).
4. Computer Visionでの展開
53
画像認識
54
Vision Transformer (ViT)[A. Dosovitskiy+, ICLR2021]
シンプルに画像にTransformerを適用させたモデル
画像を区切ったボクセル=単語に対応
4 Computer Visionでの展開
出典:原著
(https://openreview.net/forum?id=YicbFdNTTy)
Figure 1
シンプルな適用でも
従来のデファクトの
性能を超える!
同等性能が
15倍短い学習で
達成可能!
出典:原著
(https://openreview.net/forum?id=YicbFdNTTy)
Table 2
画像片を単語の
ように扱う
スライス
画像認識
55
ViTのさらなる発展系
• DeiT [H.Touvron+, arXiv2021]
– ViTを蒸留によって訓練を効率化
– 蒸留Tokenを導入して蒸留の損
失を計算
– データ拡張やLabel smoothing
の適用によって訓練を高速化
4 Computer Visionでの展開
Touvron, Hugo, et al. "Training data-efficient image
transformers & distillation through attention." arXiv
preprint arXiv:2012.12877(2020).
物体検出
56
DEtection TRansformer (DETR)[N Carion+, ECCV2020]
シンプルにTransformerを適用させたモデル
入力画像はスライスせず,Positional Encodingを1枚
画像にして注目場所を扱う
4 Computer Visionでの展開
出典:原著(https://arxiv.org/abs/2005.12872) Fig 2
動画認識
57
Video Action Transformer Network
[R Girdhar+,CVPR2019]
構造には結構工夫あり.画像サイズのPEから空間的注
目領域を見るのはDETRに近い
4 Computer Visionでの展開
出典:原著 (https://arxiv.org/abs/1812.02707) Figure 2
動画認識
58
Time-Space Transformer (TimeSformer)
[G. Bertasius+, arXiv2021]
ViTのような画像を均等にパッチ化し, Spatio-Temporal
なTransformerを提案.計算コストが異なる5種類の
Spatio-TemporalのSelf-attention計算(下図)を検討:
4 Computer Visionでの展開
出典:原著 (https://arxiv.org/abs/2102.05095) Figure 2
動画認識
59
Video Vision Transformer (ViViT)
[A. Arnab+, arXiv2021]
TimeSformerと類似し,ViTのように画像を分割し,Spatio-
Temporal Transformerを提案.SpatioとTemporalのSelf-
attention計算を如何に効率化するかという視点で,3つの
Factorisationの方法を提案(下図).
4 Computer Visionでの展開
出典:原著 (https://arxiv.org/abs/2103.15691) Figure 1
CVPR2021における動向
60
ポーズ推定とメッシュ復元
[K. Lin+, CVPR2021](https://arxiv.org/abs/2012.09760)
CVPR2021における動向
61
トラッキング
[N. Wang+, CVPR2021](https://arxiv.org/abs/2103.11681)
CVPR2021における動向
62
Semantic Segmentation
[S. Zheng+, CVPR2021](https://arxiv.org/abs/2012.15840)
CVPR2021における動向
63
Panoptic Segmentation
[H. Wang+, CVPR2021](https://arxiv.org/abs/2012.00759)
CVPR2021における動向
64
Human-Object Interaction (HOI) detection
[M. Chen+, CVPR2021](https://arxiv.org/abs/2103.05983)
CVPR2021における動向
65
Image-Based Rendering
[Q. Wang+, CVPR2021] (https://arxiv.org/abs/2102.13090)
CVPR2021における動向
66
レイアウト生成
[D.M. Arroyo+, CVPR2021](https://arxiv.org/abs/2104.02416)
数式ドリブンDBによる超大規模学習
67
数式ベースで学習データを作成することで,
ViTの事前学習
[K. Nakashima+, arXiv2021](https://arxiv.org/abs/2103.13023)
参考文献
68
参考文献
[A. Dosovitskiy+, ICLR2021] Dosovitskiy, Alexey, et al. “An Image is Worth 16x16
Words: Transformers for Image Recognition at Scale.” Proceedings of International
Conference on Learning Representations (2021).
[H.Touvron+, Arxiv2021] Touvron, Hugo, et al. "Training data-efficient image
transformers & distillation through attention." arXiv preprint arXiv:2012.12877(2020).
[N Carion+, ECCV2020] Carion, Nicolas et al. “End-to-End Object Detection with
Transformers.” European Conference on Computer Vision (2020).
[R Girdhar+, CVPR2019] Girdhar, Rohit et al. “Video Action Transformer Network.”
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition (2019).
[G. Bertasius+, arXiv2021] Bertasius, Gedas, et al. “Is Space-Time Attention All You
Need for Video Understanding?” arXiv preprint arXiv:2102.05095 (2021).
[A. Arnab+, arXiv2021] Arnab, Anurag et al. “ViViT: A Video Vision Transforme.r”
arXiv preprint arXiv:2103.15691 (2021).
[K. Lin+, CVPR2021] Lin, Kevin, et al. “End-to-End Human Pose and Mesh
Reconstruction with Transformers.” arXiv preprint arXiv:2012.09760 (2021).
[N. Wang+, CVPR2021] Wang, Ning et al. “Transformer Meets Tracker: Exploiting
Temporal Context for Robust Visual Tracking.” arXiv preprint
arXiv:2103.11681(2021).
参考文献
69
参考文献
[S. Zheng+, CVPR2021] Zheng, Sixiao et al. “Rethinking Semantic Segmentation
from a Sequence-to-Sequence Perspective with Transformers.” arXiv preprint
arXiv:2012.15840 (2021).
[H. Wang+, CVPR2021] Wang, Huiyu, et al. “MaX-DeepLab: End-to-End Panoptic
Segmentation with Mask Transformers.” arXiv preprint arXiv:2012.00759 (2021).
Mingfei Chen et al. “Reformulating HOI Detection as Adaptive Set Prediction.” arXiv
preprint arXiv:2103.05983 (2021).
[M. Chen+, CVPR2021] Wang, Qianqian et al. “IBRNet: Learning Multi-View Image-
Based Rendering.” arXiv preprint arXiv:2102.13090(2021).
[D.M. Arroyo+, CVPR2021] Arroyo, Diego Martin, Janis Postels, and Federico
Tombari “Variational Transformer Networks for Layout Generation.” arXiv preprint
arXiv:2104.02416 (2021).
[K. Nakashima+, arXiv2021] Nakashima, Kodai et al. “Can Vision Transformers Learn
without Natural Images?” arXiv preprint arXiv:2103.13023 (2021).
5. Transformerを使いこなすために
70
【課題と近年の動向】
各タスクにおける事前学習の必要性
71
5 Transformerを
使いこなすために
NLP Task
• 大規模言語モデルの開発が盛ん
– BERT, RoBERTa, GPT-3
• ドメインごとに適した各言語モデルが開発
– 医療: BioBERT
– 科学論文: SPECTER
• 個別タスクでは事前学習モデルを活用
– 事前学習から行うことは少ない
– 個別タスクのドメインに適した事前学習済みモ
デルを利用
各タスクにおける事前学習の必要性
72
5 Transformerを
使いこなすために
NLP Task
最近の大規模言語モデル提案の例:
CANINE[J. Clark+, arXiv2021](https://arxiv.org/abs/2103.06874)
分かち書きが必要ない言語モデル
– ユニコードレベルで学習
– 長系列を学習可能なようにlocal transformer+
CNNでダウンサンプリング
– QAタスクで高い
精度を達成
各タスクにおける事前学習の必要性
73
5 Transformerを
使いこなすために
NLP Task
ドメインごとに適した学習済みモデルが開発
医療: BioBERT [J. Lee+,
Bioinformatics2020]
https://doi.org/10.1093/bioinformatics/btz682
科学論文: SPECTER
[A. Cohan+, ACL2020]
https://www.aclweb.org/anthology/2020.
acl-main.207/
各タスクにおける事前学習の必要性
74
5 Transformerを
使いこなすために
NLP Task
個別タスクでは事前学習モデルを利用
機械翻訳
固有表現抽出
(NER)
引用 (https://www.aclweb.org/anthology/2020.emnlp-main.210)
引用 (https://arxiv.org/abs/1909.07755)
各タスクにおける事前学習の必要性
75
5 Transformerを
使いこなすために
Vision Task
• Transformerベースの汎用モデルが最近登場
– iGPT, ViT, TNT...
• 個別タスクではTransformerベースのモデル
が増加
– 一部タスク以外で学習済みモデルが用いられる
ことは(まだ)少ない
76
Vision Transformer (ViT)[A. Dosovitskiy+,ICLR2021]
シンプルに画像にTransformerを適用させたモデル
画像を区切ったボクセル=単語に対応
出典:原著
(https://openreview.net/forum?id=YicbFdNTTy)
Figure 1
シンプルな適用でも
従来のデファクトの
性能を超える!
同等性能が
15倍短い学習で
達成可能!
出典:原著
(https://openreview.net/forum?id=YicbFdNTTy)
Table 2
各タスクにおける事前学習の必要性
5 Transformerを
使いこなすために
Transformerベースの汎用モデルの例:
各タスクにおける事前学習の必要性
77
5 Transformerを
使いこなすために
Vision Task
• 個別タスクではTransformerベースのモデル
の提案が増加
Semantic Segmentation
[D.Zhang+, ECCV2020]
https://link.springer.com/chapter/10.1007/978-3-
030-58604-1
Image Generation
[F. Yang+, CVPR2020]
https://arxiv.org/abs/2006.04139
各タスクにおける事前学習の必要性
78
5 Transformerを
使いこなすために
Vision Task
• データ量が少ないタスクなどに学習済みモデ
ルの活用事例あり
Medical Image Segmentation:ViTの利用
例:ImageNetで事前学習し,医療画像に適応 [C. Jieneng+,
arXiv2021]
from: https://arxiv.org/abs/2102.04306
各タスクにおける事前学習の必要性
79
5 Transformerを
使いこなすために
Vision Task
• 学習済みモデルの活用の少ない理由
– Language TaskのBERTのように,Vision Taskに適し
た一般的なアーキテクチャがまだ少ない[K. Han+,
arXiv2020]
(大半は2020年以降に提案,多くはタスク特化型)
from: https://arxiv.org/abs/2012.12556
各タスクにおける事前学習の必要性
80
5 Transformerを
使いこなすために
Vision Task
• 学習済みモデル活用が少ない理由
– Vision TaskへのTransformerの適応がまだ初期段階の
ため,学習済みモデルの活用例が少ない
– ViTは画像分類タスク(CIFAR, VTAB)でSOTAに近い性
能であったが,物体検出などのタスクにViTを活用して
もCNNベースのモデルより低い性能という報告も
[K. Han+, arXiv2021]https://arxiv.org/abs/2103.0011
– NLPと比較して,TransformerがVision Taskになぜ
適しているかを明確に説明するのは困難
各タスクにおける事前学習の必要性
81
5 Transformerを
使いこなすために
Vision Task
• ViTの学習には膨大なデータが必要
– Googleが保有している300Mのデータを利用(未公開)
– CNNに存在するinductive biasesが存在しないため,
Transformerは学習を通じて獲得しなければならないた
め学習に時間がかかる [S.Khan+ arXiv2021]
(https://arxiv.org/abs/2101.01169)
各タスクにおける事前学習の必要性
82
5 Transformerを
使いこなすために
Vision Task
• 知識蒸留による学習の効率化(DeiT)
[H. Touvron+ arXiv2020](https://arxiv.org/abs/2012.12877)
– 教師ネットワークとしてCNNを利用
– ImageNetの規模でも事前学習が可能に
各タスクにおける事前学習の必要性
83
5 Transformerを
使いこなすために
Vision and Language Task
• Vision Taskと似た状況
– 詳細は後述
• Transformerベースの言語と画像を結びつけ
る汎用モデルが近年増加
– ViLBERT, ViLT, OSCAR...
• 個別タスクではTransformerベースのモデル
の提案が増加
– 個別タスクで事前学習済みモデルを用いること
は少ない
事前学習には何を使うべき?
84
Language
• BERT
• RoBERTa
• XLNet
5 Transformerを
使いこなすために
Vision
• ViT
• ResNet
(まだ特徴抽出器として部分的に使うこ
とが多い)
モデル
データセット
Language
• WebText (GPT-X)
• WMT (翻訳)
• etc.
Vision
• ImageNet
• OpenImages
• JFT300M,IG3.5B
→非公開,事前学習モデルのみ
Languageではタスク毎にデータが必要そう
事前学習には何を使うべき?
85
BERT (Language) [J. Devlin+, NAACL2019]
(https://www.aclweb.org/anthology/N19-1423/)
事前学習:学習データから教師なしで文脈を考
慮した埋め込み表現を獲得する手法
• Masked Language Model (MLM)
穴が空いた文章から穴の部分の単語(token)
を予測
• Next Sentence Prediction (NSP)
2文が渡されて,それが連結するかどうかを
予測
5 Transformerを
使いこなすために
事前学習には何を使うべき?
86
BERTのMasked Language Model
入力の15%のtoken(単語やsubword)を置き換え候
補として選択.そのうち,
• 80%: [Mask] tokenに置き換え
– The [Mask] is walking
• 10%: 別のランダムな単語に置き換え
– The car is walking
• 10%: そのまま
– The dog is walking
*Whole Word Masking: subword区切りの分割
で単語の一部分をmaskingするのではなく,単語全
体をmaskingすることで精度が向上
5 Transformerを
使いこなすために
元単語: philammon (phil ##am ##mon)
従来: phil [Mask] ##mon → 提案: [Mask] [Mask]
事前学習には何を使うべき?
87
RoBERTa (Language) [Y. Liu+, arXiv2019]
(https://arxiv.org/abs/1907.11692)
より事前学習のデータを増やし,BERTを改良
いたモデル
事前学習
• Masked Language Model (MLM)
BERTの静的なMaskingと異なり,エポック
ごとに異なる動的なMaskingを作成し学習
• Next Sentence Prediction (NSP)の効果が
ほとんどないことを明らかにし,MLMのみ
で事前学習
5 Transformerを
使いこなすために
事前学習には何を使うべき?
88
XLNet (Language) [Z. Yang+, NeurIPS2019]
BERTの学習済みモデルのfine-tuningで[Mask]
tokenが出てこない点やMaskされた単語の依存関
係を考慮できない欠点を改良
• BERTの双方向的な学習の利点と,
Transfomer-XLのAutoregressiveの[Mask]を
用いない利点を結合
5 Transformerを
使いこなすために
• 入力の単語を並び替え
Attentionのマスクを
調整することで解決
from:
https://papers.nips.cc/paper/2019/hash/dc6a7e655d
7e5840e66733e9ee67cc69-Abstract.html
事前学習には何を使うべき?
89
ViT (Vision)
[A. Dosovitskiy+, ICLR2021](https://arxiv.org/abs/2010.11929)
• 画像をパッチ単位に区切ったベクトルを単語の
ように扱い入力
• 事前学習のMaskingの手法はBERT準拠
パッチ部分の画素の色を予測するタスクで50%
をマスキングの候補として抽出
– 80%: 学習可能な[Mask]に置き換え
– 10%: 別のランダムなパッチに置き換え
– 10%: そのまま
5 Transformerを
使いこなすために
事前学習には何を使うべき?
90
UNITER (Vision and Language) [Y. Chen+, ECCV2020]
• 画像と言語の事前学習モデルの1つ
• 画像特徴量はFaster R-CNNで抽出された領域
• 4つの事前学習タスク
– Masked Language Modeling (MLM)
– Masked Region Modeling (MRM)
• 物体領域のbottom up特徴量を確率0.15でゼロベクト
ルで置き換え予測
– Image-Text Matching (ITM)
– Word-Region Alignment (WRA)
5 Transformerを
使いこなすために
from: https://link.springer.com/chapter/10.1007/978-3-030-58577-
8_7
• imageとword/text
のマッチングタスク
事前学習には何を使うべき?
91
その他のVision and Language modelのMLM
• ViLBERT[J. Lu+, arXiv2019] やVILLA[G. Zhe+, NeurIPS2020]
(https://arxiv.org/abs/2006.06195)でもUNITERと同様に確
率0.15でゼロベクトルに置き換え予測
5 Transformerを
使いこなすために
VILLAフレームワーク
冗長なheadの存在
• 多くのheadを用いて学習したモデルから,テスト時に
headを減らしても精度に影響が少ない [P. Michel+,
arXiv2019] (https://arxiv.org/abs/1905.10650)
• 多くのheadの貢献度は小さく,一部のheadのみが構
文関係や単語関係の把握に重要な役割を担っている
[E. Voita+, ACL2019] (https://www.aclweb.org/anthology/P19-1580/)
– BERTでも一部のheadが構文情報を獲得している
[K. Clark+, ACLworkshop2019] (https://arxiv.org/abs/1906.04341)
⇒ Multi-headの恩恵を十分に受けれない可能性!
Multi-head attentionの工夫
92
5 Transformerを
使いこなすために
Multi-head attentionの工夫
93
Multi-headの多様性の重要性
ImageNetで学習されたViTでは,同様の
Attention Mapばかり生成され,深い層では効率
的な表現学習が達成できないという報告 [D. Zhou+,
arXiv2021] (https://arxiv.org/abs/2103.11886)
5 Transformerを
使いこなすために
Multi-head attentionの工夫
94
Multi-headの多様性を確保するための工夫
• ヘッド同士の注目位置の類似度などを損失関数の
正則化項として組み込むことで多様性を確保
[J. Li+, EMNLP2018] (https://www.aclweb.org/anthology/D18-1317/)
• ViTの深い層での学習するため,Multi-headの注目
マップを再生成する手法を提案 [D. Zhou+, arXiv2021]
(https://arxiv.org/abs/2103.11886)
5 Transformerを
使いこなすために
• Metric Learningの枠組みを活用
してMulti-modal/lingualのモデ
ルの各headが多様性を確保でき
るよう損失関数を設定
[P. Huang+, EMNLP-IJCNLP2019]
(https://www.aclweb.org/anthology/D19-1154/)
扱える系列の長さを延ばすには?
95
Transformerの課題:メモリ・計算量
• self-attention の計算量は
– n: 入力の長さ,d: 潜在表現次元数
⇒短いテキストなら問題ないが,長文の入力は
計算量・メモリ共に複雑になるという課題
5 Transformerを
使いこなすために
from: https://arxiv.org/abs/1706.03762
扱える系列の長さを延ばすには?
96
Transformerの課題:メモリ・計算量
Self-attentionの計算量・メモリ量をへらすモデル
や,長期文脈を考慮するための仕組みを取り入れ
たモデルが増加
5 Transformerを
使いこなすために
from: https://arxiv.org/abs/2009.06732
扱える系列の長さを延ばすには?
97
Transformerの課題:メモリ・計算量
• 文脈情報をメモリに記憶
– Transformer-XL, Compressive Transformer
• 固定のマスキング
– Sparse Transformer, Longformer, Big Bird
• 動的なマスキング
– Reformer, ETC, Routing Transformer, Informer
• Self-attentionを圧縮
– Logsparse Transformer, Linformer
• その他
– Efficient attention mechanism, Adversarial sparse
transformer
5 Transformerを
使いこなすために
扱える系列の長さを延ばすには?
98
Transformer-XL [Z. Dai+, ACL2019]
(https://www.aclweb.org/anthology/P19-1285/)
• 以前のsegmentの特徴量を用いて,新しい
segmentの特徴を計算する再帰的な処理を導入
• 相対的な位置を把握するPositional Encodingを用
いることで以前のsegmentとの関係を把握
• 通常のTransformerよりも1800倍の高速化を実現
5 Transformerを
使いこなすために
扱える系列の長さを延ばすには?
99
Compressive Transformer [J. Rae+, ICLR2019]
(https://arxiv.org/abs/1911.05507)
• Transformer-XLの拡張
• 保存可能なメモリサイズを超えた以前のコンテキス
トを保存するために,Attentionが再現可能なよう
にConvolutionで圧縮し学習
5 Transformerを
使いこなすために
Sparse Transformer [R. Child+, arXiv2019]
(https://arxiv.org/abs/1904.10509)
• 2種類のAttention maskを提案
– strided attention: 直前と周期的な部分をmask
• CIFAR-10などの画像データに効果的
– fixed attention: 直前と特定の部分をmask
• Enwiki8などのテキストデータに効果的
• 計算量:
扱える系列の長さを延ばすには?
100
5 Transformerを
使いこなすために
Longformer
[I. Beltagy+, arXiv2020] (https://arxiv.org/abs/2004.05150)
• Sparse Transformerの発展
• Global + sliding window attentionの提案
周辺の語と[CLS]トークンなどの特定の単語に
Attention maskをかける手法
• 計算量を線形オーダーに抑える
扱える系列の長さを延ばすには?
101
5 Transformerを
使いこなすために
Big Bird [M. Zaheer+, arXiv2020] (https://arxiv.org/abs/2007.14062)
• Longformerの発展
• window + global + random attention
• Global Attentionでは2種類の手法を提案したが実験で
はETCが高い性能を達成
– ITC: 各シーケンスでglobal tokenを選択
– ECT: 各シーケンスに[CLS]tokenの役割を果たす
toknを追加
扱える系列の長さを延ばすには?
102
5 Transformerを
使いこなすために
扱える系列の長さを延ばすには?
103
Reformer [N. Kitaev+, ICLR2020] (https://arxiv.org/abs/2001.04451)
• LSH Attention
Attentionのsoftmax計算でqueryに類似したkeyを容
易に選択するため,類似した単語に同じハッシュを割
り当て,並列処理を実現するための手法
• 計算量:
5 Transformerを
使いこなすために
ETC [J. Ainslie+, EMNLP2020]
(https://www.aclweb.org/anthology/2020.emnlp-main.19/)
• GlobalにAttentionを取るtokenとLocalにAttention
を取るtokenを分ける
• attention mapをglobal-global, global-local, local-
global, local-localに分割することで計算量を削減
扱える系列の長さを延ばすには?
104
5 Transformerを
使いこなすために
Routing Transformer [A. Roy+, TACL2021]
• Self-attentionのqueryとkeyをk-meansクラス
タリングを適用したときに同じクラスに属する
ものでAttentionを算出するという動的なマス
キング方法
扱える系列の長さを延ばすには?
105
5 Transformerを
使いこなすために
from:https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00353/977
76/Efficient-Content-Based-Sparse-Attention-with
Informer [H. Zhou+, AAAI2021] (https://arxiv.org/abs/2012.07436)
• AAAI2021 Best Paper
• ProbSparse: self-attention scoreが高い
queryのみを利用
• Attention BlockごとにConv1D+MaxPool1Dを
利用して系列長を圧縮し計算量を削減
扱える系列の長さを延ばすには?
106
5 Transformerを
使いこなすために
Logsparse Transformer [S. Li+, NeurIPS2019]
(https://arxiv.org/abs/1907.00235)
• Convolutionを用いて時系列のパターンを獲得
しTransformerに入力とするモジュールを提案
• 長期的な入力を可能とするため,logごとに
Transformerへ入力とする
扱える系列の長さを延ばすには?
107
5 Transformerを
使いこなすために
Linformer [S. Wang+, arXiv2020] (https://arxiv.org/abs/2006.04768)
• self-attentionを特異値分解(SVD)をしたときに
,行列の情報のほとんどが最初の数個の最大特
異値から回収できるという特性を生かしてSelf-
attentionを低ランクに行列に近似
• 計算量:
扱える系列の長さを延ばすには?
108
5 Transformerを
使いこなすために
Efficient Attention Mechanism [V. Nguyen+, ECCV2020]
(https://arxiv.org/abs/1911.11390)
• 一つのTransformerに文脈情報を組み込むため、
multi-head attentionのheadごとに対話の文脈
を入れることで多入力のタスクに対応
扱える系列の長さを延ばすには?
109
5 Transformerを
使いこなすために
Adversarial Sparse Transformer
[S. Wu+, NeurIPS2020]
• Self-attentionの計算のsoftmaxをα-entmax
[B. Peters+, ACL2019]に置き換えることで時系列予測に
関連が高い部分のみを計算
• 論文自体は,敵対的学習とTransformerの組み
合わせが肝となっている
扱える系列の長さを延ばすには?
110
5 Transformerを
使いこなすために
from:
https://proceedings.neurips.cc/paper/2020
/hash/c6b8c8d762da15fa8dbbdfb6baf9e2
60-Abstract.html
PreNormか?PostNormか?
111
PostNorm:
(a)にあたる形式で,Multi-head
AttentionやFFNなどのサブレイ
ヤー後にLayer Normを置く.
BERTなどの多くのモデルはこの
形式.
PreNorm:
(b)にあたる形式で,PostNorm
とは異なり,各サブレイヤー前
にLayer Normを置く.
5 Transformerを
使いこなすために
from:http://proceedings.mlr.press/v119/xiong20b.html
PreNormか?PostNormか?
112
PreNormによる安定性向上の報告
• 機械翻訳[Q. Wang+, ICLR2019]や言語モデル[A. Baevski+,
ACL2019]などの一部タスクにおいてPostNormより
もPreNormの方が精度が向上するという報告
• PreNormによって学習初期の勾配爆発が抑えら
れ,加えて重みの初期値の標準偏差を小さくす
ることで学習のwarm-up数を無くせ,高い学習
率で学習が可能に[T. Nguyen+, arXiv2019, R. Xiong+, ICML2020]
5 Transformerを
使いこなすために
[Q. Wang+, ICLR2019] https://arxiv.org/abs/1809.10853
[A. Baevski+, ACL2019] https://arxiv.org/abs/1906.01787
[T. Nguyen+, arXiv2019] https://arxiv.org/abs/1910.05895
[R. Xiong+, ICML2020] http://proceedings.mlr.press/v119/xiong20b.html
PreNormか?PostNormか?
113
PreNormとPostNormの働きの違いの要因は
Residual Branchへの依存度 [L. Liu+, EMNLP2020]
(https://www.aclweb.org/anthology/2020.emnlp-main.463/)
• PreNormでは学習が安定するがモデル能力が制
限される,一方でPostNormでは学習は安定しな
いが高い精度は達成
5 Transformerを
使いこなすために
PreNormか?PostNormか?
114
PreNormとPostNormの働きの違いの要因は
Residual Branchへの依存度 [L. Liu+, EMNLP2020]
(https://www.aclweb.org/anthology/2020.emnlp-main.463/)
• PostNormでの勾配爆発の問題は指摘されていたが,こ
れが学習が不安定になる主な要因ではないということを
明らかに
5 Transformerを
使いこなすために
• PostNormはResidual Branchの依存度が高いこと
から学習が不安定になる一方で,PreNormは
Residual Branchの依存度が低
いことを示す
• 本論文ではAdminというPreと
Postの良い所取りを目指したフ
レームワークを提案
効率的なfine-tuningを行うための工夫
115
Training Tips for the Transformer Model [P. Martin+,
2018] (https://arxiv.org/abs/1804.00247)
WMTタスクを通じてTransformerのbatch sizeやGPU数につ
いて議論
• GPUのメモリ: 少なくとも11GB以上必要
– 16 head, 1024 hidden sizeのモデルを学習可能
• Max Length: 適度に低い長さを設定することで,学習途
中のメモリーエラーを回避
• Batch size: できるだけ大きく設定することで学習速度が
向上
• 学習が発散: Gradient clipやwarmup step数の増加を検討
• 並列学習: 各4GPUで2つのモデルを並行学習するよりも,
8つのGPUで1つのモデルを学習する方が収束効率が高い
5 Transformerを
使いこなすために
効率的なfine-tuningを行うための工夫
116
Do Transformer Modifications Transfer Across
Implementations and Applications? [N. Sharan+,
arXiv2021] (https://arxiv.org/abs/2102.11972)
Transformerの改善案が性能にどのような影響を与えるか検討
• Transparent attentionやFunnel Transformerなどの多く
のアーキテクチャ改善は性能向上につながらず.
• 性能向上に結びついた改善
– 活性化関数の変更: GLU系の利用 (GeGLU, ReGLU)
– Normalizationの変更: RMS Normなどの利用
– パラメータ数の増加: Switch Transformerなど
• ハイパーパラメータの検証を通じて,ハイパーパラメータ
のチューニングの難しさを示す
5 Transformerを
使いこなすために
効率的なfine-tuningを行うための工夫
117
• 各タスクで提案されるTransformer-basedにおけるhead数
,ブロック数,hidden sizeの多くは固定
– e.g. image captioning task: hidden sizeが512,
encoderとdecoderのブロック数は6 or 3つずつが多い
• バッチ数を増やすことで学習速度は向上するが,メモリー
エラーの問題と相談
– e.g. 大量のバッチ数と適切な最適化手法(LARS)を用い
ることでBERTの学習が76分で達成 [Y.Yang+, ICLR2019]
(https://arxiv.org/abs/1904.00962)
• ハイパーパラメータは初期設定のものをそのまま用いて
実験する例が多い
– ハイパーパラメータ調整は精度向上に寄与するが,適切
な調整が難しいことが報告 [N. Sharan+, arXiv2021]
(https://arxiv.org/abs/2102.11972)
5 Transformerを
使いこなすために
Transformerをさらに進化させる試み
118
Single Headed Attention RNN
[S. Merity, arXiv2019] (https://arxiv.org/abs/1911.11423)
5 Transformerを
使いこなすために
モデルの大規模化に疑問を呈し
RNNを見直す試み
● Single Headede AttentionとRNNを組
み合わせて当時のTransformerベース
のモデルに匹敵する精度を達成
● 「モデルの大規模化だけでなく他の手
法なども注目することで分野が発展し
ていく」という趣旨を論文で言及
Transformerをさらに進化させる試み
119
LambdaNetwork
[I. Bello, ICLR2021] (https://arxiv.org/abs/2102.08602)
5 Transformerを
使いこなすために
Attentionのメモリ効率を見直す試み
● Key × Queryの掛け合わせでのAttention map生成
は計算効率が悪いため,Queryを直接写像する
Lambda層を提案
● Attention Mapを計算しないため,メモリ効率が高く
,EfficientNets
より4.5倍計算速度が
向上
Transformerをさらに進化させる試み
120
Perciever [A. Jaegle, arXiv2021] (https://arxiv.org/abs/2103.03206)
5 Transformerを
使いこなすために
様々なモダリティに汎用性をもたらす試み
● 画像、点群、音声、ビデオ、ビデオ+音声などのモ
ダリティの分類タスクにおいて固有のモデルと同等
以上の性能を達成
● 潜在表現と入力の配列をCross attentionの入力と
して学習する汎用的なモジュールを提案
● 画像: ImageNet, ビデオ+音声: AudioSet,
点群:ModelNet40を用いて学習
Transformerをさらに進化させる試み
121
Frozen Pretrained Transformer
[K. Lu, arXiv2021] (https://arxiv.org/abs/2103.05247)
5 Transformerを
使いこなすために
言語で学習したモデルを別モダリティに適用す
る試み
● 言語で学習したTransformerをself-attentionと
Feed Forwardを固定して別モダリティ・タスク(画
像やビット演算,タンパク質の予測など)に転移可能
かどうかを検証 多くのタスクで,0から
学習したTransformerと
同等の性能
参考文献
122
[J. Clark+, arXiv2021] Clark, Jonathan H., et al. "CANINE: Pre-training an Efficient
Tokenization-Free Encoder for Language Representation." arXiv preprint
arXiv:2103.06874 (2021).
[J. Lee+, Bioinformatics2020] Lee, Jinhyuk, et al. "BioBERT: a pre-trained biomedical
language representation model for biomedical text mining." Bioinformatics 36.4
(2020): 1234-1240.
[A. Cohan+, ACL2020] Cohan, Arman, et al. "Specter: Document-level representation
learning using citation-informed transformers." Proceedings of the 58th Annual
Meeting of the Association for Computational Linguistics. 2020.
[A. Dosovitskiy+, ICLR2021] Alexey Dosovitskiy et al. “An Image is Worth 16x16
Words: Transformers for Image Recognition at Scale.” Proceedings of International
Conference on Learning Representations (2021).
[D.Zhang+, ECCV2020] Zhang, Dong, et al. "Feature pyramid transformer."
European Conference on Computer Vision. Springer, Cham, 2020.
[F. Yang+, CVPR2020] Yang, Fuzhi, et al. "Learning texture transformer network for
image super-resolution." Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. 2020.
[C. Jieneng+, arXiv2021] Chen, Jieneng, et al. "Transunet: Transformers make
strong encoders for medical image segmentation." arXiv preprint arXiv:2102.04306
(2021).
参考文献
123
[K. Han+, arXiv2020] Han, Kai, et al. "A Survey on Visual Transformer." arXiv preprint
arXiv:2012.12556 (2020).
[J. Clark+, arXiv2021] Clark, Jonathan H., et al. "CANINE: Pre-training an Efficient
Tokenization-Free Encoder for Language Representation." arXiv preprint
arXiv:2103.06874 (2021).
[K. Han+, arXiv2021] Han, Kai, et al. "Transformer in transformer." arXiv preprint
arXiv:2103.00112 (2021).
[S. Khan+ arXiv2021] Khan, Salman, et al. "Transformers in Vision: A Survey." arXiv
preprint arXiv:2101.01169 (2021).
[H. Touvron+ arXiv2020] Han, Kai, et al. "Transformer in transformer." arXiv preprint
arXiv:2103.00112 (2021).
[J. Devlin+, NAACL2019] Devlin, Jacob, et al. "BERT: Pre-training of Deep
Bidirectional Transformers for Language Understanding." Proceedings of the 2019
Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers).
(2019).
[Y. Liu+, arXiv2019] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining
approach." arXiv preprint arXiv:1907.11692 (2019)
参考文献
124
[Z. Yang+, NeurIPS2019] Yang, Zhilin, et al. "XLNet: Generalized Autoregressive
Pretraining for Language Understanding." Advances in Neural Information
Processing Systems 32 (2019): 5753-5763.
[Y. Chen+, ECCV2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text
representation learning." European Conference on Computer Vision. Springer,
Cham, 2020.
[J. Lu+, arXiv2019] Lu, Jiasen, et al. "Vilbert: Pretraining task-agnostic visiolinguistic
representations for vision-and-language tasks." arXiv preprint arXiv:1908.02265
(2019).
[G. Zhe+, NeurIPS2020] Gan, Zhe, et al. "Large-scale adversarial training for vision-
and-language representation learning." arXiv preprint arXiv:2006.06195 (2020).
[P. Michel+, arXiv2019] Michel, Paul, Omer Levy, and Graham Neubig. "Are sixteen
heads really better than one?." arXiv preprint arXiv:1905.10650 (2019).
[E. Voita+, ACL2019] Voita, Elena, et al. "Analyzing Multi-Head Self-Attention:
Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned." Proceedings of
the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
[K. Clark+, ACLworkshop2019] Clark, Kevin, et al. "What Does BERT Look at? An
Analysis of BERT’s Attention." Proceedings of the 2019 ACL Workshop
BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. (2019).
参考文献
125
[D. Zhou+, arXiv2021] Zhou, Daquan, et al. "DeepViT: Towards Deeper Vision
Transformer." arXiv preprint arXiv:2103.11886 (2021).
[J. Li+, EMNLP2018] Li, Jian, et al. "Multi-Head Attention with Disagreement
Regularization." Proceedings of the 2018 Conference on Empirical Methods in
Natural Language Processing. (2018).
[P. Huang+, EMNLP-IJCNLP2019] Huang, Po-Yao, Xiaojun Chang, and Alexander
G. Hauptmann. "Multi-Head Attention with Diversity for Learning Grounded
Multilingual Multimodal Representations." Proceedings of the 2019 Conference on
Empirical Methods in Natural Language Processing and the 9th International Joint
Conference on Natural Language Processing (EMNLP-IJCNLP). (2019).
[Z. Dai+, ACL2019] Dai, Zihang, et al. "Transformer-XL: Attentive Language Models
beyond a Fixed-Length Context." Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics. (2019).
[J. Rae+, ICLR2019] Rae, Jack W., et al. "Compressive Transformers for Long-
Range Sequence Modelling." International Conference on Learning Representations.
(2019).
[R. Child+, arXiv2019] Child, Rewon, et al. "Generating long sequences with sparse
transformers." arXiv preprint arXiv:1904.10509 (2019).
参考文献
126
[I. Beltagy+, arXiv2020] Beltagy, Iz, Matthew E. Peters, and Arman Cohan.
"Longformer: The long-document transformer." arXiv preprint arXiv:2004.05150
(2020).
[M. Zaheer+, arXiv2020] Zaheer, Manzil, et al. "Big bird: Transformers for longer
sequences." arXiv preprint arXiv:2007.14062 (2020).
[N. Kitaev+, ICLR2020] Kitaev, Nikita, Lukasz Kaiser, and Anselm Levskaya.
"Reformer: The Efficient Transformer." International Conference on Learning
Representations. (2020).
[J. Ainslie+, EMNLP2020] Ainslie, Joshua, et al. "ETC: Encoding Long and Structured
Inputs in Transformers." Proceedings of the 2020 Conference on Empirical Methods
in Natural Language Processing (EMNLP). (2020).
[A. Roy+, TACL2021] Roy, Aurko, et al. "Efficient content-based sparse attention with
routing transformers." Transactions of the Association for Computational Linguistics 9
(2021): 53-68.
[H. Zhou+, AAAI2021] Zhou, Haoyi, et al. "Informer: Beyond Efficient Transformer for
Long Sequence Time-Series Forecasting." arXiv preprint arXiv:2012.07436 (2020).
[S. Li+, NeurIPS2019] Li, Shiyang, et al. "Enhancing the Locality and Breaking the
Memory Bottleneck of Transformer on Time Series Forecasting." Advances in Neural
Information Processing Systems 32 (2019): 5243-5253
参考文献
127
[S. Wang+, arXiv2020] Wang, Sinong, et al. "Linformer: Self-attention with linear
complexity." arXiv preprint arXiv:2006.04768 (2020).
[V. Nguyen+, ECCV2020] Nguyen, V. Q., Suganuma, M., & Okatani, T. (2020).
Efficient Attention Mechanism for Visual Dialog that Can Handle All the Interactions
Between Multiple Inputs. In ECCV 2020 - 16th European Conference, (2020),
Proceedings (pp. 223-240).
[S. Wu+, NeurIPS2020] Wu, Sifan, et al. "Adversarial Sparse Transformer for Time
Series Forecasting." Advances in Neural Information Processing Systems 33 (2020).
[B. Peters+, ACL2019] Peters, Ben, Vlad Niculae, and André FT Martins. "Sparse
Sequence-to-Sequence Models." Proceedings of the 57th Annual Meeting of the
Association for Computational Linguistics. (2019).
[Q. Wang+, ICLR2019] Baevski, Alexei, and Michael Auli. "Adaptive Input
Representations for Neural Language Modeling." International Conference on
Learning Representations. (2019).
[A. Baevski+, ACL2019] Wang, Qiang, et al. "Learning Deep Transformer Models for
Machine Translation." Proceedings of the 57th Annual Meeting of the Association for
Computational Linguistics. (2019).
参考文献
128
[T. Nguyen+, arXiv2019] Nguyen, Toan Q., and Julian Salazar. "Transformers without
tears: Improving the normalization of self-attention." arXiv preprint arXiv:1910.05895
(2019).
[R. Xiong+, ICML2020] Xiong, Ruibin, et al. "On layer normalization in the
transformer architecture." International Conference on Machine Learning. PMLR,
(2020).
[L. Liu+, EMNLP2020] Liu, Liyuan, et al. "Understanding the Difficulty of Training
Transformers." Proceedings of the 2020 Conference on Empirical Methods in Natural
Language Processing (EMNLP). (2020).
P. Martin+, 2018] Popel, Martin, and Ondřej Bojar. "Training Tips for the Transformer
Model." The Prague Bulletin of Mathematical Linguistics 110 (2018): 43-70.
[N. Sharan+, arXiv2021] Narang, Sharan, et al. "Do Transformer Modifications
Transfer Across Implementations and Applications?." arXiv preprint
arXiv:2102.11972 (2021).
[Y.Yang+, ICLR2019] You, Yang, et al. "Large Batch Optimization for Deep Learning:
Training BERT in 76 minutes." International Conference on Learning
Representations. 2019.
[S. Merity, arXiv2019] Merity, Stephen. "Single headed attention rnn: Stop thinking
with your head." arXiv preprint arXiv:1911.11423 (2019).
参考文献
129
[I. Bello, ICLR2021] Bello, Irwan. "LambdaNetworks: Modeling long-range
Interactions without Attention." International Conference on Learning
Representations. 2021.
[A. Jaegle, arXiv2021] Jaegle, Andrew, et al. "Perceiver: General Perception with
Iterative Attention." arXiv preprint arXiv:2103.03206 (2021).
[K. Lu, arXiv2021] Lu, Kevin, et al. "Pretrained transformers as universal computation
engines." arXiv preprint arXiv:2103.05247 (2021).
6. Vision and Languageにおける
Transformer
130
どのようにモダリティを組合わせる?
131
Bottom-up attention
[P. Anderson+ CVPR2018](https://arxiv.org/abs/1707.07998)
• 画像をグリッド(左)に区切るのではなく,目
立つ領域(右)に注目するという考え
• 物体検出によって得られたbounding boxを
利用する
6 Vision and Language
におけるTransformer
どのようにモダリティを組合わせる?
132
検出された物体をトークンとして利用
• 各物体から得られる画像特徴量に座標情報等
を加えるものが主流
(図はVLBERT[W. Su+ ICLR2020] (https://arxiv.org/abs/1908.08530))
6 Vision and Language
におけるTransformer
1-stream型, 2-stream型
133
1-stream: 1つのTransformerで画像と言語を
扱う
6 Vision and Language
におけるTransformer
VLBERT[W. Su+ ICLR2020] (https://arxiv.org/abs/1911.04908)
UNITER[Y.C. Chen+ ECCV2020]
(https://arxiv.org/abs/1909.11740)
1-stream型, 2-stream型
134
2-stream: 画像と言語を別のネットワークで
処理し,2つのモダリティ間の対応を取る
6 Vision and Language
におけるTransformer
LXMERT[H. Tan+ EMNLP-IJCNLP2019]
(https://arxiv.org/abs/1908.07490)
ViLBERT[J. Lu+ arXiv2019] (https://arxiv.org/abs/1908.02265)
事前学習の方法
135
BERTの事前学習を派生させたものが多い
• マッチング
入力された画像とテキストのペアが正しいペ
アかを判定
• Mask prediction
BERT同様に言語側のトークンの一部をマス
クし、元のトークンを予測する
画像の場合は,マスクされた領域の特徴量を
回帰する場合や物体のクラスを予測する場合
が存在
6 Vision and Language
におけるTransformer
複数タスク、複数データセットの利用
136
マルチタスク学習による性能向上
[J. Lu+ CVPR2020] (https://arxiv.org/abs/1912.02315)
Vision and languageタスクにおいて,複数の
タスク・データセットで学習した方が単独で学
習するより性能が向上することを確認
6 Vision and Language
におけるTransformer
複数タスク、複数データセットの利用
137
多段階の学習[A. Majumdar+ ECCV2020]
(https://arxiv.org/abs/2004.14973)
目的タスクの学習データが少ない時,(1)言語
のみ(2)画像とキャプションペア(3)目標タスク
の順で多段階の学習を提案.
6 Vision and Language
におけるTransformer
参考文献
138
[P. Anderson+ CVPR2018] Anderson, Peter, et al. "Bottom-up and top-down
attention for image captioning and visual question answering." Proceedings of the
IEEE conference on computer vision and pattern recognition. (2018).
[W. Su+ ICLR2020] Su, Weijie, et al. "VL-BERT: Pre-training of Generic Visual-
Linguistic Representations." International Conference on Learning Representations.
(2020).
[Y.C. Chen+ ECCV2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text
representation learning." European Conference on Computer Vision. Springer,
Cham, (2020).
[H. Tan+ EMNLP-IJCNLP2019] Tan, Hao, and Mohit Bansal. "LXMERT: Learning
Cross-Modality Encoder Representations from Transformers." Proceedings of the
2019 Conference on Empirical Methods in Natural Language Processing and the 9th
International Joint Conference on Natural Language Processing (EMNLP-IJCNLP).
(2019).
[J. Lu+, arXiv2019] Lu, Jiasen, et al. "Vilbert: Pretraining task-agnostic visiolinguistic
representations for vision-and-language tasks." arXiv preprint arXiv:1908.02265
(2019).
参考文献
139
[J. Lu+ CVPR2020] Lu, Jiasen, et al. "12-in-1: Multi-task vision and language
representation learning." Proceedings of the IEEE/CVF Conference on Computer
Vision and Pattern Recognition. (2020).
[A. Majumdar+ ECCV2020] Majumdar, Arjun, et al. "Improving vision-and-language
navigation with image-text pairs from the web." European Conference on Computer
Vision. Springer, Cham, (2020).
7. Vision and Languageの
近年の動向
140
Image captioning
141
近年の傾向
• 中国による研究(Xiamen University, Chinese
Academy of Sciences)が比較的多い
• 2019年以降,画像内部のObjectとテキスト内
部のEntityを結びつけるためのモジュール提案
が増加
• 2020年からBlinding peopleに向けてや,実応
用に向けての研究が増加
• 因果推論の枠組みを取り入れた研究[X. Yang+, 2020]や
,一貫性を保った言語生成の枠組みを取り入れ
た研究が増加
7 Vision and Language
の近年の動向
Image captioning
142
近年の傾向
• Before Transformerの代表例
– Bottom-up Attention, AoANet
• After Transformerの代表例
– M2, image transformer, DLCT
• 画像とテキストを結びつけるモジュールの提案
– MIA, Concept-guided, EnTangled
• 新たな取り組み
– Blinding userに向けて
– 因果推論の枠組みの導入
– 評価指標の見直し
7 Vision and Language
の近年の動向
Image captioning: Before Transformer
143
Bottom-up Attention [P. Anderson+, CVPR2018]
(https://arxiv.org/abs/1707.07998)
• Before Transformerの代表例1
• Faster R-CNNによって抽出される部分画像
(bottom-up)に対して,Attentionの重み付けを決
定 (Top-down)
7 Vision and Language
の近年の動向
Image captioning: Before Transformer
144
AoANet [L. Huang+, ICCV2019] (https://arxiv.org/abs/1908.06954)
• Before Transformerの代表例2
• 注目する部分がなくても,Softmaxによって一部
の特徴を注目せざるを得ないという問題を,
Attentionの上にゲートを導入することで解決
• Image Captionに限らず様々な分野のAttentionに
対して適用可能なアイデア
7 Vision and Language
の近年の動向
Image captioning: After Transformer
145
M2 Transformer [M. Cornia+, CVPR2020]
(https://arxiv.org/abs/1912.08226)
• Encoder
– 画像オブジェクト間のlow-/high- levelの関係を考慮で
きるようにmulti-level fashionを活用
– 画像オブジェクト間の関係をmemoryで記憶するために
,情報を符号化して覚えることが可能なmemory (slot)
を追加
• Decoder: Mesh-like構造の活用
7 Vision and Language
の近年の動向
Image captioning: After Transformer
146
Image transformer [S. He+, ACCV2020]
(https://arxiv.org/abs/2004.14231)
• 領域同士の関係を明示的に取り入れるために,画像
の領域同士の重なり具合に応じて重みを変更する3
つのゲート (child, parent, neighborhood)を
Transformer内部に導入
7 Vision and Language
の近年の動向
Image captioning: After Transformer
147
DLCT [Y. Luo+, arXiv2021] (https://arxiv.org/abs/2101.06462)
• image regionによる入力と,従来のgrid featureによ
る入力の2つの良い所を組み合わせて入力
• 絶対的な位置情報と相対的な位置情報の両方を統合す
ることで、入力された特徴の間の複雑な視覚と位置関
係をモデル化
7 Vision and Language
の近年の動向
• 特徴同士のアライ
ンメントを導くた
めcross-attention
fusionsを活用
Image captioning: After Transformer
148
画像とテキストの結びつけ
MIA module [F. Liu+, NeurIPS2019]
(https://arxiv.org/abs/1905.06139)
Concept-guided Attention [J. Li+, Applied Science 2019]
(https://www.mdpi.com/2076-3417/9/16/3260)
7 Vision and Language
の近年の動向
画像とobjectのラベル情報を入力としたmutual
attentionを積み重ね,画像の領域情報とラベル
情報のalignmentを取得するモジュールを提案
画像領域のattentionとobjectのラ
ベルに対するattentionをかけ合わ
せるモジュールを提案
Image captioning: After Transformer
149
画像とテキストの結びつけ
EnTangled Attention [G. Li+, ICCV2019]
(https://openaccess.thecvf.com/content_ICCV_2019/html/Li_Entangled_Transfor
mer_for_Image_Captioning_ICCV_2019_paper.html)
7 Vision and Language
の近年の動向
画像の特徴量と画像のオブジェクトのattributeの特徴量を
Co-attentionと似た手法で相互に組み合わせる手法を提案
Image captioning: After Transformer
150
Blinding userに向けて
Assessing Image Quality Issues for Real-
World Problems [TY. Chiu+, CVPR2020]
(https://arxiv.org/abs/2003.12511)
• Blinding userが撮影した写真に説明のためのキャプ
ションをつける時に,どのような課題があるか調査
– 提供される画像の約15%が認識できない
– 画像にボケやフレーミングがあるなど
7 Vision and Language
の近年の動向
Image captioning: After Transformer
151
Blinding userに向けて
Captioning Images Taken by People Who
Are Blind [D. Gurari+, ECCV2020]
(https://link.springer.com/chapter/10.1007/978-3-030-58520-4_25)
• Blinding userのためのデータセット:VizWizを公開
• データセット内の画像が多様であることを示す
7 Vision and Language
の近年の動向
Image captioning: After Transformer
152
因果推論の枠組みの導入
Deconfounded image captioning
[X. Yanf+, arXiv2020] (https://arxiv.org/abs/2003.03923)
• Image Captioningにおける偏りの因果関係につい
て調査するためのフレームワークを提案し,調査し
たところpre-training用のデータセットに因果関係
が存在することを明らかに
7 Vision and Language
の近年の動向
Image captioning: After Transformer
153
評価指標の見直し
Novel metric based on BERTScore [Y. Yi+,
ACL2020] (https://www.aclweb.org/anthology/2020.acl-main.93/)
• Image Captioningの新たな評価指標を提案
• 評価時,正解となるキャプションの中での分散を考
慮しないため,生成されたキャプションと参照文と
のミスマッチに強くペナルティを与えてしまう傾向
• BERTScoreをBaseと
した新たな手法を提案
7 Vision and Language
の近年の動向
Visual question answering (VQA)
154
物体検出を用いた手法が台頭
VinVL[P. Zhang+, CVPR2021] (http://128.84.4.18/abs/2101.00529)
• OSCAR[X. Li+, ECCV2020]やVIVO[X. Hu+, 2020]などのアンサ
ンブル
• Trasformerベースモデルで6.5Mの大規模text-
image データセットを masked token lossと
contrastive lossの事前学習
• オブジェクトタグを言語,画像のalignに使用
7 Vision and Language
の近年の動向
Text-to-image
155
学習済みモデルを用いる方法が発展
7 Vision and Language
の近年の動向
Network-to-network [R. Rombach+, NeurIPS2020]
https://arxiv.org/abs/2005.13580
flow-basedで異なる2ドメインの特徴量のマッピングを学習End-to-
endで最適化せずにできるので効率的
Text-to-image: CLIPによる応用
156
大規模な画像とテキストのペアでcontrastive
learningを行うことでzero-shotの認識を実現
7 Vision and Language
の近年の動向
Contrastive Language–Image Pre-training [A. Radford+,arXiv2021] https://arxiv.org/abs/2103.00020
4億のデータを収集してクリーニングしたデータセットでContrastive学習
テキストをクラスと見立てて、マッチングスコアでzero-shot画像認識
後述するDALL-Eでは生成画像のリランキングに使っている
Text-to-image: CLIPによる応用
157
CLIPを汎用的な識別器として、生成画像をテ
キストに合わせて制御する手法が続々登場
7 Vision and Language
の近年の動向
Paint by word [D. Bau+, arXiv2021]
https://arxiv.org/abs/2103.10951
CLIP-Guided Generative Latent Space
Search [F. Galatolo+, arXiv2021]
https://arxiv.org/abs/2102.01645
入力となる目標テキストに対して、進化
的アルゴリズムでCLIPの類似度スコアを
最大化するよう画像の潜在変数を最適化
Text-to-image: DALL-Eの登場
158
汎用的な画像生成が視野に入ってきた?
7 Vision and Language
の近年の動向
潜在空間を離散化したVAEによる潜在変数を語彙としてGPT-3で大
規模に学習すると、テキストからゼロショットで画像生成ができる
2.5億の画像テキストペアで学習
Zero-Shot Text-to-Image Generation [A. Ramesh+, arXiv2021]
https://arxiv.org/abs/2102.12092
Visual dialogue
159
VQAなど他の関連タスクと融合しつつ発展
7 Vision and Language
の近年の動向
Large-scale Pretraining for Visual Dialog:
A Simple State-of-the-Art Baseline [V. Murahari+, ECCV2020]
https://arxiv.org/abs/1912.02379
別タスクのデータセットで
事前学習を行い性能が向上
● 言語のみのデータセット
● VQAのデータセット
Visual dialogue
160
BERT系の他にSeq2seq系のモデルも使われる
7 Vision and Language
の近年の動向
The Dialogue Dodecathlon [K. Shuster+, ACL2020]
https://www.aclweb.org/anthology/2020.acl-main.222/
複数の対話データセット(画像付きも含む)で訓練
した場合もzero-shot能力を示すことが報告された
Visual dialogue
161
新規タスクに適応できるモデル
Dialog without Dialog Data: Learning Visual
Dialog Agents from VQA Data [M. Cogswell+,
NeurIPS2020] (https://arxiv.org/abs/2007.12750)
• 対話的な画像当てゲームに対し,言語レベルでの新たな教
師データは与えず,タスクの成功の可否のみでファインチ
ューニングをする
7 Vision and Language
の近年の動向
Visual dialogue
162
対話に特化した言語モデル
DialoGPT: Large-Scale Generative Pre-training
for Conversational Response Generation
[Y. Zhang+, ACL2020] (https://arxiv.org/abs/1911.00536)
• Redditから収集した対話データをもとに,GPT-2と同様の
手法で学習した言語モデル
• ターゲット→ソースの文章を予測する正解率を高めること
で,情報のある文章を生成する
7 Vision and Language
の近年の動向
https://www.microsoft.com/en-us/research/project/large-scale-pretraining-for-response-generation/
Visual dialogue:対話独特の工夫
163
対話履歴ごとに1つのヘッドをあてて対話履歴
の長さに対応する
7 Vision and Language
の近年の動向
[VQ. Nguuyen+, ECCV2020]
https://arxiv.org/abs/1911.11390
左の(a)が普通のTransformer
右の(b)が提案手法
対話履歴をそのまま
Transformerに入力していく
と文長が長くなりすぎる
head毎に入力することで対話
履歴の段階的なfusionを行う
Visual Language Navigation (VLN)
164
2020~ VLN BERT からの Transformer化か
Before Transformer
• Embodied Question Answering
(EQA) [E. Wijmans+, CVPR2019]
(https://arxiv.org/abs/1904.03461)
– D. Batra先生@GeogiaTechのチーム
– 入力:画像,出力:前後左右 のLSTM
After Transformer
• VLN BERT[A. Majumdar+, ECCV2020]
– EQAのD. Batra先生@GeogiaTechのチーム
– 同チームのViL BERT[NeurIPS2019]を継承
• Recurrent VLN BERT[Y. Hong+, CVRP2021]
7 Vision and Language
の近年の動向
抜粋引用:EQA原著 Fig4
出典:VLNBERT原著 Fig3
Referring Expression Comprehension
165
訓練済みV&Lモデルによる飛躍的な性能向上
Before Transformer
• 大きく分けて2種類の手法
– 2ステップ:①候補生成→②ランク付け
– 1ステップ:画像から直接候補領域を抽出
After Transformer
• 多くの大規模訓練モデルで実験が行われ,いずれもTransformer
以前のモデルの性能を大きく上回る
– ViLBERT, VLBERT, UNITER, LXMERT, VILLA, etc.
• ただしこれらは全て2ステップ手法=②にのみ
Transformerが使われている
• このタスクに特化したTransformerモデルは(おそらく)
まだない
7 Vision and Language
の近年の動向
Referring Expression Comprehension
166
頑健性を高める研究
Words aren't enough, their order matters: On the
Robustness of Grounding Visual Referring
Expressions [A. Akula+, ACL2020]
(https://www.aclweb.org/anthology/2020.acl-
main.586/)
• Referring Expressionのバイアスについて調べた論文
• ViLBERTの頑健性を高めるための学習手法についての提案
がある
– 距離学習
– マルチタスク学習
7 Vision and Language
の近年の動向
参考文献
167
[X. Yang+, 2020] Yang, Xu, Hanwang Zhang, and Jianfei Cai. "Deconfounded image
captioning: A causal retrospect." arXiv preprint arXiv:2003.03923 (2020).
[P. Anderson+, CVPR2018] Anderson, Peter, et al. "Bottom-up and top-down
attention for image captioning and visual question answering." Proceedings of the
IEEE conference on computer vision and pattern recognition. (2018).
[L. Huang+, ICCV2019] Huang, Lun, et al. "Attention on attention for image
captioning." Proceedings of the IEEE/CVF International Conference on Computer
Vision. (2019).
[M. Cornia+, CVPR2020] Cornia, Marcella, et al. "Meshed-memory transformer for
image captioning." Proceedings of the IEEE/CVF Conference on Computer Vision
and Pattern Recognition. (2020).
[S. He+, ACCV2020] He, Sen, et al. "Image captioning through image transformer."
Proceedings of the Asian Conference on Computer Vision. (2020).
[Y. Luo+, arXiv2021] Luo, Yunpeng, et al. "Dual-Level Collaborative Transformer for
Image Captioning." arXiv preprint arXiv:2101.06462 (2021).
[F. Liu+, NeurIPS2019] Liu, Fenglin, et al. "Aligning Visual Regions and Textual
Concepts for Semantic-Grounded Image Representations." NeurIPS. (2019).
[J. Li+, Applied Science2019] Li, Jiangyun, et al. "Boosted transformer for image
captioning." Applied Sciences 9.16 (2019): 3260.
参考文献
168
[G. Li+, ICCV2019] Li, Guang, et al. "Entangled transformer for image captioning."
Proceedings of the IEEE/CVF International Conference on Computer Vision. (2019).
[TY. Chiu+, CVPR2020] Chiu, Tai-Yin, Yinan Zhao, and Danna Gurari. "Assessing
image quality issues for real-world problems." Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. (2020).
[D. Gurari+, ECCV2020] Gurari, Danna, et al. "Captioning images taken by people
who are blind." European Conference on Computer Vision. Springer, Cham, (2020).
[Y. Yi+, ACL2020] Yi, Yanzhi, Hangyu Deng, and Jinglu Hu. "Improving image
captioning evaluation by considering inter references variance." Proceedings of the
58th Annual Meeting of the Association for Computational Linguistics. (2020).
[P. Zhang+, CVPR2021] Zhang, Pengchuan, et al. "VinVL: Revisiting Visual
Representations in Vision-Language Models." arXiv preprint arXiv:2101.00529
(2021).
[X. Li+, ECCV2020] Li, Xiujun, et al. "Oscar: Object-semantics aligned pre-training for
vision-language tasks." European Conference on Computer Vision. Springer, Cham,
(2020).
[X. Hu+, arXiv2020] Hu, Xiaowei, et al. "Vivo: Surpassing human performance in
novel object captioning with visual vocabulary pre-training." arXiv preprint
arXiv:2009.13682 (2020).
参考文献
169
[R. Rombach+, NeurIPS2020] Rombach, Robin, Patrick Esser, and Bjorn Ommer.
"Network-to-Network Translation with Conditional Invertible Neural Networks."
Advances in Neural Information Processing Systems 33 (2020).
[A. Radford+, arXiv2021] Radford, Alec, et al. "Learning transferable visual models
from natural language supervision." arXiv preprint arXiv:2103.00020 (2021).
[D. Bau+, arXiv2021] Bau, David, et al. "Paint by Word." arXiv preprint
arXiv:2103.10951 (2021).
[F. Galatolo+, arXiv2021] Galatolo, Federico A., Mario GCA Cimino, and Gigliola
Vaglini. "Generating images from caption and vice versa via CLIP-Guided Generative
Latent Space Search." arXiv preprint arXiv:2102.01645 (2021).
[A. Ramesh+, arXiv2021] Ramesh, Aditya, et al. "Zero-shot text-to-image
generation." arXiv preprint arXiv:2102.12092 (2021).
[V. Murahari+, ECCV2020] Murahari, Vishvak, et al. "Large-scale pretraining for
visual dialog: A simple state-of-the-art baseline." European Conference on Computer
Vision. Springer, Cham, (2020).
[K. Shuster+, ACL2020] Shuster, Kurt, et al. "The Dialogue Dodecathlon: Open-
Domain Knowledge and Image Grounded Conversational Agents." Proceedings of
the 58th Annual Meeting of the Association for Computational Linguistics. (2020).
参考文献
170
[M. Cogswell+, NeurIPS2020] Cogswell, Michael, et al. "Dialog without Dialog Data:
Learning Visual Dialog Agents from VQA Data." Advances in Neural Information
Processing Systems 33 (2020).
[Y. Zhang+, ACL2020] Zhang, Yizhe, et al. "DIALOGPT: Large-Scale Generative
Pre-training for Conversational Response Generation." Proceedings of the 58th
Annual Meeting of the Association for Computational Linguistics: System
Demonstrations.(2020).
[VQ. Nguuyen+, ECCV2020] Nguyen, Van-Quang, Masanori Suganuma, and
Takayuki Okatani. "Efficient Attention Mechanism for Visual Dialog that can Handle
All the Interactions between Multiple Inputs." (2020)
[E. Wijmans+, CVPR2019] Wijmans, Erik, et al. "Embodied question answering in
photorealistic environments with point cloud perception." Proceedings of the
IEEE/CVF Conference on Computer Vision and Pattern Recognition. (2019).
[A. Majumdar+, ECCV2020] Majumdar, Arjun, et al. "Improving vision-and-language
navigation with image-text pairs from the web." European Conference on Computer
Vision. Springer, Cham, (2020).
[Y. Hong+, CVRP2021] Hong, Yicong, et al. "A Recurrent Vision-and-Language
BERT for Navigation." arXiv preprint arXiv:2011.13922 (2020).
参考文献
171
[A. Akula+, ACL2020] Akula, Arjun, et al. "Words Aren’t Enough, Their Order Matters:
On the Robustness of Grounding Visual Referring Expressions." Proceedings of the
58th Annual Meeting of the Association for Computational Linguistics. (2020).
8. Vision and Languageのための
Transformerおすすめツール
172
PyTorch
173
お馴染みのDLライブラリ
Encoder-Decoderモデルに加えてEncoder/Decoder
のみの関数も存在
https://pytorch.org/docs/stable/nn.html
PyTorch
174
お馴染みのDLライブラリ
Tutorialでは簡単なモデルによる例が提供されている
https://pytorch.org/tutorials/beginner/transformer_tutorial.html
PyTorch
175
高速化のテクニック
NVIDIA: PyTorch Performance Tuning Guide
• 学習を早くするTiPsが大量に記載!
スライド: https://nvlabs.github.io/eccv2020-mixed-precision-
tutorial/files/szymon_migacz-pytorch-performance-tuning-guide.pdf
動画: https://www.youtube.com/watch?v=9mS1fIYj1So&ab_channel=ArunMallya
Tensorflow
176
こちらもお馴染みDLライブラリ
チュートリアルが提供されている(日本語訳有)
https://www.tensorflow.org/tutorials/text/transformer?hl=ja
Hugging Face🤗
177
Transformerに特化したフレームワーク
• 多数(8k+)の学習済みモデルの公開(次頁)
• PyTorchとTensorflowに対応
• NLPメインだが,LXMERTやViTにも対応
推論コード例
超短い!
モデル用意1~2行,入出力実
質各1行
Hugging Face🤗
178
コミュニティモデルが充実
AllenNLP
179
NLPに特化したフレームワーク
• PyTorchで構築
• 様々なタスクのモデルを利用可能
– 固有表現抽出,感情分析,文章読解など
Vision and Language
のモデルも追加!
JSONファイルで
実験の管理も容易
可視化ツール
180
Attentionの可視化[H. Chefer+ CVPR2021]
https://github.com/hila-chefer/Transformer-Explainability
参考文献
181
[H. Chefer+ CVPR2021] Chefer, Hila, Shir Gur, and Lior Wolf. "Transformer
Interpretability Beyond Attention Visualization." arXiv preprint arXiv:2012.09838
(2020).

More Related Content

Transformer メタサーベイ