Generative Models（メタサーベイ）

Generative Models 
Meta Survey

Agenda 
• Disentanglement 
　 
• Image-to-Image Translation 
– Object-to-Object 
– Mask-to-Image 
 
• Image Manipulation 
 
• Latent Space of GANs

Note 
3
 
本スライドで使用している画像において、引用表記
がないものについてはクレジット表記なしで利用可
能な画像を利用しております 
 
論文紹介ページにおける画像は紹介論文中の 
画像を利用しているため、省略しております

メタサーベイ 
Disentanglement

Contents 
• Disentanglementの定義 
 
• Unsupervised Disentanglement Learningの限界 
 
• 最新の研究動向概説 
 
• Disentanglementのジャンル分け 
 
• 研究動向別論文紹介 
 
• 有力研究機関、研究者

表現学習 
6
表現学習 (Representation Learning) の目的 
 
“ 分類器や他の予測器を構築する際に有用な情報を 
　　　　　　　　　　　　　　容易に抽出できるようにする”  
観測 x の有用な変換 r(x) を見つけること． 
 
 
その中でも，Disentangled Representation は， 
表現 r(x) 中の一つの因子の変化が，ある1つの変動の変化に 
つながるような，データ中の変動因子を分解した表現である．

Disentanglement 
7
• Disentanglement＝もつれの解け 
• Entanglement＝もつれ 
Disentanglementされた表現とは一つの潜在ユニットは一
つの生成因子に対して敏感であり、その他の因子に影響
を及ぼさない表現と定義される．
　Yosua Bengio　
• Disentanglementの定義

Disentanglement 
8
• 1つの潜在変数で一つの因子へ変化を及ぼす 
• →直感的に解釈可能な因子に分解 
Disentanglementされた表現とは一つの
潜在ユニットは一つの生成因子に対して敏感であり、その
他の因子に影響を及ぼさない表現と定義される．

Disentanglement 
変動因子と表現が1対1に対応するような 
Disentangled表現が得られると嬉しい理由 
  不変性: 変動因子と表現は1対1に対応するので，他の因子の
変動やノイズにロバスト 
 
転移性: 表現は互いに影響しないので他のDownstreamタスク
への転移が容易 
 
解釈性: データの変動と表現を照らし合わせることで表現に意
味を与えられる．解釈性は公平性も共にもたらす．

Disentanglement 
これまでの主要研究のおさらい 
- β-VAE 
- AnnealedVAE 
- FactorVAE 
- β-TCVAE 
- InfoGAN 
 
 
詳しい説明は以下を参照 
https://www.slideshare.net/HidekiTsunashima/disentanglement-surv
eycan-you-explain-how-much-are-generative-models-disentangled

Unsupervised Disentanglement Learning 
11
会議 : ICLR2017 
著者 : I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mo-hamed, and A. Lerchner 
 
● VAEの目的関数中の潜在次元のキャパシティと再構成能力をバランス調整するHyperparameter β を
VAEに拡張． 
○ β=1のとき，通常のVAE． 
○ βが大きいほど，潜在空間が正規分布に従うことを強制 = Disentanglementの促進． 
 
beta-VAE: Learning Basic Visual Concepts  
with a Constrained Variational Framework

InfoGAN: Interpretable Representation Learning 
by Information Maximizing Generative Adversarial Nets 
12
会議 : NIPS2016 
著者 : X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel 
 
● 二変数の依存関係を測る相互情報量を最大化することでDisentanglementするInfoGANを提案 
○ これにより，潜在コード C がノイズ Z と独立する 
● Cで制御可能な回転などの変動因子が獲得されたことを報告 
Unsupervised Disentanglement Learning

Understanding disentangling in β-VAE 
13
会議 : NIPS2017 Workshops 
著者 : C. P. Burgess, I. Higgins, A. Pal, L. Matthey, N. Watters, G. Desjardins,and A. Lerchner 
 
● β-VAEにはより良いDisentanglementのためには，再構成能力を犠牲にする必要があった(trade-off
問題) 
● この問題を解決するために，Hyperparameter C を線形に増加することで，潜在表現の　　キャパシティ
を徐々に増加させる． 
○ 学習済みのDisentangled表現を維持しながら，より多くの変動因子をDisentanglementしようとし
た． 
 
 
 

Disentangling by Factorising 
14
会議 : ICML2018 
著者 : H. Kim and A. Mnih 
 
● trade-off問題の解決のために，確率変数間の依存性を測るTotal Correlation (TC) の誤差をVAEの目
的関数に追加 
● 入力がq(z)とbar{q}(z)のどちらかを分類するDiscriminatorでTCを近似 
 

Isolating Sources of Disentanglement in Variational Autoencoders 
15
会議 : NIPS2018 
著者 : T. Q. Chen, X. Li, R. B. Grosse, and D. K. Duvenaud 
 
● VAEのKL項を，データサンプルと潜在変数との相互情報量，TC項，次元ごとのKL項に分解 
● TC項を提案するbiased Monte-Carloによって近似し，実際にTC項がdisentanglementに関連することを
明らかにした 
○ FactorVAEと違い，追加の学習パラメータがない． 
 
 
 

Challenging Common Assumptions in the Unsupervised Learning of Disentangled
Representations 
17
会議 : F. Locatello, S. Bauer, M. Lucic, G. Raetsch, S. Gelly, B. Sch ̈olkopf, and O. Bachem 
著者 : ICML2019 (Best paper) 
 
● Disentangled表現を教師なし学習することは，データとモデルの両方に帰納バイアスを持たないと不可
能であると理論的に証明した． 
● Disentangled表現の有用性について大規模実験． 
 
● 実験よりわかったことは 
○ Disentanglement Learning におけるハイパラはモデルより重要であり，データセット間に共通す
るよいハイパラもなく，さらにGTがないとよいハイパラとわからない． 
○ 学習された表現から変動因子を予測する Downstream task で Disentangled表現が有効である
ことを証明することができなかった． 
○ Disentanglement Learning においては実験の再現性が重要であり，そのためのプラットフォーム
を提供した． 
■ https://github.com/google-research/disentanglement_lib 
Unsupervised Disentanglement Learningの限界

Semi-Supervised StyleGAN for Disentanglement Learning 
18
会議 : arXiv:2003.03461 
著者 : W. Nie, T. Karras, A. Garg, S. Debhath, A. Patney, A. B. Patel, and A. Anandkumar, 
 
 
 
 
● 前述の研究を踏まえて，semi-, weakly-supervised設定の
disentanglementが注目を集めている． 
● 高解像度画像に対するDisentanglement，学習困難性，教師な
し設定でのnon-identifiabilityの問題を，少量のラベルを与える
semi-supervised設定のInfoGAN + StyleGAN で解決 
● 実験から，0.25 〜 2.5%のラベルで合成とリアルデータセットで良
いDisentanglementを達成できることが明らかになった． 
 
 
Semi-supervised Disentanglement Learning

Contents 
• Disentanglementの定義 
 
• Disentanglementのターニングポイント 
 
• 最新の研究動向概説 
 
• Disentanglementのジャンル分け 
 
• 研究動向別論文紹介 
 
• 有力研究機関、研究者

Disentanglement 
20
近年のDisentanglementの傾向 
 
ICLR2020　10/687 
NeurIPS2019　12/1428 
 
1つの会議に10本前後はacceptされており、ホットなテーマであること
が伺える 
 
上記の最新の会議の論文より見出されるディスエンタングル 
メントの研究の”流れ”が5つ存在した

Disentanglement 
21
 
● Explainability 
 
 
● Unsupervised Disentanglement Metric 
 
 
● Model Selection 
 
 
● Applicability to real world dataset 
 
 
● Applicability to downstream task

Disentanglement 
22
 
直感的に解釈可能な因子分解を解釈性へと昇華 
 
分解される因子の答え(オラクル)が要らないメトリック 
 
Disentanglementのモデルセレクション 
 
実世界データへの適用可能性 
 
● Applicability to downstream task 
下流タスクへの適用可能性

Disentanglement 
23
 
 
Disentanglementを深層学習の解釈性として捉えることで、
Fairness (公平性) やDecision Making Process 
(意思決定過程)への適用が始まっている

Disentanglement 
24
 
 
Disentanglementの度合を測るためのメトリックは今まで数多く提
案されてきた  
(e.g. β-VAE metric、Factor VAE metric、SAP、Modularity、DCI
Disentanglement、MIG、etc...) 
 
しかし、どのメトリックもオラクルが分かっていないと計算できな
かった 
 
UnsupervisedのDisentanglementのメトリック 
がついに登場

Disentanglement 
25
 
 
UnsupervisedにDisentanglementを扱うモデル (e.g. β-VAE、
Factor VAE) はハイパラ、アーキテクチャ、seedに敏感でありどの
モデルが有効であるかの判断が非常に難しいので、モデルセレ
クションに関する論文が増加

Disentanglement 
26
 
 
UnsupervisedのDisentanglementは今までdspriteやMNISTなど限
りなくトイに近いデータで実験をしていた 
 
ついに実世界データへの適用可能性を議論する論文が登場

Disentanglement 
27
 
下流タスクへの適用可能性 
 
下流タスクは何かの要素 (今回の場合はDisentanglement)を用い
て解くようなタスクのことを表す (e.g. クラス分類) 
 
ICML2019のbest paperにおいて、下流タスクについての 
言及があってから急速に研究が進みだした

Disentanglement 
28
 
 
 
 
 
下流タスクへの適用可能性

Disentanglement 
30
Disentanglementの種類 
 
Disentanglementの研究の流れからは少し逸れるが、
Disentanglementは研究が進むにつれ、大きく分けて 
2つのジャンルに分かれてきている 
 
● Implicit Disentanglement 
 
 
● Explicit Disentanglement

Disentanglement 
31
 
最もなじみのある問題設定で、β-VAEなどがこれに当たる 
 
理論的に導いた損失関数を用いて陰に帰納バイアス (inductive
bias) を与えてDisentanglementを促す

Disentanglement 
32
 
● Explicit Disentanglement 
近年急激に増えてきたDisentanglementの設定 
 
明示的な帰納バイアスを与えることによってDisentanglementを促
す 
(e.g. 人物画像を姿勢特徴 (Pose) を用いて人物姿勢特徴と人物
固有特徴 (identity) にDisentanglement)

Disentanglement 
33
 
Disentanglementの研究の流れからは少し逸れるが、
Disentanglementは研究が進むにつれ、大きく分けて 
2つのジャンルに分かれてきている 
 
 
 
● Explicit Disentanglement 
 
 
Disentanglementは解釈可能な因子に分解されていればよいという広
い解釈が広まりつつあり、ExplicitなDisentanglementが広く研究され
ている

Explainability (Fairness) 
35
Disentangling Influence: Using disentangled representations to audit model
predictions 
 
会議：NeurIPS 2019 
著者：#Charles_Marx #Richard_Phillips #Sorelle_Friedler #Carlos_Scheidegger
　　　#Suresh_Venkatasubramanian
Abstract 
● 機械学習モデルにおいてどの因子が影響を及ぼしているのかを入力の情報をDisentanglementする
ことで定量的に評価可能にしたdisentangled influence auditsを提案した 
Contribution 
● 機械学習モデルに与える因子の影響をDisentanglementして定量化可能にした点
成人の収入のデータを用いて性別
や人種などの因子がどう影響を及
ぼしているのかを検証

Explainability (Fairness) 
36
On the Fairness of Disentangled Representations 
 
著者：#Francesco_Locatello #Gabriele_Abbati #Thomas_Rainforth #Stefan_Bauer
　　　#Bernhard_Schölkopf #Olivier_Bachem
Abstract 
● Disentanglementと公平性、下流タスクの精度の関係を調査した論文
● 理論的にベイズ最適化を用いた識別器や、ターゲットの変数とセンシティブな変数が独立している場
合でも不公平性が発生することを示した
● DCI Disentanglement scoreが公平性の向上と相関あり
● 下流タスクの精度がDisentanglementと相関があることを示した
Contribution 
● Disentanglementと公平性、下流タスクの精度の関係を調査した点
混ざり合っているセンシティブな因子を
Disentanglementし、公平で
正確なクラス分類器の獲得を目指す

Explainability (Decision Making Process) 
37
Disentangled behavioural representations 
 
著者：#Amir_Dezfouli #Hassan_Ashtiani #Omar_Ghattas #Richard_Nock #Peter_Dayan
　　　#Cheng_Soon_Ong
Abstract 
● 精神疾患患者における意思決定の過程の予測についてdisentanglementした表現を用いて
解釈性を付与させた論文
● 今まではRNNを用いたベースのものが意思決定の予測に有力であったが解釈性がなかったので、
中間的にAEを挟んでDisentanglementしてからRNNの重みを生成することで解釈性を付与させた
Contribution 
● 意思決定における予測について解釈性を付与させた点
Disentanglement
した因子を用いてRNNの
パラメータを生成
(Hyper Networkと類似)

Unsupervised Disentanglement Metric 
38
Unsupervised Model Selection for Variational Disentangled Representation
Learning 
 
会議：ICLR 2020 
著者：#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess
　　　#Alexander_Lerchner #Irina_Higgins
Abstract 
● unsupervisedのdisentanglementのメトリックを初めて提案した(Unsupervised Disentanglement
Ranking; UDR)
● ハイパラ、モデルのチョイス、最終パラメータの予測が可能
● ハイパラ数H、seed数S、別途のseed数Pにおいて、HxSとPでモデルごとにconfusion matrixを作っ
てeq(2)でUDRを算出 (ようするにseedに鈍感であり、相関のなさを測ることでDisentanglementを評
価する)
Contribution
● unsupervisedのdisentanglementのメトリックを初めて提案した点
● ハイパラにロバストな指標を提案した点
● オラクルが必要ないので、実データにも適用可能である点
今度はUnsupervisedのメトリックの戦争が始まるか、、、？
次ページに続く

39
Unsupervised Model Selection for Variational Disentangled Representation
Learning 
 
Abstract
● ハイパラ数H、seed数S、別途のseed数Pにおいて、HxSとPでモデルごとにconfusion matrixを作っ
てeq(2)でUDRを算出 (ようするにseedに鈍感であり、相関のなさを測ることでDisentanglementを評
価する) (Rはconfusion matric、aとbはHxSとPのモデル番号)

40
Unsupervised Model Selection for Variational Disentangled Representation Learning 
 
余談 
● Introの冒頭にある一文が非常に印象的な論文でした 
 
Happy families are all alike;
every unhappy family is unhappy in its own way.
ロシアの文豪レフ・トルストイの著作「アンナ・カレーニナ」の冒頭の一文です
直訳は「幸せな家庭はどれも同じように幸せだが、不幸な家庭はそれぞれの行先で不幸である」
これの一文が指していることは恐らく「うまくDisentanglementできているものはロバストに評価できるが
(幸せな家庭はどれも同じように幸せ)、できていないものはseedに振られたりして悪い方向で安定してない
(不幸な家庭はそれぞれの行先で不幸である)」だと思います
DeepMindのNeuro Science研の論文ですが、とても詩的で一度読んでから論文のインパクト然り冒頭の
一文のインパクト然りでお気に入りの論文の一つです

Model Selection 
41
Disentangling Factors of Variations Using Few Labels 
 
著者：#Francesco_Locatello #Michael_Tschannen #Stefan_Bauer #Gunnar_Rätsch 
　　　#Bernhard_Schölkopf #Olivier_Bachem
Abstract 
● 少数ラベルを使うことで、よりうまくDisentanglementできることを示し、ラベルのノイズにも非常にロ
バストであることを示した
● 少数ラベルをvalidationに使うと、既存のDisentanglementのメトリックを用いてよりよいモデルのセ
レクションを可能にした
(訓練モデル自体はUnsupervised、Semi-Supervised)
Contribution
● ノイズありなしに関わらず少数ラベルがDisentanglementに貢献できることを示した点
● 少数ラベルを用いたvalidationがモデルセレクションを容易にした点
図は論文を読まないと解釈しにくいので、省略
前述のUDRもModel Selectionの文脈としても解釈可能

Appllicability to real world dataset 
42
On the Transfer of Inductive Bias from Simulation to the Real World: a New
Disentanglement Dataset 
 
著者：#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic
　　　#Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem
　　　#Bernhard_Schölkopf #Stefan_Bauer
Abstract 
● 今までのデータセットは所詮トイプロブレムであったので、実データにおいて7つの因子を含むデータ
セットを収集したMPI3Dを提案した．
● データセットはtoy、realistic、realの3つをそれぞれ100万枚以上集めて、転移性についてなどを調査
した．結論使うデータセットがrealisticだとrealにもうまく適用できる
Contribution
● 実世界3Dデータの画像を初めて提案した点
● 集めたデータで帰納バイアスとデータの転移性を調べた点
次ページに続く

Appllicability to real world dataset 
43
On the Transfer of Inductive Bias from Simulation to the Real World: a New
Disentanglement Dataset 
 
著者：#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic
　　　#Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem
　　　#Bernhard_Schölkopf #Stefan_Bauer
7つの因子を保持する
ようにロボットアームを
動かして撮影
MPI3D-hogeが集めたデータセット
各100万枚以上収集
realisticが実データに近いsyntheticな
データ

Appllicability to downstream task 
44
Are Disentangled Representations Helpful for Abstract Visual Reasoning? 
 
著者：#Sjoerd_van_Steenkiste #Francesco_Locatello #Jürgen_Schmidhuber 
　　　#Olivier_Bachem
Abstract 
● Disentangled表現は視覚的な推論タスクのようなdown-stream task に本当に有用であるのか？と
いう問いを明らかにするため，与えられた規則性のあるパネルの集合に欠けたパネルはどれかを答
えるような知能テストに似た視覚推論タスクを設計し，大規模実験を行った．
Contribution
● Disentangled表現は down-stream taskの性能を改善し，特に，少量サンプルでより迅速に学習でき
ることがわかった点．

有力研究機関、研究者 
46
研究機関 
● DeepMind 
 
● ETH Zuritch 
 
 
研究者 (敬称略) 
● Irina Higgins 
 
● Francesco Locatello

有力研究機関 
47
DeepMind (ICLR 2020, NeurIPS 2019に1本) 
 
 
 
 
言わずと知れた超エリートAI研究者集団 
 
Disentanglementブームの火付け役として貢献した 
β-VAEの生みの親であるIrina Higginsの所属するNeuro Science研
がDisentanglementにおいて躍進していた 
 
2019年、2020年はICLR、NeurIPSにおいてDisentanglementの採択本
数が1本であるが、Disentanglementの歴史を振り返る上では欠かせ
ない研究機関 
 
DeepMind Logo, “https://ja.wikipedia.org/wiki/DeepMind”

有力研究機関 
48
ETH Zuritch (ICLR 2020, NeurIPS 2019に5本) 
 
 
 
 
スイス連邦工科大学チューリッヒ校 
世界有数の工科大学であり、2020年世界大学ランキングでは 
同率13位の超名門校 
 
ICLR、NeurIPS、ICML、AISTATSに毎年通してるモンスターPh.Dの
Francesco Locatelloの所属校 
 
Disentanglementにおいては、ETHZとMax Planck Institute、Google
Brainの共同論文が猛威を振るっている 
 
ETH zurich logo, “https://ja.wikipedia.org/wiki/チューリッヒ工科大学”

有力研究者 
49
Irina Higgins 
DeepMind Neuro Science Lab 
Senior Research Scientist 
 
 
β-VAEの生みの親であり、Disentanglementの立役者 
 
Higginsが共著に入っている論文は良論文ばかりなので、是非 
チェックしたほうがよい 
 
2018年以降はDisentanglementよりも、object-centric representation
learningのほうに力を入れているように見える 
 
 
Irina Higgins picture, “ https://digital-anthropology.me/2017/02/27/new-scientist-artificial-intelligence-
day-session-one-the-mainstream-irina-higgins/”

有力研究者 
50
Francesco Locatello 
(ICLR 2020, NeurIPS 2019に4本(!?ww)) 
(内2本がFirst Author、1本がSecond、1本が4th) 
(ICML 2019 best paper!!) 
 
近年のDisentanglement研究で最もアツい研究者 
 
特に大きなターニングポイントは、帰納バイアスなしには
Disentanglementは不可能ということを理論的に示した点 
 
2016年に修士を修了し、2020年現在ではPh.Dを取得している 
Google BrainのOlivier Bachemと共著の論文がほとんどであり 
就職先はGoogle Brainか！？ 
 
Francesco Locatello picture, “https://ethz.ch/en/the-eth-zurich/portrait/aktuelle-ehrungen-und-  
preise/2019/04/francesco-locatello-receives-google-phd-fellowship.html”

著者紹介 
51
綱島秀樹
● Twitter：https://twitter.com/maguroIsland
● 所属：早稲田大学森島繁生研究室 D1
　研究領域
● Distillation
● Generative models
　興味
● Disentanglement
● Object-aware representation learning
● Persistent Homologylogy
　趣味
● 筋トレ，音楽ゲーム，読書，アメフト
　一言
● コロナのせいで毎日筋トレしててどんどんデカくなる

研究領域
● Semantic Segmentation
● Anomaly Detection
● Image Synthesis，Novel View Synthesis
● Disentanglement Learning
著者紹介 
52
相澤宏旭(あいざわひろあき)
● Twitter：https://twitter.com/aizw_h
● GitHub：https://github.com/aizawan
● HP：https://aizawan.github.io/
● 所属：岐阜大学加藤研究室 D3

Appendices (綱島が個人的に面白いと思った論文紹介) 
53
Counterfactuals uncover the modular structure of deep generative models
(disentanglementを扱っている) 
 
著者：#Michel_Besserve #Arash_Mehrjou #Rémy_Sun #Bernhard_Schölkopf
Abstract 
● 教師無し深層生成モデルのモジュラリティを探索する手法を提案し、意味的に整合性の取れたモー
フィング(外挿)を可能にした
● モジュラリティとはネットワーク(NNのことではない)の質を定量化するものであり、深層生成モデルに
おいての質とは"解釈性"と"外挿"としている。
Contribution
● 深層生成モデルにおける解釈性を探索でき、それを基に外挿可能なフレームワークを提案した点
左図はダチョウの姿勢を維持した
上での鶏のidentityの転移
右図はテディベア属性にコアラの
identityを転移(上図怖い)

54
Disentanglement by Nonlinear ICA with General Incompressible-flow Networks
(GIN) 
 
著者：#Peter_Sorrenson #Carsten_Rother #Ullrich_Köthe
Abstract 
● Independent Component Analysis (ICA) を非線形に拡張したNonlinear ICAをFlowベースの生成
モデルに適用したことで、因子ごとのデータ構造を分解可能にするGeneral Incompressible-flow
Network (GIN)を提案
Contribution
● データの本質的な分解すべき因子の次元(Flowなので次元が1to1)を獲得できるネットワークを提案
した点
何がすごいってデータの本質的な分解
すべき因子の次元を獲得できるという点
Flowのdisentanglementの文脈は珍しいの
で、かなり新鮮だった
個人的にはブレイクスルーの予感

55
Learning Disentangled Representations for Recommendation 
 
著者：#Jianxin_Ma #Chang_Zhou #Peng_Cui #Hongxia_Yang #Wenwu_Zhu
Abstract 
● 推薦システムにおいて、ユーザの行動で大きく変化を及ぼすMacroと小さい変化を及ぼすMicroの因
子にDisentanglementして推薦システムを構築するMACRo-mIcro Disentangled VAE
(MacridVAE)を提案
Contribution
● Disentanglementを用いて解釈性を得た推薦システムを提案した点
マクロとミクロの因子にdisentangleという
点が非常に面白い
この発想はかなり使えそう？

Appendices (ICLR, NeurIPSの今回紹介してない論文) 
56
PROGRESSIVE LEARNING AND DISENTANGLEMENT OF HIERARCHICAL
REPRESENTATIONS 
 
著者：#Zhiyuan_Li #Jaideep_Vitthal_Murkute, #Prashnna_Kumar_Gyawali 
　　　#Linwei_Wang
Abstract 
● VAEの潜在変数zの推論部分をprogressiveに増やすことで、よりDisentanglementできるようにした
pro-VLAEを提案した。
● MIGは潜在変数間における相互情報量のギャップでDisentanglementを測っていたが、同次元の潜
在変数内でエンタングルメントを起こしているかどうかは測れなかった。そこで、同次元の潜在変数内
のDisentanglementを測れる新しいDisentanglementのメトリックであるMIG-supを提案した。
Contribution
● シンプルな段階的拡張によるDisentanglementの手法を提案した点
● MIGよりもロバストなDisentanglementのメトリックを提案した点
Disentanglementで唯一のspotlight論文
シンプルながら強力な手法

57
Demystifying Inter-Class Disentanglement 
 
著者：#Aviv_Gabbay #Yedid_Hoshen
Abstract 
● 画像はコンテンツ情報(画像特有の情報) とクラス情報に分かれると仮定して、二つが完全に分離す
るようにして訓練するLatent Optimization for Representation Disentanglement (LORD) を提案
し、SOTA
● 推論時や未知のクラスが新しく来た時にどこかに無理やり落とそうとするとエンタングルした表現にな
るので、上記の1st stageとクラスとコンテンツを推定する2nd stageを作ることで出来る限り汎化させ
たDisentanglementされた表現を獲得させている
Contribution
● 画像をDisentanglementするにはスタイルとコンテンツに分けるのではなく、
コンテンツとクラスに分離することが有効であると示した点
● 二つの画像を組み合わせた生成における品質でSOTA (StyleGAN的な)
正直視覚的な結果は微妙
(優れているのかが一目でわからない)
(図に改善の余地があったのでは、、、)

58
Weakly Supervised Disentanglement with Guarantees 
 
著者：#Rui_Shu #Yining_Chen #Abhishek_Kumar #Stefano_Ermon #Ben_Poole
Abstract 
● 弱教師ありの生成モデルにおける理論的なDisentanglementの度合の測り方を提案
● 弱教師ありの生成モデルにおいてDisentanglementを保証できるようにした
● extended spaceにおける弱教師あり学習の分布マッチングを定式化
Contribution
● 弱教師ありの生成モデルにおいて理論的にDisentanglementを計算できるようにした点
DisentanglementとConsistencyとRestrictivenessの
図解がわかりやすくて印象的

59
Explicit Disentanglement of Appearance and Perspective in Generative Models 
 
著者：#Nicki_Skafte #Søren_Hauberg
Abstract 
● Spatial TransformerとVAEをくっつけたVariationally Inferred Transformational Autoencoder
(VITAE)を提案し、画像をappearanceとperspective (ようするに変化具合とコンテンツ)に分解する
ことでトイデータでない実データにおいてDIC-metricでSOTA。
Contribution
● appearanceとperspectiveに分ける帰納バイアスを与えることで、ディスエンタングルメントの性能
向上ができることを示した点
いわゆるExplicitなディスエンタングルメントの1つ

60
Multi-mapping Image-to-Image Translation via Learning Disentanglement 
 
著者：#Xiaoming_Yu #Yuanqi_Chen #Shan_Liu #Thomas_Li #Ge_Li
Abstract 
● マルチドメインだけでなく、マルチモーダルな生成をも可能にしたDMIT (Disentanglement for
Multi-mapping Image-to-Image Translation) を提案した
● コンテンツ、スタイルだけじゃなくてドメインラベルを出力するエンコーダーも追加し、スタイルには
DRITのようにKLDを取ってディスエンタングルメントを促している
Contribution
● マルチドメインだけでなくマルチモーダルな生成を可能にした点
● マルチドメイン、マルチモーダル、テキストによるSematic Image SynthesisでSOTA
でっかい図がないとわからないので、次ページに図

61
Multi-mapping Image-to-Image Translation via Learning Disentanglement 
 
著者：#Xiaoming_Yu #Yuanqi_Chen #Shan_Liu #Thomas_Li #Ge_Li
●

62
Flow-based Image-to-Image Translation with Feature Disentanglement 
 
著者：#Ruho_Kondo #Keisuke_Kawano #Satoshi_Koide #Takuro_Kutsuna
Abstract 
● Flow-based generative modelにおいて、初のIm2Imとディスエンタングルメントを取り入れたFlow
U-Net with Squeeze modules (FUNS) を提案した
● CelebAとCHCのIm2ImにてSOTA
● Squeeze Moduleがディスエンタングルメントのキモ
Contribution
● 変分モデルにおいてSOTA
● Flow-basedでディスエンタングルメントを提案した点
なじみのない問題設定であまりうまく理解できて
ないです、、、
Toyota Central R&D Labなのが印象的だった
唯一Disentanglementにおいて日本人の論文

63
Symmetry-Based Disentangled Representation Learning requires Interaction with
Environments 
 
著者：#Hugo_Caselles-Dupré #Michael_Garcia_Ortiz #David_Filliat
Abstract 
● 既存研究であるSymmetry-Based Disentangled Representation Learning (SBDRL) は静的な
観測だけでは成り立たず、エージェントによるインタラクションが必須であると理論的、実験的に示し
た論文
● 環境とのインタラクションでのLinear SB-disentangled representaionとnon-linear
SB-disentangled representationの学習を提案した
● SB-disentangledが下流のタスクに有効であることを示した
Contribution
● SBDRLにおいてインタラクションが必須であることを示した点
● SB-disentangledが下流のタスクに有効であることを示した点
SBDRLを読まないと理解不可能
合わせて読まなくてはいけません

64
Learning Disentangled Representation for Robust Person Re-identification 
 
著者：#Chanho_Eom #Bumsub_Ham
Abstract 
● person re-identification (reID)にて、人物のidentityに関係する特徴と関係しない特徴に
DisentanglementしてRecall@1やmAPでSOTAのIdentity Shuffle GAN (IS-GAN)を提案
● ディスエンタングルメントするためにidentity-relatedな情報は訓練中にswapしたり、ランダムにベク
トルを分解して交換する処理を行ってる
Contribution
● reIDのRecall@1やmAPなどでSOTAな点
● identification label以外は用いていない点(Poseなど使ってない)
● identity-unrelatedとidentity-relatedに分離する発想が有効であることを示した点
reIDにおいてはDisentanglementは非常に流行っている

65
Explicitly disentangling image content from translation and rotation with
spatial-VAE 
 
著者：#Tristan_Bepler #Ellen_Zhong #Kotaro_Kelley #Edward_Brignole 
　　　#Bonnie_Berger
Abstract 
● 回転や平行移動に不変になるSpatial-VAEを提案した
● 回転角度や平行移動を自己教師ありのアプローチで解くことで回転、平行移動不変性を獲得した
● 星やタンパク質は回転、平行移動してるとわけわかんないからそれを解決
Contribution
● 回転、平行移動に不変な特徴をディスエンタングルメント可能なモデルを提案した点
星とタンパク質のデータセットを使っており、
初めてみる方向性だったので、
非常に印象的だった
Biology Centerの人もいて納得
恐らく他の著者は宇宙系か？

論文紹介 
Image-to-Image translation

Image-to-Image Translation 
67
● 条件となる画像 (e.g., ラベル/線画/グレースケール) から画像へ変換 
するタスク 
○ 教師あり/なしの手法が提案されてきている 
● (a)物体から物体の変換(Object-to-Object)と 
(b)セグメントラベルからの画像変換(Mask-to-Image)に焦点を当てて紹介 
(a)  (b)

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
(CycleGAN) 
68
会議 : ICCV2017
著者 : Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
[Abst]
・ペアの訓練データがない場合の画像変換を行った
・逆写像とCycle-conistency Lossを用いて元画像を復元できるように学習させた
[Results]
・色やテクスチャに関する変換は成功した
・形状変化を伴う変換はうまくいかなかった
(a)
https://arxiv.org/abs/1703.10593

DualGAN: Unsupervised Dual Learning for Image-to-Image Translation  
69
会議 : ICCV2017
著者 : Zili Yi, Hao Zhang, Ping Tan, and Minglun Gong
[Abst]
・2つのドメインのラベル付けされていない2つのセットから画像変換を学習できるようにした
・既存のGANはドメイン→ドメインへの変換を学習、Dual GANはドメイン⇄ドメインを学習するようにした
[Results]
・他のGANの出力よりも鮮明な変換ができた
・アーキテクチャは基本的にCycleGANと同じ(CycleGANの方が論文投稿が先)
(a)

Unsupervised Image-to-Image Translation Networks  
70
会議 : NIPS2017
著者 : Ming-Yu Liu, Thomas Breuel, Jan Kautz
[Abst]
・潜在空間が共通するという仮定のもとに教師なしimage-to-imageのフレームワークを提案
・VAEとCoupled GANを組み合わせたアーキテクチャでドメイン毎にEncoder, Generator, Discriminator
がある
[Results]
・複数のデータセットで画像変換を実行できた
・鞍点探索の問題により学習が不安定になる場合がある
(a)https://arxiv.org/abs/1703.00848

TuiGAN: Learning Versatile Image-to-Image Translation with Two
Unpaired Images 
71
会議 : arXiv2020
著者 : Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, Jiebo Luo
[Abst]
・UI2Iを2つのUnpairな画像のみで可能にした
・ドメイン間の分布の変化を効果的にキャプチャするためにSinGANのように粗い画像から
細かい画像へと段階的に変換する手法を採用
[Results]
・CycleGANよりは良い結果が得られていないような記述
・極めてデータが少ないケースの教師なし学習のきっかけになりそう
(a)

StarGAN
72
会議 : CVPR18 
著者 : Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo 
 
● CycleGANでは1:1ドメイン間での変換しかできなかったが，条件付きベクトルを用いた生成期とAuxiliary
Classiﬁerを用いた識別器を用いることで1:n変換を実現した 
 
 
 
(a)

GANimation
73
会議 : ECCV18 
著者 : Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer 
 
● StarGANでは1:nドメイン間での離散的な属性変換という制限があったが，目標属性までの変換を連続
的に行うために表情のAttentionを示すAction Unitsを導入し，連続的な1:n変換を可能にした 
 
 
 
(a)

MUNIT
74
会議 : ECCV18 
著者 : Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz 
 
● CycleGANやStarGANは生成器が変換先ドメインでの多様な表現をすることが不可能であった問題を
解決するために，形状(Contents)と見た目(Style)を分離させる手法を提案 
Style特徴量を基にAdaINを用いたパラメータ調整をすることで高品質な変換を実現 
 
 
 
(a)

会議 : ICCV19 
著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz 
 
● MUNITではあるドメイン内でのContentとStyleの分離であったが，Contentと各ドメインのStyleの分離を
行い，AdaINを用いたドメイン毎のStyle特徴量を上手く学習する方法を提案 
 
 
 
FUNIT
75
(a)

会議 : ICCV19 
著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz 
● ドメイン間の連続的な変化を実現させるために，条件付き信号の重みを変えても滑らかな 
補完をするような損失関数を提案した 
RelGAN
76
(a)

StarGANv2
77
会議 : CVPR20 
著者 : Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha 
 
● FUNITのように分離をするが，各ネットワークの出力をドメイン毎に異なるFC層を用いて条件付き信号
を用いてどの層を使うかを選択する工夫がされている. 
● 定量評価のスコアがかなり上昇している 
 
 
 
(a)

従来では解決されていない問題点が徐々に解決されつつある 
● CycleGAN[ICCV17]．Pix2Pix[CVPR17]で1:1ドメイン間の変換が提案された 
● StarGAN[CVPR18]で1:nドメイン間の変換が提案された 
● MUNIT[ECCV18]で1:1ドメイン間の変換だが，変換先を操作できるような機構が提案された 
● FUNIT[ICCV19]でStarGANより多クラス間の参照画像を用いた変換が提案された 
● RelGAN[ICCV19]でより補完性の高いドメイン間の変換が提案された 
● StarGANv2[CVPR20]で従来より圧倒的に綺麗な参照画像を用いた変換が提案された 
 
(a)物体変換の発展
78
● 実験に使用されるデータセットはCelebAの人の顔や動物の顔でしか行われ
ていない問題 
● 実際にデモを動かしてみるとうまくいかないサンプルなどの存在 
● 学習時間が長すぎる問題 
● まだまだ取り組める課題は多い 
● 画像生成モデルであるStyleGANを上手に利用した研究との融合 
 
(a)

Pix2pix 
79
会議 : CVPR 2017 
著者 : Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros 
 
● 様々なimage-to-image translationタスクに適応可能な手法を提案 
● 性能も良い 
● 従来と異なり入力と生成画像（or 正解画像）のペアを識別器に入力し真偽を判定 
https://arxiv.org/pdf/1611.07004.pdf
(b)

BicycleGAN 
80
会議 : NeurlPS 2017 
著者 : Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman 
 
● 1入力多出力を可能にする手法を提案 
○ pix2pixにノイズを入れても無視されてしまう 
● BicycleGANではノイズが無視されないような工夫を行なっている 
○ 潜在回帰損失など 
(b)

Cascaded Refinement Networks 
81
会議 : ICCV 2017 
著者 : Qifeng Chen, Vladlen Koltun 
 
● 敵対的訓練を用いずにセグメントラベルから画像を生成する手法を提案 
● 下図のモジュールを段階的に積み上げ画像を生成する 
○ このモジュールはセグメントラベルと前段のモジュールの出力を受け取る 
https://arxiv.org/pdf/1707.09405v1.pdf
(b)

Pix2pixHD 
82
著者 : Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jun Kautz, Bryan Catanzaro 
 
● セグメントラベルから高解像度（2048 x 1024）な画像を生成する手法を提案 
● coarse-to-fineな生成器を設計することで高解像度化を実現 
● 他にもboundary mapを用いた，より写実的な画像の生成なども行っている 
(b)

SIMS 
83
著者 : Xiaojuan Qi, Qifeng Chen, Jiaya Jia, Vladlen Koltun 
 
● 訓練データセットにおける画像の構成要素をメモリバンクMに保存しておき，テストセグメントラベルでは
Mから構成要素を取り出し画像を生成する手法を提案 
● Mだけでは埋められない領域をfに入力して最終的な結果を得る 
https://arxiv.org/pdf/1804.10992v1.pdf
(b)

GauGAN 
84
著者 : Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu 
 
● 画像生成のための新しい正規化手法（SPADE）を提案 
○ SPADE : SPatially-Adaptive DEnormalization 
○ 従来手法より意味情報を保持できる 
● AdaINのγとβを特徴マップの要素ごとに求めている 
○ γとβは畳み込み層で求める 
○ 空間的・意味的な変換を施すことができる 
(b)

CLADE 
85
会議 : arXiv 2020 
著者 : Zhentao Tan, Dongdong Chen, Qi Chu, Menglei Chai, Jing Liao, Mingming He, Lu Yuan, Nenghai Yu 
 
● SPADEの利点はspatial-adaptivenessよりもsemantic-awarenessであること観察 
○ 右図上ではクラスごとにγとβが変わっているが，空間的には変わらないことがわかる 
● SPADEの計算量を削減しつつ同程度の性能を持つ正規化手法（CLADE）を提案 
○ CLADE : CLass-Adaptive DEnormalization 
● CLADEではクラスごとにγとβを用意し直接最適化する 
○ spatial-adaptivenessは考えない 
(b)

86
(b)セグメントラベルからの画像生成タスクにおける強強研究機関 
 
 
● UC Berkeley 
○ pix2pix, BicycleGAN, pix2pixHD, GauGAN 
○ Jun-Yan Zhuさんがどの研究にも名前が載っててヤバイ（語彙力） 
● NVIDIA 
○ pix2pixHD, GauGAN 
○ Ming-Yu LiuさんとTing-Chun Wangさんもヤバイ（） 
● Intel 
○ Cascaded Refinement Networks, SIMS 
 
 
Jun-Yan Zhuさん Ming-Yu Liuさん Ting-Chun Wangさん
(b)

87
(b)セグメントラベルからの画像生成タスクに関する主観的感想 
 
 
● 生成器の設計系研究から正規化モジュールの設計にシフトしそう 
○ 生成器の設計もあまり凝っていないのでまだ掘れそう 
● 教師あり手法よりなし手法の方が勢いがある 
○ データセットへの制約が緩いため？ 
● 生成画像の応用はあまり研究されていない印象．次の2つは個人的有力候補 
○ image manipulation（純粋な方法はpix2pixHDでされているので工夫が必要） 
○ データ拡張（設定を上手く練ればsem.seg.のデータ拡張として使えそう） 
 
(b)

研究機関 
88
Microsoft Research Asia (中国, 北京)
　・Microsoft Researchのアジア支部
　　・アメリカ国外における最大の研究所
　・北京大学や清華大学の卒業生が研究者として多く在籍
　　・学生との連携、教育も積極的に行っている
　・CVPR2020, ICLR2020等に論文を投稿

注目研究者 
89
Ming-Yu Liu (NVIDIA)
・Image-to-Imageといえばという研究者
　・前述のセグメントラベルからの画像変換だけでなく
　　Image-to-Image分野全体の功績が凄い
・NVIDIAの莫大な計算リソースが武器
　・Few-Shot Unsupervised Image-to-Image
　　TranslationはTesla V100 32GB × 8台使用し実験を行った
・論文
・High-Resolution Image Synthesis and Semantic Manipulation with
Conditional GANs(CVPR2018)
　・Few-Shot Unsupervised Image-to-Image Translation(ICCV2019)
https://research.nvidia.com/person/mingyu-liu

研究領域
● GANによるデータ拡張，Image-to-Image，Domain Adaption
　今年の目標
● 筑波大学院合格
● 論文をできるだけ読む
　好きな音楽ジャンル
● JAZZ(特にBig band)，Vocaloid 
　一言
● もっと専門的に物事を捉えられるように勉強します！！ 
 
著者紹介 
90
星将仁(ほしまさひと)
● Twitter：https://twitter.com/Masa_m_0413
● 所属：茨城工業高専専攻科2年情報工学コース
● 茨城県那珂市出身
● 小学生：ドラム，中学生：吹奏楽，高校：吹奏楽
● 自粛期間中にダーツの腕前をメキメキとあげています

● Twitter：https://twitter.com/kodai_nakashima
● 所属：産総研テクニカルスタッフ
　研究領域
● GANの応用
　今年の興味
● GAN，Semantic Segmentation，Domain Adaptation
　目標
● 博士課程への進学
● 人間性を捧げる
● ADステータスの解除 
著者紹介 
91
中嶋航大(なかしまこうだい)

研究領域
● Image-to-Image Translation
● Image Generation
● Weakly Supervised Instance Segmentation
● Twitter：https://twitter.com/udoooom
● 所属：東大相澤山崎松井研 M1
著者紹介 
92
堀田大地(ほりただいち)

論文紹介 
Image Manipulation

画像編集
94
=実画像を条件(e.g., 画像/ユーザ入力/ラベル)に基づいて変換し画像生成 
 
ここから紹介するのは「教師ペアデータを集めるのが大変な編集タスクにどう取り組
むか？」という課題に対して 
- StyleGAN/BigGAN等の高解像度・高品質画像生成モデルの活かし方 
- 複数の画像編集タスクを単一フレームワークにどう組み込むか 
に着目した研究

A Style-Based Generator Architecture 
for Generative Adversarial Networks 
95
会議 : CVPR2019 
著者 : Tero Karras, Samuli Laine, Timo Aila 
● いわゆるStyleGAN (v2も出ました) 
● GANによる高解像度な画像生成のためのネットワークと様々なテクニックの提案 
● 潜在表現zはMLPで中間表現に変換した後にAdaIN(style transferでよく使う)で繰り返し印
加 
● 高解像度かつ高品質な顔画像データセットFFHQの構築

Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?
会議 : ICCV2019 
著者 : Rameen Abdal, Yipeng Qin, Peter Wonka 
 
● 提案: StyleGANの中間表現Wを各層に複製したW′を誤差逆伝播で変化させ，StyleGAN
に入れた時クエリ画像に最も近い画像を生成するW′ を発見 
● 応用: 任意の2画像からW′を抽出し，morphing/expression transferなど 
● 後続研究: In-Domain GAN Inversion for Real Image Editing (CVPR2020) 
 
上: 入力，下: 埋め込み morphing expression transfer

Image2StyleGAN++: How to Edit the Embedded Images?
97
著者 : Rameen Abdal, Yipeng Qin, Peter Wonka 
 
● 提案1: W′を最適化→StyleGANのもう一つの入力であるノイズも最適化することで，より
精細なクエリ画像のStyleGANへの埋め込みを実現 
● 提案2: 損失関数, マスク入力の有無等を変えて最適化するだけで，reconstruction,
inpainting, crossover, sketch/scribble edit 等を実現 
Inpainting Crossover
sketch/scribble
edit

StyleRig: Rigging StyleGAN for 3D Control over Portrait Images
98
著者 : Ayush Tewari, Mohamed Elgharib, Gaurav Bharaj, Florian Bernard, Hans-Peter Seidel,
Patrick Perez, Michael Zollhofer, Christian Theobalt 
 
● StyleGANは高解像度画像生成するが，望みの形質だけを変更する編集は難しい 
● 各種パラメタを陽に持つ3DMMモデルとstyleganの潜在表現の対応を発見し実現

GANSpace: Discovering Interpretable GAN Controls
99
会議 : arXiv2020 
著者 : Erik Härkönen , Aaron Hertzmann , Jaakko Lehtinen, Sylvain Paris 
 
● 生成モデルのlatent vector(高次元)にある特徴を加える方向ベクトルを発見する 
● 既存研究は発見したい特徴に関する何らかの教師情報が必要だった 
● PCAで低次元に特徴を落とすと，人とinteractionして簡単に見つけられる

Deep Image Prior
100
著者 : Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky 
● 単一の欠損(e.g., ノイズ・穴)画像だけを入力にCNNの最適化で元画像を復元 
● 自然な画像を生成するためのpriorを大量の画像群から学習するアプローチが主流である
中，CNNの構造自体も重要なpriorであることを示唆

SinGAN: Learning a Generative Model
From a Single Natural Image
101
会議 : ICCV2019 (best paper)  
著者 : Tamar Rott Shaham, Tali Dekel, Tomer Michaeli 
 
● 単一画像から生成モデル学習, G/Dを階層的に積み重ねて，学習につかった単一画像と
パッチレベルの分布は一緒だが構造が違う新画像を生成 
● 階層構造を利用して，super-resolution, harmonization, animation, editingなどを実現

Structural-analogy from a Single Image Pair
102
会議 : arXiv2020 
著者 : Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen-Or, Lior Wolf
 
● 画像ペア一対だけから生成モデル学習 (SinGANのim2im向け拡張) 
● 画像A/Bに対して，Bの見た目とAの構造を保持した画像を生成するモデルを実現

Semantic Pyramid for Image Generation
103
著者 : Assaf Shocher, Yossi Gandelsman, Inbar Mosseri, Michal Yarom, Michal Irani, William
T. Freeman, Tali Dekel 
 
● 学習済みの分類器を使って様々な階層の特徴抽出，そのうち生成器の条件付けとして渡
す階層を限定することで，入力画像に対し様々なレベルの`類似`画像を生成するモデル
の実現 
● 空間的なマスクによる条件付けと組み合わせる事で多様な画像編集タスクを実現 (e.g.,
composition, semantic re-labeling, sketch-to-photo)

画像編集のまとめ
104
- 教師ペアが自明に集まるタスクは生成の質・設定がやや飽和してきた？ 
例) label2image, image inpainting, sketch/scribble-based editing 
 
- feed-forward型のsingle-task NNに落とし込むだけでなく，応用の用途と要求さ
れる質・速度に応じたアプローチが求められる段階か？ 
例1) StyleGANへの画像埋め込み: 遅いが高品質 
例2) multi-task系: 質は少し劣るが汎用性が非常に高い

● Twitter：https://twitter.com/naoto_inoue_
● 所属：東大相澤山崎松井研 D3
　研究領域
● content creationに向けた画像生成の応用
● Image Editing
● Image Generation
　今年の目標
● インパクトのある仕事をする 
　(宣伝)過去の研究
● 物体検出におけるdomain adaptation (CVPR2018) https://arxiv.org/abs/1803.11365
● 単一写真からの線画生成　(PacificGraphics2019)
著者紹介 
105
井上直人(いのうえなおと)

論文紹介 
Latent Space of GANs

Walking in the GAN Latent Space 
107
GANは潜在空間上の2点間の滑らかな内挿が可能 
この性質を使うことで， 
GANの解釈性の改善とGANの制御性の検証ができる 
 
このトピックでは 
特定の画像変換に対応する潜在空間上の方向を 
- 教師ありで [Goetschalckx+ 2019] 
- 自己教師で [Jahanian+ 2020], [Plumerault+ 2020] 
- 教師なしで [Voynov+ 2020] 
発見する手法を調査

Ganalyze: Toward visual definitions of cognitive image properties 
108
会議 : ICCV2019 
著者 : L. Goetschalckx, A. Andonian, A. Oliva, and P. Isola 
 
● 記憶に残りやすい or 残りにくいイメージはどのように見えるか？また記憶性をもたらす視覚的特
性とは？をテーマに，BigGANが学習した潜在空間上を，MemoryNetを使って評価される方向へ誘
導することで視覚的特性を可視化した． 
 
 
Fig. 4. より抜粋．右に行くほど記憶に残りやすい

On the ”steerability” of generative adversarial networks 
109
著者 : A. Jahanian, L. Chai, and P. Isola 
 
● self-supervisedな画像変換を施した画像をもとに得られるGANの潜在空間を操舵する方向から
，GANの潜在空間を操縦することで基本的な視覚的な変換がどの程度達成されるかを検証． 
 
 
生成された画像 G(z) と編集した edit(G(z), α) を最小化する αw を探す．
対象をフレームアウトさせるような変換はできない →
Dataset bias をGANが反映

Controlling generative models  
with continuous factors of variations 
110
著者 : A. Plumerault, H. L. Borgne, and C. Hudelot 
 
● 生成モデルの潜在空間上から，物体の位置やスケールなどの特性を制御可能にする方向を見つ
ける方法を提案．GANalyze や GAN Steerability との違いは， 
○ Gが再現不可能な高周波数画像成分を低減する再構成誤差 
○ 潜在空間の軌跡の候補を再帰的に生成した後，方向を決定するモデルを学習 
○ Saliency detectionによる定量評価

Unsupervised discovery of interpretable directions 
in the gan latent space 
111
会議 : arXiv:2002.03754 
著者 : A. Voynov and A. Babenko 
 
● R を生成画像ペアから潜在空間上での方向を予測するように訓練することにより，GANの潜在空
間上での人間が解釈可能な画像変換に対応する方向をunsupervised に発見 
 
 
生成画像と方向に沿って移動した生成画像を受け取り，
Rはその方向を予測する． Gは固定し，AとRを学習する．

研究領域
● Semantic Segmentation
● Anomaly Detection
● Image Synthesis，Novel View Synthesis
● Disentanglement Learning
　
著者紹介 
112
相澤宏旭(あいざわひろあき)
● Twitter：https://twitter.com/aizw_h
● GitHub：https://github.com/aizawan
● HP：https://aizawan.github.io/
● 所属：岐阜大学加藤研究室 D3

Generative Models Meta Survey 
113
Thank you for attention!

Generative Models（メタサーベイ ）

More Related Content