SlideShare a Scribd company logo
Generative Models

Meta Survey

Agenda

• Disentanglement

 

• Image-to-Image Translation

– Object-to-Object

– Mask-to-Image



• Image Manipulation



• Latent Space of GANs

Note

3


本スライドで使用している画像において、引用表記
がないものについてはクレジット表記なしで利用可
能な画像を利用しております



論文紹介ページにおける画像は紹介論文中の

画像を利用しているため、省略しております

メタサーベイ

Disentanglement

Contents

• Disentanglementの定義



• Unsupervised Disentanglement Learningの限界



• 最新の研究動向概説



• Disentanglementのジャンル分け



• 研究動向別論文紹介



• 有力研究機関、研究者

表現学習

6
表現学習 (Representation Learning) の目的



“ 分類器や他の予測器を構築する際に有用な情報を

              容易に抽出できるようにする” 

観測 x の有用な変換 r(x) を見つけること.





その中でも,Disentangled Representation は,

表現 r(x) 中の一つの因子の変化が,ある1つの変動の変化に

つながるような,データ中の変動因子を分解した表現である.











Disentanglement

7
• Disentanglement=もつれの解け

• Entanglement=もつれ

Disentanglementされた表現とは一つの潜在ユニットは一
つの生成因子に対して敏感であり、その他の因子に影響
を及ぼさない表現と定義される.
 Yosua Bengio 
• Disentanglementの定義

Disentanglement

8
• 1つの潜在変数で一つの因子へ変化を及ぼす

• →直感的に解釈可能な因子に分解

Disentanglementされた表現とは一つの
潜在ユニットは一つの生成因子に対して敏感であり、その
他の因子に影響を及ぼさない表現と定義される. 
Disentanglement

変動因子と表現が1対1に対応するような

Disentangled表現が得られると嬉しい理由


 不変性: 変動因子と表現は1対1に対応するので,他の因子の
変動やノイズにロバスト



転移性: 表現は互いに影響しないので他のDownstreamタスク
への転移が容易



解釈性: データの変動と表現を照らし合わせることで表現に意
味を与えられる.解釈性は公平性も共にもたらす.

Disentanglement

これまでの主要研究のおさらい

- β-VAE

- AnnealedVAE

- FactorVAE

- β-TCVAE

- InfoGAN





詳しい説明は以下を参照

https://www.slideshare.net/HidekiTsunashima/disentanglement-surv
eycan-you-explain-how-much-are-generative-models-disentangled

Unsupervised Disentanglement Learning

11
会議 : ICLR2017

著者 : I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mo-hamed, and A. Lerchner



● VAEの目的関数中の潜在次元のキャパシティと再構成能力をバランス調整するHyperparameter β を
VAEに拡張.

○ β=1のとき,通常のVAE.

○ βが大きいほど,潜在空間が正規分布に従うことを強制 = Disentanglementの促進.



beta-VAE: Learning Basic Visual Concepts 

with a Constrained Variational Framework

InfoGAN: Interpretable Representation Learning

by Information Maximizing Generative Adversarial Nets

12
会議 : NIPS2016

著者 : X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel



● 二変数の依存関係を測る相互情報量を最大化することでDisentanglementするInfoGANを提案

○ これにより,潜在コード C がノイズ Z と独立する

● Cで制御可能な回転などの変動因子が獲得されたことを報告

Unsupervised Disentanglement Learning

Understanding disentangling in β-VAE

13
会議 : NIPS2017 Workshops

著者 : C. P. Burgess, I. Higgins, A. Pal, L. Matthey, N. Watters, G. Desjardins,and A. Lerchner



● β-VAEにはより良いDisentanglementのためには,再構成能力を犠牲にする必要があった(trade-off
問題)

● この問題を解決するために,Hyperparameter C を線形に増加することで,潜在表現の  キャパシティ
を徐々に増加させる.

○ 学習済みのDisentangled表現を維持しながら,より多くの変動因子をDisentanglementしようとし
た.







Unsupervised Disentanglement Learning

Disentangling by Factorising

14
会議 : ICML2018

著者 : H. Kim and A. Mnih



● trade-off問題の解決のために,確率変数間の依存性を測るTotal Correlation (TC) の誤差をVAEの目
的関数に追加

● 入力がq(z)とbar{q}(z)のどちらかを分類するDiscriminatorでTCを近似



Unsupervised Disentanglement Learning

Isolating Sources of Disentanglement in Variational Autoencoders

15
会議 : NIPS2018

著者 : T. Q. Chen, X. Li, R. B. Grosse, and D. K. Duvenaud



● VAEのKL項を,データサンプルと潜在変数との相互情報量,TC項,次元ごとのKL項に分解

● TC項を提案するbiased Monte-Carloによって近似し,実際にTC項がdisentanglementに関連することを
明らかにした

○ FactorVAEと違い,追加の学習パラメータがない.







Unsupervised Disentanglement Learning

Contents

• Disentanglementの定義



• Unsupervised Disentanglement Learningの限界



• 最新の研究動向概説



• Disentanglementのジャンル分け



• 研究動向別論文紹介



• 有力研究機関、研究者

Challenging Common Assumptions in the Unsupervised Learning of Disentangled
Representations

17
会議 : F. Locatello, S. Bauer, M. Lucic, G. Raetsch, S. Gelly, B. Sch ̈olkopf, and O. Bachem

著者 : ICML2019 (Best paper)



● Disentangled表現を教師なし学習することは,データとモデルの両方に帰納バイアスを持たないと不可
能であると理論的に証明した.

● Disentangled表現の有用性について大規模実験.



● 実験よりわかったことは

○ Disentanglement Learning におけるハイパラはモデルより重要であり,データセット間に共通す
るよいハイパラもなく,さらにGTがないとよいハイパラとわからない.

○ 学習された表現から変動因子を予測する Downstream task で Disentangled表現が有効である
ことを証明することができなかった.

○ Disentanglement Learning においては実験の再現性が重要であり,そのためのプラットフォーム
を提供した.

■ https://github.com/google-research/disentanglement_lib

Unsupervised Disentanglement Learningの限界

Semi-Supervised StyleGAN for Disentanglement Learning

18
会議 : arXiv:2003.03461

著者 : W. Nie, T. Karras, A. Garg, S. Debhath, A. Patney, A. B. Patel, and A. Anandkumar,









● 前述の研究を踏まえて,semi-, weakly-supervised設定の
disentanglementが注目を集めている.

● 高解像度画像に対するDisentanglement,学習困難性,教師な
し設定でのnon-identifiabilityの問題を,少量のラベルを与える
semi-supervised設定のInfoGAN + StyleGAN で解決

● 実験から,0.25 〜 2.5%のラベルで合成とリアルデータセットで良
いDisentanglementを達成できることが明らかになった.





Semi-supervised Disentanglement Learning

Contents

• Disentanglementの定義



• Disentanglementのターニングポイント



• 最新の研究動向概説



• Disentanglementのジャンル分け



• 研究動向別論文紹介



• 有力研究機関、研究者

Disentanglement

20
近年のDisentanglementの傾向



ICLR2020 10/687

NeurIPS2019 12/1428



1つの会議に10本前後はacceptされており、ホットなテーマであること
が伺える



上記の最新の会議の論文より見出されるディスエンタングル

メントの研究の”流れ”が5つ存在した

Disentanglement

21
近年のDisentanglementの傾向



● Explainability





● Unsupervised Disentanglement Metric





● Model Selection





● Applicability to real world dataset





● Applicability to downstream task

Disentanglement

22
近年のDisentanglementの傾向



● Explainability

直感的に解釈可能な因子分解を解釈性へと昇華



● Unsupervised Disentanglement Metric

分解される因子の答え(オラクル)が要らないメトリック



● Model Selection

Disentanglementのモデルセレクション



● Applicability to real world dataset

実世界データへの適用可能性



● Applicability to downstream task

下流タスクへの適用可能性

Disentanglement

23
近年のDisentanglementの傾向



● Explainability

直感的に解釈可能な因子分解を解釈性へと昇華



Disentanglementを深層学習の解釈性として捉えることで、
Fairness (公平性) やDecision Making Process

(意思決定過程)への適用が始まっている

Disentanglement

24
近年のDisentanglementの傾向



● Unsupervised Disentanglement Metric

分解される因子の答え(オラクル)が要らないメトリック



Disentanglementの度合を測るためのメトリックは今まで数多く提
案されてきた 

(e.g. β-VAE metric、Factor VAE metric、SAP、Modularity、DCI
Disentanglement、MIG、etc...)



しかし、どのメトリックもオラクルが分かっていないと計算できな
かった



UnsupervisedのDisentanglementのメトリック

がついに登場



Disentanglement

25
近年のDisentanglementの傾向



● Model Selection

Disentanglementのモデルセレクション



UnsupervisedにDisentanglementを扱うモデル (e.g. β-VAE、
Factor VAE) はハイパラ、アーキテクチャ、seedに敏感でありどの
モデルが有効であるかの判断が非常に難しいので、モデルセレ
クションに関する論文が増加

Disentanglement

26
近年のDisentanglementの傾向



● Applicability to real world dataset

実世界データへの適用可能性



UnsupervisedのDisentanglementは今までdspriteやMNISTなど限
りなくトイに近いデータで実験をしていた



ついに実世界データへの適用可能性を議論する論文が登場

Disentanglement

27
近年のDisentanglementの傾向



● Applicability to downstream task

下流タスクへの適用可能性



下流タスクは何かの要素 (今回の場合はDisentanglement)を用い
て解くようなタスクのことを表す (e.g. クラス分類)



ICML2019のbest paperにおいて、下流タスクについての

言及があってから急速に研究が進みだした

Disentanglement

28
近年のDisentanglementの傾向



● Explainability

直感的に解釈可能な因子分解を解釈性へと昇華



● Unsupervised Disentanglement Metric

分解される因子の答え(オラクル)が要らないメトリック



● Model Selection

Disentanglementのモデルセレクション



● Applicability to real world dataset

実世界データへの適用可能性



● Applicability to downstream task

下流タスクへの適用可能性

Contents

• Disentanglementの定義



• Disentanglementのターニングポイント



• 最新の研究動向概説



• Disentanglementのジャンル分け



• 研究動向別論文紹介



• 有力研究機関、研究者

Disentanglement

30
Disentanglementの種類



Disentanglementの研究の流れからは少し逸れるが、
Disentanglementは研究が進むにつれ、大きく分けて

2つのジャンルに分かれてきている



● Implicit Disentanglement





● Explicit Disentanglement



Disentanglement

31
Disentanglementの種類



● Implicit Disentanglement

最もなじみのある問題設定で、β-VAEなどがこれに当たる



理論的に導いた損失関数を用いて陰に帰納バイアス (inductive
bias) を与えてDisentanglementを促す

Disentanglement

32
Disentanglementの種類



● Explicit Disentanglement

近年急激に増えてきたDisentanglementの設定



明示的な帰納バイアスを与えることによってDisentanglementを促
す

(e.g. 人物画像を姿勢特徴 (Pose) を用いて人物姿勢特徴と人物
固有特徴 (identity) にDisentanglement)

Disentanglement

33
Disentanglementの種類



Disentanglementの研究の流れからは少し逸れるが、
Disentanglementは研究が進むにつれ、大きく分けて

2つのジャンルに分かれてきている



● Implicit Disentanglement





● Explicit Disentanglement





Disentanglementは解釈可能な因子に分解されていればよいという広
い解釈が広まりつつあり、ExplicitなDisentanglementが広く研究され
ている

Contents

• Disentanglementの定義



• Disentanglementのターニングポイント



• 最新の研究動向概説



• Disentanglementのジャンル分け



• 研究動向別論文紹介



• 有力研究機関、研究者

Explainability (Fairness)

35
Disentangling Influence: Using disentangled representations to audit model
predictions



会議:NeurIPS 2019

著者:#Charles_Marx #Richard_Phillips #Sorelle_Friedler #Carlos_Scheidegger
   #Suresh_Venkatasubramanian
Abstract

● 機械学習モデルにおいてどの因子が影響を及ぼしているのかを入力の情報をDisentanglementする
ことで定量的に評価可能にしたdisentangled influence auditsを提案した

Contribution

● 機械学習モデルに与える因子の影響をDisentanglementして定量化可能にした点
成人の収入のデータを用いて性別
や人種などの因子がどう影響を及
ぼしているのかを検証
Explainability (Fairness)

36
On the Fairness of Disentangled Representations



会議:NeurIPS 2019

著者:#Francesco_Locatello #Gabriele_Abbati #Thomas_Rainforth #Stefan_Bauer
   #Bernhard_Schölkopf #Olivier_Bachem
Abstract

● Disentanglementと公平性、下流タスクの精度の関係を調査した論文
● 理論的にベイズ最適化を用いた識別器や、ターゲットの変数とセンシティブな変数が独立している場
合でも不公平性が発生することを示した
● DCI Disentanglement scoreが公平性の向上と相関あり
● 下流タスクの精度がDisentanglementと相関があることを示した
Contribution

● Disentanglementと公平性、下流タスクの精度の関係を調査した点
混ざり合っているセンシティブな因子を
Disentanglementし、公平で
正確なクラス分類器の獲得を目指す
Explainability (Decision Making Process)

37
Disentangled behavioural representations



会議:NeurIPS 2019

著者:#Amir_Dezfouli #Hassan_Ashtiani #Omar_Ghattas #Richard_Nock #Peter_Dayan
   #Cheng_Soon_Ong
Abstract

● 精神疾患患者における意思決定の過程の予測についてdisentanglementした表現を用いて
解釈性を付与させた論文
● 今まではRNNを用いたベースのものが意思決定の予測に有力であったが解釈性がなかったので、
中間的にAEを挟んでDisentanglementしてからRNNの重みを生成することで解釈性を付与させた
Contribution

● 意思決定における予測について解釈性を付与させた点
Disentanglement
した因子を用いてRNNの
パラメータを生成
(Hyper Networkと類似)
Unsupervised Disentanglement Metric

38
Unsupervised Model Selection for Variational Disentangled Representation
Learning



会議:ICLR 2020

著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess
   #Alexander_Lerchner #Irina_Higgins
Abstract

● unsupervisedのdisentanglementのメトリックを初めて提案した(Unsupervised Disentanglement
Ranking; UDR)
● ハイパラ、モデルのチョイス、最終パラメータの予測が可能
● ハイパラ数H、seed数S、別途のseed数Pにおいて、HxSとPでモデルごとにconfusion matrixを作っ
てeq(2)でUDRを算出 (ようするにseedに鈍感であり、相関のなさを測ることでDisentanglementを評
価する)
Contribution
● unsupervisedのdisentanglementのメトリックを初めて提案した点
● ハイパラにロバストな指標を提案した点
● オラクルが必要ないので、実データにも適用可能である点
今度はUnsupervisedのメトリックの戦争が始まるか、、、?
次ページに続く
Unsupervised Disentanglement Metric

39
Unsupervised Model Selection for Variational Disentangled Representation
Learning



会議:ICLR 2020

著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess
   #Alexander_Lerchner #Irina_Higgins
Abstract
● ハイパラ数H、seed数S、別途のseed数Pにおいて、HxSとPでモデルごとにconfusion matrixを作っ
てeq(2)でUDRを算出 (ようするにseedに鈍感であり、相関のなさを測ることでDisentanglementを評
価する) (Rはconfusion matric、aとbはHxSとPのモデル番号)
Unsupervised Disentanglement Metric

40
Unsupervised Model Selection for Variational Disentangled Representation Learning



会議:ICLR 2020

著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess
   #Alexander_Lerchner #Irina_Higgins
余談

● Introの冒頭にある一文が非常に印象的な論文でした



Happy families are all alike;
every unhappy family is unhappy in its own way.
ロシアの文豪レフ・トルストイの著作「アンナ・カレーニナ」の冒頭の一文です
直訳は「幸せな家庭はどれも同じように幸せだが、不幸な家庭はそれぞれの行先で不幸である」
これの一文が指していることは恐らく「うまくDisentanglementできているものはロバストに評価できるが
(幸せな家庭はどれも同じように幸せ)、できていないものはseedに振られたりして悪い方向で安定してない
(不幸な家庭はそれぞれの行先で不幸である)」だと思います
DeepMindのNeuro Science研の論文ですが、とても詩的で一度読んでから論文のインパクト然り冒頭の
一文のインパクト然りでお気に入りの論文の一つです
Model Selection

41
Disentangling Factors of Variations Using Few Labels



会議:ICLR 2020

著者:#Francesco_Locatello #Michael_Tschannen #Stefan_Bauer #Gunnar_Rätsch

   #Bernhard_Schölkopf #Olivier_Bachem
Abstract

● 少数ラベルを使うことで、よりうまくDisentanglementできることを示し、ラベルのノイズにも非常にロ
バストであることを示した
● 少数ラベルをvalidationに使うと、既存のDisentanglementのメトリックを用いてよりよいモデルのセ
レクションを可能にした
(訓練モデル自体はUnsupervised、Semi-Supervised)
Contribution
● ノイズありなしに関わらず少数ラベルがDisentanglementに貢献できることを示した点
● 少数ラベルを用いたvalidationがモデルセレクションを容易にした点
図は論文を読まないと解釈しにくいので、省略
前述のUDRもModel Selectionの文脈としても解釈可能
Appllicability to real world dataset

42
On the Transfer of Inductive Bias from Simulation to the Real World: a New
Disentanglement Dataset



会議:NeurIPS 2019

著者:#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic
   #Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem
   #Bernhard_Schölkopf #Stefan_Bauer
Abstract

● 今までのデータセットは所詮トイプロブレムであったので、実データにおいて7つの因子を含むデータ
セットを収集したMPI3Dを提案した.
● データセットはtoy、realistic、realの3つをそれぞれ100万枚以上集めて、転移性についてなどを調査
した.結論使うデータセットがrealisticだとrealにもうまく適用できる
Contribution
● 実世界3Dデータの画像を初めて提案した点
● 集めたデータで帰納バイアスとデータの転移性を調べた点
次ページに続く
Appllicability to real world dataset

43
On the Transfer of Inductive Bias from Simulation to the Real World: a New
Disentanglement Dataset



会議:NeurIPS 2019

著者:#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic
   #Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem
   #Bernhard_Schölkopf #Stefan_Bauer
7つの因子を保持する
ようにロボットアームを
動かして撮影
MPI3D-hogeが集めたデータセット
各100万枚以上収集
realisticが実データに近いsyntheticな
データ
Appllicability to downstream task

44
Are Disentangled Representations Helpful for Abstract Visual Reasoning?



会議:NeurIPS 2019

著者:#Sjoerd_van_Steenkiste #Francesco_Locatello #Jürgen_Schmidhuber

   #Olivier_Bachem
Abstract

● Disentangled表現は視覚的な推論タスクのようなdown-stream task に本当に有用であるのか?と
いう問いを明らかにするため,与えられた規則性のあるパネルの集合に欠けたパネルはどれかを答
えるような知能テストに似た視覚推論タスクを設計し,大規模実験を行った.
Contribution
● Disentangled表現は down-stream taskの性能を改善し,特に,少量サンプルでより迅速に学習でき
ることがわかった点.
Contents

• Disentanglementの定義



• Disentanglementのターニングポイント



• 最新の研究動向概説



• Disentanglementのジャンル分け



• 研究動向別論文紹介



• 有力研究機関、研究者

有力研究機関、研究者

46
研究機関

● DeepMind



● ETH Zuritch





研究者 (敬称略)

● Irina Higgins



● Francesco Locatello

有力研究機関

47
DeepMind (ICLR 2020, NeurIPS 2019に1本)









言わずと知れた超エリートAI研究者集団



Disentanglementブームの火付け役として貢献した

β-VAEの生みの親であるIrina Higginsの所属するNeuro Science研
がDisentanglementにおいて躍進していた



2019年、2020年はICLR、NeurIPSにおいてDisentanglementの採択本
数が1本であるが、Disentanglementの歴史を振り返る上では欠かせ
ない研究機関



DeepMind Logo, “https://ja.wikipedia.org/wiki/DeepMind” 

有力研究機関

48
ETH Zuritch (ICLR 2020, NeurIPS 2019に5本)









スイス連邦工科大学チューリッヒ校

世界有数の工科大学であり、2020年世界大学ランキングでは

同率13位の超名門校



ICLR、NeurIPS、ICML、AISTATSに毎年通してるモンスターPh.Dの
Francesco Locatelloの所属校



Disentanglementにおいては、ETHZとMax Planck Institute、Google
Brainの共同論文が猛威を振るっている



ETH zurich logo, “https://ja.wikipedia.org/wiki/チューリッヒ工科大学” 

有力研究者

49
Irina Higgins

DeepMind Neuro Science Lab

Senior Research Scientist





β-VAEの生みの親であり、Disentanglementの立役者



Higginsが共著に入っている論文は良論文ばかりなので、是非

チェックしたほうがよい



2018年以降はDisentanglementよりも、object-centric representation
learningのほうに力を入れているように見える





Irina Higgins picture, “ https://digital-anthropology.me/2017/02/27/new-scientist-artificial-intelligence-
day-session-one-the-mainstream-irina-higgins/”



有力研究者

50
Francesco Locatello

(ICLR 2020, NeurIPS 2019に4本(!?ww))

(内2本がFirst Author、1本がSecond、1本が4th)

(ICML 2019 best paper!!)



近年のDisentanglement研究で最もアツい研究者



特に大きなターニングポイントは、帰納バイアスなしには
Disentanglementは不可能ということを理論的に示した点



2016年に修士を修了し、2020年現在ではPh.Dを取得している

Google BrainのOlivier Bachemと共著の論文がほとんどであり

就職先はGoogle Brainか!?



Francesco Locatello picture, “https://ethz.ch/en/the-eth-zurich/portrait/aktuelle-ehrungen-und- 

preise/2019/04/francesco-locatello-receives-google-phd-fellowship.html” 



著者紹介

51
綱島 秀樹
● Twitter:https://twitter.com/maguroIsland
● 所属:早稲田大学 森島繁生研究室 D1
 研究領域
● Distillation
● Generative models
 興味
● Disentanglement
● Object-aware representation learning
● Persistent Homologylogy
 趣味
● 筋トレ,音楽ゲーム,読書,アメフト
 一言
● コロナのせいで毎日筋トレしててどんどんデカくなる
 研究領域
● Semantic Segmentation
● Anomaly Detection
● Image Synthesis,Novel View Synthesis
● Disentanglement Learning
著者紹介

52
相澤 宏旭(あいざわ ひろあき)
● Twitter:https://twitter.com/aizw_h
● GitHub:https://github.com/aizawan
● HP:https://aizawan.github.io/
● 所属:岐阜大学加藤研究室 D3
Appendices (綱島が個人的に面白いと思った論文紹介)

53
Counterfactuals uncover the modular structure of deep generative models
(disentanglementを扱っている)



会議:ICLR 2020

著者:#Michel_Besserve #Arash_Mehrjou #Rémy_Sun #Bernhard_Schölkopf
Abstract

● 教師無し深層生成モデルのモジュラリティを探索する手法を提案し、意味的に整合性の取れたモー
フィング(外挿)を可能にした
● モジュラリティとはネットワーク(NNのことではない)の質を定量化するものであり、深層生成モデルに
おいての質とは"解釈性"と"外挿"としている。
Contribution
● 深層生成モデルにおける解釈性を探索でき、それを基に外挿可能なフレームワークを提案した点
左図はダチョウの姿勢を維持した
上での鶏のidentityの転移
右図はテディベア属性にコアラの
identityを転移(上図怖い)
Appendices (綱島が個人的に面白いと思った論文紹介)

54
Disentanglement by Nonlinear ICA with General Incompressible-flow Networks
(GIN)



会議:ICLR 2020

著者:#Peter_Sorrenson #Carsten_Rother #Ullrich_Köthe
Abstract

● Independent Component Analysis (ICA) を非線形に拡張したNonlinear ICAをFlowベースの生成
モデルに適用したことで、因子ごとのデータ構造を分解可能にするGeneral Incompressible-flow
Network (GIN)を提案
Contribution
● データの本質的な分解すべき因子の次元(Flowなので次元が1to1)を獲得できるネットワークを提案
した点
何がすごいってデータの本質的な分解
すべき因子の次元を獲得できるという点
Flowのdisentanglementの文脈は珍しいの
で、かなり新鮮だった
個人的にはブレイクスルーの予感
Appendices (綱島が個人的に面白いと思った論文紹介)

55
Learning Disentangled Representations for Recommendation



会議:NeurIPS 2019

著者:#Jianxin_Ma #Chang_Zhou #Peng_Cui #Hongxia_Yang #Wenwu_Zhu
Abstract

● 推薦システムにおいて、ユーザの行動で大きく変化を及ぼすMacroと小さい変化を及ぼすMicroの因
子にDisentanglementして推薦システムを構築するMACRo-mIcro Disentangled VAE
(MacridVAE)を提案
Contribution
● Disentanglementを用いて解釈性を得た推薦システムを提案した点
マクロとミクロの因子にdisentangleという
点が非常に面白い
この発想はかなり使えそう?
Appendices (ICLR, NeurIPSの今回紹介してない論文)

56
PROGRESSIVE LEARNING AND DISENTANGLEMENT OF HIERARCHICAL
REPRESENTATIONS



会議:ICLR 2020

著者:#Zhiyuan_Li #Jaideep_Vitthal_Murkute, #Prashnna_Kumar_Gyawali

   #Linwei_Wang
Abstract

● VAEの潜在変数zの推論部分をprogressiveに増やすことで、よりDisentanglementできるようにした
pro-VLAEを提案した。
● MIGは潜在変数間における相互情報量のギャップでDisentanglementを測っていたが、同次元の潜
在変数内でエンタングルメントを起こしているかどうかは測れなかった。そこで、同次元の潜在変数内
のDisentanglementを測れる新しいDisentanglementのメトリックであるMIG-supを提案した。
Contribution
● シンプルな段階的拡張によるDisentanglementの手法を提案した点
● MIGよりもロバストなDisentanglementのメトリックを提案した点
Disentanglementで唯一のspotlight論文
シンプルながら強力な手法
Appendices (ICLR, NeurIPSの今回紹介してない論文)

57
Demystifying Inter-Class Disentanglement



会議:ICLR 2020

著者:#Aviv_Gabbay #Yedid_Hoshen
Abstract

● 画像はコンテンツ情報(画像特有の情報) とクラス情報に分かれると仮定して、二つが完全に分離す
るようにして訓練するLatent Optimization for Representation Disentanglement (LORD) を提案
し、SOTA
● 推論時や未知のクラスが新しく来た時にどこかに無理やり落とそうとするとエンタングルした表現にな
るので、上記の1st stageとクラスとコンテンツを推定する2nd stageを作ることで出来る限り汎化させ
たDisentanglementされた表現を獲得させている
Contribution
● 画像をDisentanglementするにはスタイルとコンテンツに分けるのではなく、
コンテンツとクラスに分離することが有効であると示した点
● 二つの画像を組み合わせた生成における品質でSOTA (StyleGAN的な)
正直視覚的な結果は微妙
(優れているのかが一目でわからない)
(図に改善の余地があったのでは、、、)
Appendices (ICLR, NeurIPSの今回紹介してない論文)

58
Weakly Supervised Disentanglement with Guarantees



会議:ICLR 2020

著者:#Rui_Shu #Yining_Chen #Abhishek_Kumar #Stefano_Ermon #Ben_Poole
Abstract

● 弱教師ありの生成モデルにおける理論的なDisentanglementの度合の測り方を提案
● 弱教師ありの生成モデルにおいてDisentanglementを保証できるようにした
● extended spaceにおける弱教師あり学習の分布マッチングを定式化
Contribution
● 弱教師ありの生成モデルにおいて理論的にDisentanglementを計算できるようにした点
DisentanglementとConsistencyとRestrictivenessの
図解がわかりやすくて印象的
Appendices (ICLR, NeurIPSの今回紹介してない論文)

59
Explicit Disentanglement of Appearance and Perspective in Generative Models



会議:NeurIPS 2019

著者:#Nicki_Skafte #Søren_Hauberg
Abstract

● Spatial TransformerとVAEをくっつけたVariationally Inferred Transformational Autoencoder
(VITAE)を提案し、画像をappearanceとperspective (ようするに変化具合とコンテンツ)に分解する
ことでトイデータでない実データにおいてDIC-metricでSOTA。
Contribution
● appearanceとperspectiveに分ける帰納バイアスを与えることで、ディスエンタングルメントの性能
向上ができることを示した点
いわゆるExplicitなディスエンタングルメントの1つ
Appendices (ICLR, NeurIPSの今回紹介してない論文)

60
Multi-mapping Image-to-Image Translation via Learning Disentanglement



会議:NeurIPS 2019

著者:#Xiaoming_Yu #Yuanqi_Chen #Shan_Liu #Thomas_Li #Ge_Li
Abstract

● マルチドメインだけでなく、マルチモーダルな生成をも可能にしたDMIT (Disentanglement for
Multi-mapping Image-to-Image Translation) を提案した
● コンテンツ、スタイルだけじゃなくてドメインラベルを出力するエンコーダーも追加し、スタイルには
DRITのようにKLDを取ってディスエンタングルメントを促している
Contribution
● マルチドメインだけでなくマルチモーダルな生成を可能にした点
● マルチドメイン、マルチモーダル、テキストによるSematic Image SynthesisでSOTA
でっかい図がないとわからないので、次ページに図
Appendices (ICLR, NeurIPSの今回紹介してない論文)

61
Multi-mapping Image-to-Image Translation via Learning Disentanglement



会議:NeurIPS 2019

著者:#Xiaoming_Yu #Yuanqi_Chen #Shan_Liu #Thomas_Li #Ge_Li
●
Appendices (ICLR, NeurIPSの今回紹介してない論文)

62
Flow-based Image-to-Image Translation with Feature Disentanglement



会議:NeurIPS 2019

著者:#Ruho_Kondo #Keisuke_Kawano #Satoshi_Koide #Takuro_Kutsuna
Abstract

● Flow-based generative modelにおいて、初のIm2Imとディスエンタングルメントを取り入れたFlow
U-Net with Squeeze modules (FUNS) を提案した
● CelebAとCHCのIm2ImにてSOTA
● Squeeze Moduleがディスエンタングルメントのキモ
Contribution
● 変分モデルにおいてSOTA
● Flow-basedでディスエンタングルメントを提案した点
なじみのない問題設定であまりうまく理解できて
ないです、、、
Toyota Central R&D Labなのが印象的だった
唯一Disentanglementにおいて日本人の論文
Appendices (ICLR, NeurIPSの今回紹介してない論文)

63
Symmetry-Based Disentangled Representation Learning requires Interaction with
Environments



会議:NeurIPS 2019

著者:#Hugo_Caselles-Dupré #Michael_Garcia_Ortiz #David_Filliat
Abstract

● 既存研究であるSymmetry-Based Disentangled Representation Learning (SBDRL) は静的な
観測だけでは成り立たず、エージェントによるインタラクションが必須であると理論的、実験的に示し
た論文
● 環境とのインタラクションでのLinear SB-disentangled representaionとnon-linear
SB-disentangled representationの学習を提案した
● SB-disentangledが下流のタスクに有効であることを示した
Contribution
● SBDRLにおいてインタラクションが必須であることを示した点
● SB-disentangledが下流のタスクに有効であることを示した点
SBDRLを読まないと理解不可能
合わせて読まなくてはいけません
Appendices (ICLR, NeurIPSの今回紹介してない論文)

64
Learning Disentangled Representation for Robust Person Re-identification



会議:NeurIPS 2019

著者:#Chanho_Eom #Bumsub_Ham
Abstract

● person re-identification (reID)にて、人物のidentityに関係する特徴と関係しない特徴に
DisentanglementしてRecall@1やmAPでSOTAのIdentity Shuffle GAN (IS-GAN)を提案
● ディスエンタングルメントするためにidentity-relatedな情報は訓練中にswapしたり、ランダムにベク
トルを分解して交換する処理を行ってる
Contribution
● reIDのRecall@1やmAPなどでSOTAな点
● identification label以外は用いていない点(Poseなど使ってない)
● identity-unrelatedとidentity-relatedに分離する発想が有効であることを示した点
reIDにおいてはDisentanglementは非常に流行っている
Appendices (ICLR, NeurIPSの今回紹介してない論文)

65
Explicitly disentangling image content from translation and rotation with
spatial-VAE



会議:NeurIPS 2019

著者:#Tristan_Bepler #Ellen_Zhong #Kotaro_Kelley #Edward_Brignole

   #Bonnie_Berger
Abstract

● 回転や平行移動に不変になるSpatial-VAEを提案した
● 回転角度や平行移動を自己教師ありのアプローチで解くことで回転、平行移動不変性を獲得した
● 星やタンパク質は回転、平行移動してるとわけわかんないからそれを解決
Contribution
● 回転、平行移動に不変な特徴をディスエンタングルメント可能なモデルを提案した点
星とタンパク質のデータセットを使っており、
初めてみる方向性だったので、
非常に印象的だった
Biology Centerの人もいて納得
恐らく他の著者は宇宙系か?
論文紹介

Image-to-Image translation

Image-to-Image Translation

67
● 条件となる画像 (e.g., ラベル/線画/グレースケール) から画像へ変換

するタスク

○ 教師あり/なしの手法が提案されてきている

● (a)物体から物体の変換(Object-to-Object)と

(b)セグメントラベルからの画像変換(Mask-to-Image)に焦点を当てて紹介

(a)
 (b)

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
(CycleGAN)

68
会議 : ICCV2017
著者 : Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros
[Abst]
・ペアの訓練データがない場合の画像変換を行った
・逆写像とCycle-conistency Lossを用いて元画像を復元できるように学習させた
[Results]
・色やテクスチャに関する変換は成功した
・形状変化を伴う変換はうまくいかなかった
(a)
https://arxiv.org/abs/1703.10593

DualGAN: Unsupervised Dual Learning for Image-to-Image Translation 

69
会議 : ICCV2017
著者 : Zili Yi, Hao Zhang, Ping Tan, and Minglun Gong
[Abst]
・2つのドメインのラベル付けされていない2つのセットから画像変換を学習できるようにした
・既存のGANはドメイン→ドメインへの変換を学習、Dual GANはドメイン⇄ドメインを学習するようにした
[Results]
・他のGANの出力よりも鮮明な変換ができた
・アーキテクチャは基本的にCycleGANと同じ(CycleGANの方が論文投稿が先)
(a)
https://arxiv.org/abs/1704.02510
Unsupervised Image-to-Image Translation Networks 

70
会議 : NIPS2017
著者 : Ming-Yu Liu, Thomas Breuel, Jan Kautz
[Abst]
・潜在空間が共通するという仮定のもとに教師なしimage-to-imageのフレームワークを提案
・VAEとCoupled GANを組み合わせたアーキテクチャでドメイン毎にEncoder, Generator, Discriminator
がある
[Results]
・複数のデータセットで画像変換を実行できた
・鞍点探索の問題により学習が不安定になる場合がある
(a)https://arxiv.org/abs/1703.00848

TuiGAN: Learning Versatile Image-to-Image Translation with Two
Unpaired Images

71
会議 : arXiv2020
著者 : Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, Jiebo Luo
[Abst]
・UI2Iを2つのUnpairな画像のみで可能にした
・ドメイン間の分布の変化を効果的にキャプチャするためにSinGANのように粗い画像から
細かい画像へと段階的に変換する手法を採用
[Results]
・CycleGANよりは良い結果が得られていないような記述
・極めてデータが少ないケースの教師なし学習のきっかけになりそう
(a)
https://arxiv.org/abs/2004.04634

StarGAN
72
会議 : CVPR18

著者 : Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo



● CycleGANでは1:1ドメイン間での変換しかできなかったが,条件付きベクトルを用いた生成期とAuxiliary
Classifierを用いた識別器を用いることで1:n変換を実現した







https://arxiv.org/abs/1711.09020
(a)
GANimation
73
会議 : ECCV18

著者 : Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer



● StarGANでは1:nドメイン間での離散的な属性変換という制限があったが,目標属性までの変換を連続
的に行うために表情のAttentionを示すAction Unitsを導入し,連続的な1:n変換を可能にした







https://arxiv.org/abs/1807.09251
(a)
MUNIT
74
会議 : ECCV18

著者 : Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz



● CycleGANやStarGANは生成器が変換先ドメインでの多様な表現をすることが不可能であった問題を
解決するために,形状(Contents)と見た目(Style)を分離させる手法を提案

Style特徴量を基にAdaINを用いたパラメータ調整をすることで高品質な変換を実現







https://arxiv.org/abs/1804.04732
(a)
会議 : ICCV19

著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz



● MUNITではあるドメイン内でのContentとStyleの分離であったが,Contentと各ドメインのStyleの分離を
行い,AdaINを用いたドメイン毎のStyle特徴量を上手く学習する方法を提案







FUNIT
75
https://arxiv.org/abs/1905.01723
(a)
会議 : ICCV19

著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz

● ドメイン間の連続的な変化を実現させるために,条件付き信号の重みを変えても滑らかな

補完をするような損失関数を提案した

RelGAN
76
https://arxiv.org/abs/1908.07269
(a)
StarGANv2
77
https://arxiv.org/abs/1912.01865
会議 : CVPR20

著者 : Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha



● FUNITのように分離をするが,各ネットワークの出力をドメイン毎に異なるFC層を用いて条件付き信号
を用いてどの層を使うかを選択する工夫がされている.

● 定量評価のスコアがかなり上昇している







(a)
従来では解決されていない問題点が徐々に解決されつつある

● CycleGAN[ICCV17].Pix2Pix[CVPR17]で1:1ドメイン間の変換が提案された

● StarGAN[CVPR18]で1:nドメイン間の変換が提案された

● MUNIT[ECCV18]で1:1ドメイン間の変換だが,変換先を操作できるような機構が提案された

● FUNIT[ICCV19]でStarGANより多クラス間の参照画像を用いた変換が提案された

● RelGAN[ICCV19]でより補完性の高いドメイン間の変換が提案された

● StarGANv2[CVPR20]で従来より圧倒的に綺麗な参照画像を用いた変換が提案された



(a)物体変換の発展
78
● 実験に使用されるデータセットはCelebAの人の顔や動物の顔でしか行われ
ていない問題

● 実際にデモを動かしてみるとうまくいかないサンプルなどの存在

● 学習時間が長すぎる問題

● まだまだ取り組める課題は多い

● 画像生成モデルであるStyleGANを上手に利用した研究との融合



(a)
Pix2pix

79
会議 : CVPR 2017

著者 : Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros



● 様々なimage-to-image translationタスクに適応可能な手法を提案

● 性能も良い

● 従来と異なり入力と生成画像(or 正解画像)のペアを識別器に入力し真偽を判定

https://arxiv.org/pdf/1611.07004.pdf
(b)
BicycleGAN

80
会議 : NeurlPS 2017

著者 : Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman



● 1入力多出力を可能にする手法を提案

○ pix2pixにノイズを入れても無視されてしまう

● BicycleGANではノイズが無視されないような工夫を行なっている

○ 潜在回帰損失など

https://arxiv.org/pdf/1711.11586.pdf
(b)
Cascaded Refinement Networks

81
会議 : ICCV 2017

著者 : Qifeng Chen, Vladlen Koltun



● 敵対的訓練を用いずにセグメントラベルから画像を生成する手法を提案

● 下図のモジュールを段階的に積み上げ画像を生成する

○ このモジュールはセグメントラベルと前段のモジュールの出力を受け取る

https://arxiv.org/pdf/1707.09405v1.pdf
(b)
Pix2pixHD

82
会議 : CVPR 2018

著者 : Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jun Kautz, Bryan Catanzaro



● セグメントラベルから高解像度(2048 x 1024)な画像を生成する手法を提案

● coarse-to-fineな生成器を設計することで高解像度化を実現

● 他にもboundary mapを用いた,より写実的な画像の生成なども行っている

https://arxiv.org/pdf/1711.11585.pdf
(b)
SIMS

83
会議 : CVPR 2018

著者 : Xiaojuan Qi, Qifeng Chen, Jiaya Jia, Vladlen Koltun



● 訓練データセットにおける画像の構成要素をメモリバンクMに保存しておき,テストセグメントラベルでは
Mから構成要素を取り出し画像を生成する手法を提案

● Mだけでは埋められない領域をfに入力して最終的な結果を得る

https://arxiv.org/pdf/1804.10992v1.pdf
(b)
GauGAN

84
会議 : CVPR 2019

著者 : Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu



● 画像生成のための新しい正規化手法(SPADE)を提案

○ SPADE : SPatially-Adaptive DEnormalization

○ 従来手法より意味情報を保持できる

● AdaINのγとβを特徴マップの要素ごとに求めている

○ γとβは畳み込み層で求める

○ 空間的・意味的な変換を施すことができる

https://arxiv.org/pdf/1903.07291.pdf
(b)
CLADE

85
会議 : arXiv 2020

著者 : Zhentao Tan, Dongdong Chen, Qi Chu, Menglei Chai, Jing Liao, Mingming He, Lu Yuan, Nenghai Yu



● SPADEの利点はspatial-adaptivenessよりもsemantic-awarenessであること観察

○ 右図上ではクラスごとにγとβが変わっているが,空間的には変わらないことがわかる

● SPADEの計算量を削減しつつ同程度の性能を持つ正規化手法(CLADE)を提案

○ CLADE : CLass-Adaptive DEnormalization

● CLADEではクラスごとにγとβを用意し直接最適化する

○ spatial-adaptivenessは考えない

https://arxiv.org/pdf/2004.02867.pdf
(b)
メタサーベイ

86
(b)セグメントラベルからの画像生成タスクにおける強強研究機関





● UC Berkeley

○ pix2pix, BicycleGAN, pix2pixHD, GauGAN

○ Jun-Yan Zhuさんがどの研究にも名前が載っててヤバイ(語彙力)

● NVIDIA

○ pix2pixHD, GauGAN

○ Ming-Yu LiuさんとTing-Chun Wangさんもヤバイ()

● Intel

○ Cascaded Refinement Networks, SIMS





Jun-Yan Zhuさん Ming-Yu Liuさん Ting-Chun Wangさん
(b)
メタサーベイ

87
(b)セグメントラベルからの画像生成タスクに関する主観的感想





● 生成器の設計系研究から正規化モジュールの設計にシフトしそう

○ 生成器の設計もあまり凝っていないのでまだ掘れそう

● 教師あり手法よりなし手法の方が勢いがある

○ データセットへの制約が緩いため?

● 生成画像の応用はあまり研究されていない印象.次の2つは個人的有力候補

○ image manipulation(純粋な方法はpix2pixHDでされているので工夫が必要)

○ データ拡張(設定を上手く練ればsem.seg.のデータ拡張として使えそう)



(b)
研究機関

88
Microsoft Research Asia (中国, 北京)
 ・Microsoft Researchのアジア支部
  ・アメリカ国外における最大の研究所
 ・北京大学や清華大学の卒業生が研究者として多く在籍
  ・学生との連携、教育も積極的に行っている
 ・CVPR2020, ICLR2020等に論文を投稿
注目研究者

89
Ming-Yu Liu (NVIDIA)
・Image-to-Imageといえばという研究者
 ・前述のセグメントラベルからの画像変換だけでなく
  Image-to-Image分野全体の功績が凄い
・NVIDIAの莫大な計算リソースが武器
 ・Few-Shot Unsupervised Image-to-Image
  TranslationはTesla V100 32GB × 8台使用し実験を行った
・論文
・High-Resolution Image Synthesis and Semantic Manipulation with
Conditional GANs(CVPR2018)
 ・Few-Shot Unsupervised Image-to-Image Translation(ICCV2019)
https://research.nvidia.com/person/mingyu-liu

 研究領域
● GANによるデータ拡張,Image-to-Image,Domain Adaption
 今年の目標
● 筑波大学院合格
● 論文をできるだけ読む
 好きな音楽ジャンル
● JAZZ(特にBig band),Vocaloid

 一言
● もっと専門的に物事を捉えられるように勉強します!!



著者紹介

90
星 将仁(ほしまさひと)
● Twitter:https://twitter.com/Masa_m_0413
● 所属:茨城工業高専 専攻科2年 情報工学コース
● 茨城県那珂市出身
● 小学生:ドラム,中学生:吹奏楽,高校:吹奏楽
● 自粛期間中にダーツの腕前をメキメキとあげています
● Twitter:https://twitter.com/kodai_nakashima
● 所属:産総研テクニカルスタッフ
 研究領域
● GANの応用
 今年の興味
● GAN,Semantic Segmentation,Domain Adaptation
 目標
● 博士課程への進学
● 人間性を捧げる
● ADステータスの解除

著者紹介

91
中嶋 航大(なかしま こうだい)
 研究領域
● Image-to-Image Translation
● Image Generation
● Weakly Supervised Instance Segmentation
● Twitter:https://twitter.com/udoooom
● 所属:東大 相澤山崎松井研 M1
著者紹介

92
堀田 大地(ほりた だいち)
論文紹介

Image Manipulation

画像編集
94
=実画像を条件(e.g., 画像/ユーザ入力/ラベル)に基づいて変換し画像生成



ここから紹介するのは「教師ペアデータを集めるのが大変な編集タスクにどう取り組
むか?」という課題に対して

- StyleGAN/BigGAN等の高解像度・高品質画像生成モデルの活かし方

- 複数の画像編集タスクを単一フレームワークにどう組み込むか

に着目した研究

A Style-Based Generator Architecture

for Generative Adversarial Networks

95
会議 : CVPR2019

著者 : Tero Karras, Samuli Laine, Timo Aila

● いわゆるStyleGAN (v2も出ました)

● GANによる高解像度な画像生成のためのネットワークと様々なテクニックの提案

● 潜在表現zはMLPで中間表現に変換した後にAdaIN(style transferでよく使う)で繰り返し印
加

● 高解像度かつ高品質な顔画像データセットFFHQの構築

Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space?
会議 : ICCV2019

著者 : Rameen Abdal, Yipeng Qin, Peter Wonka



● 提案: StyleGANの中間表現Wを各層に複製したW′を誤差逆伝播で変化させ,StyleGAN
に入れた時クエリ画像に最も近い画像を生成するW′ を発見

● 応用: 任意の2画像からW′を抽出し,morphing/expression transferなど

● 後続研究: In-Domain GAN Inversion for Real Image Editing (CVPR2020)



上: 入力,下: 埋め込み morphing expression transfer
Image2StyleGAN++: How to Edit the Embedded Images?
97
会議 : CVPR2020

著者 : Rameen Abdal, Yipeng Qin, Peter Wonka



● 提案1: W′を最適化→StyleGANのもう一つの入力であるノイズも最適化することで,より
精細なクエリ画像のStyleGANへの埋め込みを実現

● 提案2: 損失関数, マスク入力の有無等を変えて最適化するだけで,reconstruction,
inpainting, crossover, sketch/scribble edit 等を実現

Inpainting Crossover
sketch/scribble
edit
StyleRig: Rigging StyleGAN for 3D Control over Portrait Images
98
会議 : CVPR2020

著者 : Ayush Tewari, Mohamed Elgharib, Gaurav Bharaj, Florian Bernard, Hans-Peter Seidel,
Patrick Perez, Michael Zollhofer, Christian Theobalt



● StyleGANは高解像度画像生成するが,望みの形質だけを変更する編集は難しい

● 各種パラメタを陽に持つ3DMMモデルとstyleganの潜在表現の対応を発見し実現

GANSpace: Discovering Interpretable GAN Controls
99
会議 : arXiv2020

著者 : Erik Härkönen , Aaron Hertzmann , Jaakko Lehtinen, Sylvain Paris



● 生成モデルのlatent vector(高次元)にある特徴を加える方向ベクトルを発見する

● 既存研究は発見したい特徴に関する何らかの教師情報が必要だった

● PCAで低次元に特徴を落とすと,人とinteractionして簡単に見つけられる

Deep Image Prior
100
会議 : CVPR2018

著者 : Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky

● 単一の欠損(e.g., ノイズ・穴)画像だけを入力にCNNの最適化で元画像を復元

● 自然な画像を生成するためのpriorを大量の画像群から学習するアプローチが主流である
中,CNNの構造自体も重要なpriorであることを示唆

SinGAN: Learning a Generative Model
From a Single Natural Image
101
会議 : ICCV2019 (best paper) 

著者 : Tamar Rott Shaham, Tali Dekel, Tomer Michaeli



● 単一画像から生成モデル学習, G/Dを階層的に積み重ねて,学習につかった単一画像と
パッチレベルの分布は一緒だが構造が違う新画像を生成

● 階層構造を利用して,super-resolution, harmonization, animation, editingなどを実現

Structural-analogy from a Single Image Pair
102
会議 : arXiv2020

著者 : Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen-Or, Lior Wolf


● 画像ペア一対だけから生成モデル学習 (SinGANのim2im向け拡張)

● 画像A/Bに対して,Bの見た目とAの構造を保持した画像を生成するモデルを実現

Semantic Pyramid for Image Generation
103
会議 : CVPR2020

著者 : Assaf Shocher, Yossi Gandelsman, Inbar Mosseri, Michal Yarom, Michal Irani, William
T. Freeman, Tali Dekel



● 学習済みの分類器を使って様々な階層の特徴抽出,そのうち生成器の条件付けとして渡
す階層を限定することで,入力画像に対し様々なレベルの`類似`画像を生成するモデル
の実現

● 空間的なマスクによる条件付けと組み合わせる事で多様な画像編集タスクを実現 (e.g.,
composition, semantic re-labeling, sketch-to-photo)

画像編集のまとめ
104
- 教師ペアが自明に集まるタスクは生成の質・設定がやや飽和してきた?

例) label2image, image inpainting, sketch/scribble-based editing



- feed-forward型のsingle-task NNに落とし込むだけでなく,応用の用途と要求さ
れる質・速度に応じたアプローチが求められる段階か?

例1) StyleGANへの画像埋め込み: 遅いが高品質

例2) multi-task系: 質は少し劣るが汎用性が非常に高い



● Twitter:https://twitter.com/naoto_inoue_
● 所属:東大 相澤山崎松井研 D3
 研究領域
● content creationに向けた画像生成の応用
● Image Editing
● Image Generation
 今年の目標
● インパクトのある仕事をする

 (宣伝)過去の研究
● 物体検出におけるdomain adaptation (CVPR2018) https://arxiv.org/abs/1803.11365
● 単一写真からの線画生成 (PacificGraphics2019)
著者紹介

105
井上 直人(いのうえ なおと)
論文紹介

Latent Space of GANs

Walking in the GAN Latent Space

107
GANは潜在空間上の2点間の滑らかな内挿が可能

この性質を使うことで,

GANの解釈性の改善とGANの制御性の検証ができる



このトピックでは

特定の画像変換に対応する潜在空間上の方向を

- 教師ありで [Goetschalckx+ 2019]

- 自己教師で [Jahanian+ 2020], [Plumerault+ 2020]

- 教師なしで [Voynov+ 2020]

発見する手法を調査



Ganalyze: Toward visual definitions of cognitive image properties

108
会議 : ICCV2019

著者 : L. Goetschalckx, A. Andonian, A. Oliva, and P. Isola



● 記憶に残りやすい or 残りにくいイメージはどのように見えるか?また記憶性をもたらす視覚的特
性とは?をテーマに,BigGANが学習した潜在空間上を,MemoryNetを使って評価される方向へ誘
導することで視覚的特性を可視化した.





Fig. 4. より抜粋.右に行くほど記憶に残りやすい
On the ”steerability” of generative adversarial networks

109
会議 : ICLR2020

著者 : A. Jahanian, L. Chai, and P. Isola



● self-supervisedな画像変換を施した画像をもとに得られるGANの潜在空間を操舵する方向から
,GANの潜在空間を操縦することで基本的な視覚的な変換がどの程度達成されるかを検証.





生成された画像 G(z) と編集した edit(G(z), α) を最小化する αw を探す.
対象をフレームアウトさせるような変換はできない →
Dataset bias をGANが反映
Controlling generative models 

with continuous factors of variations

110
会議 : ICLR2020

著者 : A. Plumerault, H. L. Borgne, and C. Hudelot



● 生成モデルの潜在空間上から,物体の位置やスケールなどの特性を制御可能にする方向を見つ
ける方法を提案.GANalyze や GAN Steerability との違いは,

○ Gが再現不可能な高周波数画像成分を低減する再構成誤差

○ 潜在空間の軌跡の候補を再帰的に生成した後,方向を決定するモデルを学習

○ Saliency detectionによる定量評価





Unsupervised discovery of interpretable directions

in the gan latent space

111
会議 : arXiv:2002.03754

著者 : A. Voynov and A. Babenko



● R を生成画像ペアから潜在空間上での方向を予測するように訓練することにより,GANの潜在空
間上での人間が解釈可能な画像変換に対応する方向をunsupervised に発見





生成画像と方向に沿って移動した生成画像を受け取り,
Rはその方向を予測する. Gは固定し,AとRを学習する.
 研究領域
● Semantic Segmentation
● Anomaly Detection
● Image Synthesis,Novel View Synthesis
● Disentanglement Learning
 
著者紹介

112
相澤 宏旭(あいざわ ひろあき)
● Twitter:https://twitter.com/aizw_h
● GitHub:https://github.com/aizawan
● HP:https://aizawan.github.io/
● 所属:岐阜大学加藤研究室 D3
Generative Models Meta Survey

113
Thank you for attention!


More Related Content

Generative Models(メタサーベイ )

  • 2. Agenda
 • Disentanglement
  
 • Image-to-Image Translation
 – Object-to-Object
 – Mask-to-Image
 
 • Image Manipulation
 
 • Latent Space of GANs

  • 5. Contents
 • Disentanglementの定義
 
 • Unsupervised Disentanglement Learningの限界
 
 • 最新の研究動向概説
 
 • Disentanglementのジャンル分け
 
 • 研究動向別論文紹介
 
 • 有力研究機関、研究者

  • 6. 表現学習
 6 表現学習 (Representation Learning) の目的
 
 “ 分類器や他の予測器を構築する際に有用な情報を
               容易に抽出できるようにする” 
 観測 x の有用な変換 r(x) を見つけること.
 
 
 その中でも,Disentangled Representation は,
 表現 r(x) 中の一つの因子の変化が,ある1つの変動の変化に
 つながるような,データ中の変動因子を分解した表現である.
 
 
 
 
 

  • 9. Disentanglement
 変動因子と表現が1対1に対応するような
 Disentangled表現が得られると嬉しい理由
 
 不変性: 変動因子と表現は1対1に対応するので,他の因子の 変動やノイズにロバスト
 
 転移性: 表現は互いに影響しないので他のDownstreamタスク への転移が容易
 
 解釈性: データの変動と表現を照らし合わせることで表現に意 味を与えられる.解釈性は公平性も共にもたらす.

  • 10. Disentanglement
 これまでの主要研究のおさらい
 - β-VAE
 - AnnealedVAE
 - FactorVAE
 - β-TCVAE
 - InfoGAN
 
 
 詳しい説明は以下を参照
 https://www.slideshare.net/HidekiTsunashima/disentanglement-surv eycan-you-explain-how-much-are-generative-models-disentangled

  • 11. Unsupervised Disentanglement Learning
 11 会議 : ICLR2017
 著者 : I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mo-hamed, and A. Lerchner
 
 ● VAEの目的関数中の潜在次元のキャパシティと再構成能力をバランス調整するHyperparameter β を VAEに拡張.
 ○ β=1のとき,通常のVAE.
 ○ βが大きいほど,潜在空間が正規分布に従うことを強制 = Disentanglementの促進.
 
 beta-VAE: Learning Basic Visual Concepts 
 with a Constrained Variational Framework

  • 12. InfoGAN: Interpretable Representation Learning
 by Information Maximizing Generative Adversarial Nets
 12 会議 : NIPS2016
 著者 : X. Chen, Y. Duan, R. Houthooft, J. Schulman, I. Sutskever, and P. Abbeel
 
 ● 二変数の依存関係を測る相互情報量を最大化することでDisentanglementするInfoGANを提案
 ○ これにより,潜在コード C がノイズ Z と独立する
 ● Cで制御可能な回転などの変動因子が獲得されたことを報告
 Unsupervised Disentanglement Learning

  • 13. Understanding disentangling in β-VAE
 13 会議 : NIPS2017 Workshops
 著者 : C. P. Burgess, I. Higgins, A. Pal, L. Matthey, N. Watters, G. Desjardins,and A. Lerchner
 
 ● β-VAEにはより良いDisentanglementのためには,再構成能力を犠牲にする必要があった(trade-off 問題)
 ● この問題を解決するために,Hyperparameter C を線形に増加することで,潜在表現の  キャパシティ を徐々に増加させる.
 ○ 学習済みのDisentangled表現を維持しながら,より多くの変動因子をDisentanglementしようとし た.
 
 
 
 Unsupervised Disentanglement Learning

  • 14. Disentangling by Factorising
 14 会議 : ICML2018
 著者 : H. Kim and A. Mnih
 
 ● trade-off問題の解決のために,確率変数間の依存性を測るTotal Correlation (TC) の誤差をVAEの目 的関数に追加
 ● 入力がq(z)とbar{q}(z)のどちらかを分類するDiscriminatorでTCを近似
 
 Unsupervised Disentanglement Learning

  • 15. Isolating Sources of Disentanglement in Variational Autoencoders
 15 会議 : NIPS2018
 著者 : T. Q. Chen, X. Li, R. B. Grosse, and D. K. Duvenaud
 
 ● VAEのKL項を,データサンプルと潜在変数との相互情報量,TC項,次元ごとのKL項に分解
 ● TC項を提案するbiased Monte-Carloによって近似し,実際にTC項がdisentanglementに関連することを 明らかにした
 ○ FactorVAEと違い,追加の学習パラメータがない.
 
 
 
 Unsupervised Disentanglement Learning

  • 16. Contents
 • Disentanglementの定義
 
 • Unsupervised Disentanglement Learningの限界
 
 • 最新の研究動向概説
 
 • Disentanglementのジャンル分け
 
 • 研究動向別論文紹介
 
 • 有力研究機関、研究者

  • 17. Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
 17 会議 : F. Locatello, S. Bauer, M. Lucic, G. Raetsch, S. Gelly, B. Sch ̈olkopf, and O. Bachem
 著者 : ICML2019 (Best paper)
 
 ● Disentangled表現を教師なし学習することは,データとモデルの両方に帰納バイアスを持たないと不可 能であると理論的に証明した.
 ● Disentangled表現の有用性について大規模実験.
 
 ● 実験よりわかったことは
 ○ Disentanglement Learning におけるハイパラはモデルより重要であり,データセット間に共通す るよいハイパラもなく,さらにGTがないとよいハイパラとわからない.
 ○ 学習された表現から変動因子を予測する Downstream task で Disentangled表現が有効である ことを証明することができなかった.
 ○ Disentanglement Learning においては実験の再現性が重要であり,そのためのプラットフォーム を提供した.
 ■ https://github.com/google-research/disentanglement_lib
 Unsupervised Disentanglement Learningの限界

  • 18. Semi-Supervised StyleGAN for Disentanglement Learning
 18 会議 : arXiv:2003.03461
 著者 : W. Nie, T. Karras, A. Garg, S. Debhath, A. Patney, A. B. Patel, and A. Anandkumar,
 
 
 
 
 ● 前述の研究を踏まえて,semi-, weakly-supervised設定の disentanglementが注目を集めている.
 ● 高解像度画像に対するDisentanglement,学習困難性,教師な し設定でのnon-identifiabilityの問題を,少量のラベルを与える semi-supervised設定のInfoGAN + StyleGAN で解決
 ● 実験から,0.25 〜 2.5%のラベルで合成とリアルデータセットで良 いDisentanglementを達成できることが明らかになった.
 
 
 Semi-supervised Disentanglement Learning

  • 19. Contents
 • Disentanglementの定義
 
 • Disentanglementのターニングポイント
 
 • 最新の研究動向概説
 
 • Disentanglementのジャンル分け
 
 • 研究動向別論文紹介
 
 • 有力研究機関、研究者

  • 21. Disentanglement
 21 近年のDisentanglementの傾向
 
 ● Explainability
 
 
 ● Unsupervised Disentanglement Metric
 
 
 ● Model Selection
 
 
 ● Applicability to real world dataset
 
 
 ● Applicability to downstream task

  • 22. Disentanglement
 22 近年のDisentanglementの傾向
 
 ● Explainability
 直感的に解釈可能な因子分解を解釈性へと昇華
 
 ● Unsupervised Disentanglement Metric
 分解される因子の答え(オラクル)が要らないメトリック
 
 ● Model Selection
 Disentanglementのモデルセレクション
 
 ● Applicability to real world dataset
 実世界データへの適用可能性
 
 ● Applicability to downstream task
 下流タスクへの適用可能性

  • 24. Disentanglement
 24 近年のDisentanglementの傾向
 
 ● Unsupervised Disentanglement Metric
 分解される因子の答え(オラクル)が要らないメトリック
 
 Disentanglementの度合を測るためのメトリックは今まで数多く提 案されてきた 
 (e.g. β-VAE metric、Factor VAE metric、SAP、Modularity、DCI Disentanglement、MIG、etc...)
 
 しかし、どのメトリックもオラクルが分かっていないと計算できな かった
 
 UnsupervisedのDisentanglementのメトリック
 がついに登場
 

  • 25. Disentanglement
 25 近年のDisentanglementの傾向
 
 ● Model Selection
 Disentanglementのモデルセレクション
 
 UnsupervisedにDisentanglementを扱うモデル (e.g. β-VAE、 Factor VAE) はハイパラ、アーキテクチャ、seedに敏感でありどの モデルが有効であるかの判断が非常に難しいので、モデルセレ クションに関する論文が増加

  • 26. Disentanglement
 26 近年のDisentanglementの傾向
 
 ● Applicability to real world dataset
 実世界データへの適用可能性
 
 UnsupervisedのDisentanglementは今までdspriteやMNISTなど限 りなくトイに近いデータで実験をしていた
 
 ついに実世界データへの適用可能性を議論する論文が登場

  • 27. Disentanglement
 27 近年のDisentanglementの傾向
 
 ● Applicability to downstream task
 下流タスクへの適用可能性
 
 下流タスクは何かの要素 (今回の場合はDisentanglement)を用い て解くようなタスクのことを表す (e.g. クラス分類)
 
 ICML2019のbest paperにおいて、下流タスクについての
 言及があってから急速に研究が進みだした

  • 28. Disentanglement
 28 近年のDisentanglementの傾向
 
 ● Explainability
 直感的に解釈可能な因子分解を解釈性へと昇華
 
 ● Unsupervised Disentanglement Metric
 分解される因子の答え(オラクル)が要らないメトリック
 
 ● Model Selection
 Disentanglementのモデルセレクション
 
 ● Applicability to real world dataset
 実世界データへの適用可能性
 
 ● Applicability to downstream task
 下流タスクへの適用可能性

  • 29. Contents
 • Disentanglementの定義
 
 • Disentanglementのターニングポイント
 
 • 最新の研究動向概説
 
 • Disentanglementのジャンル分け
 
 • 研究動向別論文紹介
 
 • 有力研究機関、研究者

  • 33. Disentanglement
 33 Disentanglementの種類
 
 Disentanglementの研究の流れからは少し逸れるが、 Disentanglementは研究が進むにつれ、大きく分けて
 2つのジャンルに分かれてきている
 
 ● Implicit Disentanglement
 
 
 ● Explicit Disentanglement
 
 
 Disentanglementは解釈可能な因子に分解されていればよいという広 い解釈が広まりつつあり、ExplicitなDisentanglementが広く研究され ている

  • 34. Contents
 • Disentanglementの定義
 
 • Disentanglementのターニングポイント
 
 • 最新の研究動向概説
 
 • Disentanglementのジャンル分け
 
 • 研究動向別論文紹介
 
 • 有力研究機関、研究者

  • 35. Explainability (Fairness)
 35 Disentangling Influence: Using disentangled representations to audit model predictions
 
 会議:NeurIPS 2019
 著者:#Charles_Marx #Richard_Phillips #Sorelle_Friedler #Carlos_Scheidegger    #Suresh_Venkatasubramanian Abstract
 ● 機械学習モデルにおいてどの因子が影響を及ぼしているのかを入力の情報をDisentanglementする ことで定量的に評価可能にしたdisentangled influence auditsを提案した
 Contribution
 ● 機械学習モデルに与える因子の影響をDisentanglementして定量化可能にした点 成人の収入のデータを用いて性別 や人種などの因子がどう影響を及 ぼしているのかを検証
  • 36. Explainability (Fairness)
 36 On the Fairness of Disentangled Representations
 
 会議:NeurIPS 2019
 著者:#Francesco_Locatello #Gabriele_Abbati #Thomas_Rainforth #Stefan_Bauer    #Bernhard_Schölkopf #Olivier_Bachem Abstract
 ● Disentanglementと公平性、下流タスクの精度の関係を調査した論文 ● 理論的にベイズ最適化を用いた識別器や、ターゲットの変数とセンシティブな変数が独立している場 合でも不公平性が発生することを示した ● DCI Disentanglement scoreが公平性の向上と相関あり ● 下流タスクの精度がDisentanglementと相関があることを示した Contribution
 ● Disentanglementと公平性、下流タスクの精度の関係を調査した点 混ざり合っているセンシティブな因子を Disentanglementし、公平で 正確なクラス分類器の獲得を目指す
  • 37. Explainability (Decision Making Process)
 37 Disentangled behavioural representations
 
 会議:NeurIPS 2019
 著者:#Amir_Dezfouli #Hassan_Ashtiani #Omar_Ghattas #Richard_Nock #Peter_Dayan    #Cheng_Soon_Ong Abstract
 ● 精神疾患患者における意思決定の過程の予測についてdisentanglementした表現を用いて 解釈性を付与させた論文 ● 今まではRNNを用いたベースのものが意思決定の予測に有力であったが解釈性がなかったので、 中間的にAEを挟んでDisentanglementしてからRNNの重みを生成することで解釈性を付与させた Contribution
 ● 意思決定における予測について解釈性を付与させた点 Disentanglement した因子を用いてRNNの パラメータを生成 (Hyper Networkと類似)
  • 38. Unsupervised Disentanglement Metric
 38 Unsupervised Model Selection for Variational Disentangled Representation Learning
 
 会議:ICLR 2020
 著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess    #Alexander_Lerchner #Irina_Higgins Abstract
 ● unsupervisedのdisentanglementのメトリックを初めて提案した(Unsupervised Disentanglement Ranking; UDR) ● ハイパラ、モデルのチョイス、最終パラメータの予測が可能 ● ハイパラ数H、seed数S、別途のseed数Pにおいて、HxSとPでモデルごとにconfusion matrixを作っ てeq(2)でUDRを算出 (ようするにseedに鈍感であり、相関のなさを測ることでDisentanglementを評 価する) Contribution ● unsupervisedのdisentanglementのメトリックを初めて提案した点 ● ハイパラにロバストな指標を提案した点 ● オラクルが必要ないので、実データにも適用可能である点 今度はUnsupervisedのメトリックの戦争が始まるか、、、? 次ページに続く
  • 39. Unsupervised Disentanglement Metric
 39 Unsupervised Model Selection for Variational Disentangled Representation Learning
 
 会議:ICLR 2020
 著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess    #Alexander_Lerchner #Irina_Higgins Abstract ● ハイパラ数H、seed数S、別途のseed数Pにおいて、HxSとPでモデルごとにconfusion matrixを作っ てeq(2)でUDRを算出 (ようするにseedに鈍感であり、相関のなさを測ることでDisentanglementを評 価する) (Rはconfusion matric、aとbはHxSとPのモデル番号)
  • 40. Unsupervised Disentanglement Metric
 40 Unsupervised Model Selection for Variational Disentangled Representation Learning
 
 会議:ICLR 2020
 著者:#Sunny_Duan #Loic_Matthey #Andre_Saraiva #Nick_Watters #Chris_Burgess    #Alexander_Lerchner #Irina_Higgins 余談
 ● Introの冒頭にある一文が非常に印象的な論文でした
 
 Happy families are all alike; every unhappy family is unhappy in its own way. ロシアの文豪レフ・トルストイの著作「アンナ・カレーニナ」の冒頭の一文です 直訳は「幸せな家庭はどれも同じように幸せだが、不幸な家庭はそれぞれの行先で不幸である」 これの一文が指していることは恐らく「うまくDisentanglementできているものはロバストに評価できるが (幸せな家庭はどれも同じように幸せ)、できていないものはseedに振られたりして悪い方向で安定してない (不幸な家庭はそれぞれの行先で不幸である)」だと思います DeepMindのNeuro Science研の論文ですが、とても詩的で一度読んでから論文のインパクト然り冒頭の 一文のインパクト然りでお気に入りの論文の一つです
  • 41. Model Selection
 41 Disentangling Factors of Variations Using Few Labels
 
 会議:ICLR 2020
 著者:#Francesco_Locatello #Michael_Tschannen #Stefan_Bauer #Gunnar_Rätsch
    #Bernhard_Schölkopf #Olivier_Bachem Abstract
 ● 少数ラベルを使うことで、よりうまくDisentanglementできることを示し、ラベルのノイズにも非常にロ バストであることを示した ● 少数ラベルをvalidationに使うと、既存のDisentanglementのメトリックを用いてよりよいモデルのセ レクションを可能にした (訓練モデル自体はUnsupervised、Semi-Supervised) Contribution ● ノイズありなしに関わらず少数ラベルがDisentanglementに貢献できることを示した点 ● 少数ラベルを用いたvalidationがモデルセレクションを容易にした点 図は論文を読まないと解釈しにくいので、省略 前述のUDRもModel Selectionの文脈としても解釈可能
  • 42. Appllicability to real world dataset
 42 On the Transfer of Inductive Bias from Simulation to the Real World: a New Disentanglement Dataset
 
 会議:NeurIPS 2019
 著者:#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic    #Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem    #Bernhard_Schölkopf #Stefan_Bauer Abstract
 ● 今までのデータセットは所詮トイプロブレムであったので、実データにおいて7つの因子を含むデータ セットを収集したMPI3Dを提案した. ● データセットはtoy、realistic、realの3つをそれぞれ100万枚以上集めて、転移性についてなどを調査 した.結論使うデータセットがrealisticだとrealにもうまく適用できる Contribution ● 実世界3Dデータの画像を初めて提案した点 ● 集めたデータで帰納バイアスとデータの転移性を調べた点 次ページに続く
  • 43. Appllicability to real world dataset
 43 On the Transfer of Inductive Bias from Simulation to the Real World: a New Disentanglement Dataset
 
 会議:NeurIPS 2019
 著者:#Muhammad_Waleed_Gondal #Manuel_Wuthrich #Djordje_Miladinovic    #Francesco_Locatello #Martin_Breidt #Valentin_Volchkov #Joel_Akpo #Olivier_Bachem    #Bernhard_Schölkopf #Stefan_Bauer 7つの因子を保持する ようにロボットアームを 動かして撮影 MPI3D-hogeが集めたデータセット 各100万枚以上収集 realisticが実データに近いsyntheticな データ
  • 44. Appllicability to downstream task
 44 Are Disentangled Representations Helpful for Abstract Visual Reasoning?
 
 会議:NeurIPS 2019
 著者:#Sjoerd_van_Steenkiste #Francesco_Locatello #Jürgen_Schmidhuber
    #Olivier_Bachem Abstract
 ● Disentangled表現は視覚的な推論タスクのようなdown-stream task に本当に有用であるのか?と いう問いを明らかにするため,与えられた規則性のあるパネルの集合に欠けたパネルはどれかを答 えるような知能テストに似た視覚推論タスクを設計し,大規模実験を行った. Contribution ● Disentangled表現は down-stream taskの性能を改善し,特に,少量サンプルでより迅速に学習でき ることがわかった点.
  • 45. Contents
 • Disentanglementの定義
 
 • Disentanglementのターニングポイント
 
 • 最新の研究動向概説
 
 • Disentanglementのジャンル分け
 
 • 研究動向別論文紹介
 
 • 有力研究機関、研究者

  • 46. 有力研究機関、研究者
 46 研究機関
 ● DeepMind
 
 ● ETH Zuritch
 
 
 研究者 (敬称略)
 ● Irina Higgins
 
 ● Francesco Locatello

  • 47. 有力研究機関
 47 DeepMind (ICLR 2020, NeurIPS 2019に1本)
 
 
 
 
 言わずと知れた超エリートAI研究者集団
 
 Disentanglementブームの火付け役として貢献した
 β-VAEの生みの親であるIrina Higginsの所属するNeuro Science研 がDisentanglementにおいて躍進していた
 
 2019年、2020年はICLR、NeurIPSにおいてDisentanglementの採択本 数が1本であるが、Disentanglementの歴史を振り返る上では欠かせ ない研究機関
 
 DeepMind Logo, “https://ja.wikipedia.org/wiki/DeepMind” 

  • 48. 有力研究機関
 48 ETH Zuritch (ICLR 2020, NeurIPS 2019に5本)
 
 
 
 
 スイス連邦工科大学チューリッヒ校
 世界有数の工科大学であり、2020年世界大学ランキングでは
 同率13位の超名門校
 
 ICLR、NeurIPS、ICML、AISTATSに毎年通してるモンスターPh.Dの Francesco Locatelloの所属校
 
 Disentanglementにおいては、ETHZとMax Planck Institute、Google Brainの共同論文が猛威を振るっている
 
 ETH zurich logo, “https://ja.wikipedia.org/wiki/チューリッヒ工科大学” 

  • 49. 有力研究者
 49 Irina Higgins
 DeepMind Neuro Science Lab
 Senior Research Scientist
 
 
 β-VAEの生みの親であり、Disentanglementの立役者
 
 Higginsが共著に入っている論文は良論文ばかりなので、是非
 チェックしたほうがよい
 
 2018年以降はDisentanglementよりも、object-centric representation learningのほうに力を入れているように見える
 
 
 Irina Higgins picture, “ https://digital-anthropology.me/2017/02/27/new-scientist-artificial-intelligence- day-session-one-the-mainstream-irina-higgins/”
 

  • 50. 有力研究者
 50 Francesco Locatello
 (ICLR 2020, NeurIPS 2019に4本(!?ww))
 (内2本がFirst Author、1本がSecond、1本が4th)
 (ICML 2019 best paper!!)
 
 近年のDisentanglement研究で最もアツい研究者
 
 特に大きなターニングポイントは、帰納バイアスなしには Disentanglementは不可能ということを理論的に示した点
 
 2016年に修士を修了し、2020年現在ではPh.Dを取得している
 Google BrainのOlivier Bachemと共著の論文がほとんどであり
 就職先はGoogle Brainか!?
 
 Francesco Locatello picture, “https://ethz.ch/en/the-eth-zurich/portrait/aktuelle-ehrungen-und- 
 preise/2019/04/francesco-locatello-receives-google-phd-fellowship.html” 
 

  • 51. 著者紹介
 51 綱島 秀樹 ● Twitter:https://twitter.com/maguroIsland ● 所属:早稲田大学 森島繁生研究室 D1  研究領域 ● Distillation ● Generative models  興味 ● Disentanglement ● Object-aware representation learning ● Persistent Homologylogy  趣味 ● 筋トレ,音楽ゲーム,読書,アメフト  一言 ● コロナのせいで毎日筋トレしててどんどんデカくなる
  • 52.  研究領域 ● Semantic Segmentation ● Anomaly Detection ● Image Synthesis,Novel View Synthesis ● Disentanglement Learning 著者紹介
 52 相澤 宏旭(あいざわ ひろあき) ● Twitter:https://twitter.com/aizw_h ● GitHub:https://github.com/aizawan ● HP:https://aizawan.github.io/ ● 所属:岐阜大学加藤研究室 D3
  • 53. Appendices (綱島が個人的に面白いと思った論文紹介)
 53 Counterfactuals uncover the modular structure of deep generative models (disentanglementを扱っている)
 
 会議:ICLR 2020
 著者:#Michel_Besserve #Arash_Mehrjou #Rémy_Sun #Bernhard_Schölkopf Abstract
 ● 教師無し深層生成モデルのモジュラリティを探索する手法を提案し、意味的に整合性の取れたモー フィング(外挿)を可能にした ● モジュラリティとはネットワーク(NNのことではない)の質を定量化するものであり、深層生成モデルに おいての質とは"解釈性"と"外挿"としている。 Contribution ● 深層生成モデルにおける解釈性を探索でき、それを基に外挿可能なフレームワークを提案した点 左図はダチョウの姿勢を維持した 上での鶏のidentityの転移 右図はテディベア属性にコアラの identityを転移(上図怖い)
  • 54. Appendices (綱島が個人的に面白いと思った論文紹介)
 54 Disentanglement by Nonlinear ICA with General Incompressible-flow Networks (GIN)
 
 会議:ICLR 2020
 著者:#Peter_Sorrenson #Carsten_Rother #Ullrich_Köthe Abstract
 ● Independent Component Analysis (ICA) を非線形に拡張したNonlinear ICAをFlowベースの生成 モデルに適用したことで、因子ごとのデータ構造を分解可能にするGeneral Incompressible-flow Network (GIN)を提案 Contribution ● データの本質的な分解すべき因子の次元(Flowなので次元が1to1)を獲得できるネットワークを提案 した点 何がすごいってデータの本質的な分解 すべき因子の次元を獲得できるという点 Flowのdisentanglementの文脈は珍しいの で、かなり新鮮だった 個人的にはブレイクスルーの予感
  • 55. Appendices (綱島が個人的に面白いと思った論文紹介)
 55 Learning Disentangled Representations for Recommendation
 
 会議:NeurIPS 2019
 著者:#Jianxin_Ma #Chang_Zhou #Peng_Cui #Hongxia_Yang #Wenwu_Zhu Abstract
 ● 推薦システムにおいて、ユーザの行動で大きく変化を及ぼすMacroと小さい変化を及ぼすMicroの因 子にDisentanglementして推薦システムを構築するMACRo-mIcro Disentangled VAE (MacridVAE)を提案 Contribution ● Disentanglementを用いて解釈性を得た推薦システムを提案した点 マクロとミクロの因子にdisentangleという 点が非常に面白い この発想はかなり使えそう?
  • 56. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 56 PROGRESSIVE LEARNING AND DISENTANGLEMENT OF HIERARCHICAL REPRESENTATIONS
 
 会議:ICLR 2020
 著者:#Zhiyuan_Li #Jaideep_Vitthal_Murkute, #Prashnna_Kumar_Gyawali
    #Linwei_Wang Abstract
 ● VAEの潜在変数zの推論部分をprogressiveに増やすことで、よりDisentanglementできるようにした pro-VLAEを提案した。 ● MIGは潜在変数間における相互情報量のギャップでDisentanglementを測っていたが、同次元の潜 在変数内でエンタングルメントを起こしているかどうかは測れなかった。そこで、同次元の潜在変数内 のDisentanglementを測れる新しいDisentanglementのメトリックであるMIG-supを提案した。 Contribution ● シンプルな段階的拡張によるDisentanglementの手法を提案した点 ● MIGよりもロバストなDisentanglementのメトリックを提案した点 Disentanglementで唯一のspotlight論文 シンプルながら強力な手法
  • 57. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 57 Demystifying Inter-Class Disentanglement
 
 会議:ICLR 2020
 著者:#Aviv_Gabbay #Yedid_Hoshen Abstract
 ● 画像はコンテンツ情報(画像特有の情報) とクラス情報に分かれると仮定して、二つが完全に分離す るようにして訓練するLatent Optimization for Representation Disentanglement (LORD) を提案 し、SOTA ● 推論時や未知のクラスが新しく来た時にどこかに無理やり落とそうとするとエンタングルした表現にな るので、上記の1st stageとクラスとコンテンツを推定する2nd stageを作ることで出来る限り汎化させ たDisentanglementされた表現を獲得させている Contribution ● 画像をDisentanglementするにはスタイルとコンテンツに分けるのではなく、 コンテンツとクラスに分離することが有効であると示した点 ● 二つの画像を組み合わせた生成における品質でSOTA (StyleGAN的な) 正直視覚的な結果は微妙 (優れているのかが一目でわからない) (図に改善の余地があったのでは、、、)
  • 58. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 58 Weakly Supervised Disentanglement with Guarantees
 
 会議:ICLR 2020
 著者:#Rui_Shu #Yining_Chen #Abhishek_Kumar #Stefano_Ermon #Ben_Poole Abstract
 ● 弱教師ありの生成モデルにおける理論的なDisentanglementの度合の測り方を提案 ● 弱教師ありの生成モデルにおいてDisentanglementを保証できるようにした ● extended spaceにおける弱教師あり学習の分布マッチングを定式化 Contribution ● 弱教師ありの生成モデルにおいて理論的にDisentanglementを計算できるようにした点 DisentanglementとConsistencyとRestrictivenessの 図解がわかりやすくて印象的
  • 59. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 59 Explicit Disentanglement of Appearance and Perspective in Generative Models
 
 会議:NeurIPS 2019
 著者:#Nicki_Skafte #Søren_Hauberg Abstract
 ● Spatial TransformerとVAEをくっつけたVariationally Inferred Transformational Autoencoder (VITAE)を提案し、画像をappearanceとperspective (ようするに変化具合とコンテンツ)に分解する ことでトイデータでない実データにおいてDIC-metricでSOTA。 Contribution ● appearanceとperspectiveに分ける帰納バイアスを与えることで、ディスエンタングルメントの性能 向上ができることを示した点 いわゆるExplicitなディスエンタングルメントの1つ
  • 60. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 60 Multi-mapping Image-to-Image Translation via Learning Disentanglement
 
 会議:NeurIPS 2019
 著者:#Xiaoming_Yu #Yuanqi_Chen #Shan_Liu #Thomas_Li #Ge_Li Abstract
 ● マルチドメインだけでなく、マルチモーダルな生成をも可能にしたDMIT (Disentanglement for Multi-mapping Image-to-Image Translation) を提案した ● コンテンツ、スタイルだけじゃなくてドメインラベルを出力するエンコーダーも追加し、スタイルには DRITのようにKLDを取ってディスエンタングルメントを促している Contribution ● マルチドメインだけでなくマルチモーダルな生成を可能にした点 ● マルチドメイン、マルチモーダル、テキストによるSematic Image SynthesisでSOTA でっかい図がないとわからないので、次ページに図
  • 61. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 61 Multi-mapping Image-to-Image Translation via Learning Disentanglement
 
 会議:NeurIPS 2019
 著者:#Xiaoming_Yu #Yuanqi_Chen #Shan_Liu #Thomas_Li #Ge_Li ●
  • 62. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 62 Flow-based Image-to-Image Translation with Feature Disentanglement
 
 会議:NeurIPS 2019
 著者:#Ruho_Kondo #Keisuke_Kawano #Satoshi_Koide #Takuro_Kutsuna Abstract
 ● Flow-based generative modelにおいて、初のIm2Imとディスエンタングルメントを取り入れたFlow U-Net with Squeeze modules (FUNS) を提案した ● CelebAとCHCのIm2ImにてSOTA ● Squeeze Moduleがディスエンタングルメントのキモ Contribution ● 変分モデルにおいてSOTA ● Flow-basedでディスエンタングルメントを提案した点 なじみのない問題設定であまりうまく理解できて ないです、、、 Toyota Central R&D Labなのが印象的だった 唯一Disentanglementにおいて日本人の論文
  • 63. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 63 Symmetry-Based Disentangled Representation Learning requires Interaction with Environments
 
 会議:NeurIPS 2019
 著者:#Hugo_Caselles-Dupré #Michael_Garcia_Ortiz #David_Filliat Abstract
 ● 既存研究であるSymmetry-Based Disentangled Representation Learning (SBDRL) は静的な 観測だけでは成り立たず、エージェントによるインタラクションが必須であると理論的、実験的に示し た論文 ● 環境とのインタラクションでのLinear SB-disentangled representaionとnon-linear SB-disentangled representationの学習を提案した ● SB-disentangledが下流のタスクに有効であることを示した Contribution ● SBDRLにおいてインタラクションが必須であることを示した点 ● SB-disentangledが下流のタスクに有効であることを示した点 SBDRLを読まないと理解不可能 合わせて読まなくてはいけません
  • 64. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 64 Learning Disentangled Representation for Robust Person Re-identification
 
 会議:NeurIPS 2019
 著者:#Chanho_Eom #Bumsub_Ham Abstract
 ● person re-identification (reID)にて、人物のidentityに関係する特徴と関係しない特徴に DisentanglementしてRecall@1やmAPでSOTAのIdentity Shuffle GAN (IS-GAN)を提案 ● ディスエンタングルメントするためにidentity-relatedな情報は訓練中にswapしたり、ランダムにベク トルを分解して交換する処理を行ってる Contribution ● reIDのRecall@1やmAPなどでSOTAな点 ● identification label以外は用いていない点(Poseなど使ってない) ● identity-unrelatedとidentity-relatedに分離する発想が有効であることを示した点 reIDにおいてはDisentanglementは非常に流行っている
  • 65. Appendices (ICLR, NeurIPSの今回紹介してない論文)
 65 Explicitly disentangling image content from translation and rotation with spatial-VAE
 
 会議:NeurIPS 2019
 著者:#Tristan_Bepler #Ellen_Zhong #Kotaro_Kelley #Edward_Brignole
    #Bonnie_Berger Abstract
 ● 回転や平行移動に不変になるSpatial-VAEを提案した ● 回転角度や平行移動を自己教師ありのアプローチで解くことで回転、平行移動不変性を獲得した ● 星やタンパク質は回転、平行移動してるとわけわかんないからそれを解決 Contribution ● 回転、平行移動に不変な特徴をディスエンタングルメント可能なモデルを提案した点 星とタンパク質のデータセットを使っており、 初めてみる方向性だったので、 非常に印象的だった Biology Centerの人もいて納得 恐らく他の著者は宇宙系か?
  • 67. Image-to-Image Translation
 67 ● 条件となる画像 (e.g., ラベル/線画/グレースケール) から画像へ変換
 するタスク
 ○ 教師あり/なしの手法が提案されてきている
 ● (a)物体から物体の変換(Object-to-Object)と
 (b)セグメントラベルからの画像変換(Mask-to-Image)に焦点を当てて紹介
 (a)
 (b)

  • 68. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN)
 68 会議 : ICCV2017 著者 : Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros [Abst] ・ペアの訓練データがない場合の画像変換を行った ・逆写像とCycle-conistency Lossを用いて元画像を復元できるように学習させた [Results] ・色やテクスチャに関する変換は成功した ・形状変化を伴う変換はうまくいかなかった (a) https://arxiv.org/abs/1703.10593

  • 69. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation 
 69 会議 : ICCV2017 著者 : Zili Yi, Hao Zhang, Ping Tan, and Minglun Gong [Abst] ・2つのドメインのラベル付けされていない2つのセットから画像変換を学習できるようにした ・既存のGANはドメイン→ドメインへの変換を学習、Dual GANはドメイン⇄ドメインを学習するようにした [Results] ・他のGANの出力よりも鮮明な変換ができた ・アーキテクチャは基本的にCycleGANと同じ(CycleGANの方が論文投稿が先) (a) https://arxiv.org/abs/1704.02510
  • 70. Unsupervised Image-to-Image Translation Networks 
 70 会議 : NIPS2017 著者 : Ming-Yu Liu, Thomas Breuel, Jan Kautz [Abst] ・潜在空間が共通するという仮定のもとに教師なしimage-to-imageのフレームワークを提案 ・VAEとCoupled GANを組み合わせたアーキテクチャでドメイン毎にEncoder, Generator, Discriminator がある [Results] ・複数のデータセットで画像変換を実行できた ・鞍点探索の問題により学習が不安定になる場合がある (a)https://arxiv.org/abs/1703.00848

  • 71. TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images
 71 会議 : arXiv2020 著者 : Jianxin Lin, Yingxue Pang, Yingce Xia, Zhibo Chen, Jiebo Luo [Abst] ・UI2Iを2つのUnpairな画像のみで可能にした ・ドメイン間の分布の変化を効果的にキャプチャするためにSinGANのように粗い画像から 細かい画像へと段階的に変換する手法を採用 [Results] ・CycleGANよりは良い結果が得られていないような記述 ・極めてデータが少ないケースの教師なし学習のきっかけになりそう (a) https://arxiv.org/abs/2004.04634

  • 72. StarGAN 72 会議 : CVPR18
 著者 : Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha, Sunghun Kim, Jaegul Choo
 
 ● CycleGANでは1:1ドメイン間での変換しかできなかったが,条件付きベクトルを用いた生成期とAuxiliary Classifierを用いた識別器を用いることで1:n変換を実現した
 
 
 
 https://arxiv.org/abs/1711.09020 (a)
  • 73. GANimation 73 会議 : ECCV18
 著者 : Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer
 
 ● StarGANでは1:nドメイン間での離散的な属性変換という制限があったが,目標属性までの変換を連続 的に行うために表情のAttentionを示すAction Unitsを導入し,連続的な1:n変換を可能にした
 
 
 
 https://arxiv.org/abs/1807.09251 (a)
  • 74. MUNIT 74 会議 : ECCV18
 著者 : Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz
 
 ● CycleGANやStarGANは生成器が変換先ドメインでの多様な表現をすることが不可能であった問題を 解決するために,形状(Contents)と見た目(Style)を分離させる手法を提案
 Style特徴量を基にAdaINを用いたパラメータ調整をすることで高品質な変換を実現
 
 
 
 https://arxiv.org/abs/1804.04732 (a)
  • 75. 会議 : ICCV19
 著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz
 
 ● MUNITではあるドメイン内でのContentとStyleの分離であったが,Contentと各ドメインのStyleの分離を 行い,AdaINを用いたドメイン毎のStyle特徴量を上手く学習する方法を提案
 
 
 
 FUNIT 75 https://arxiv.org/abs/1905.01723 (a)
  • 76. 会議 : ICCV19
 著者 : Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, Jan Kautz
 ● ドメイン間の連続的な変化を実現させるために,条件付き信号の重みを変えても滑らかな
 補完をするような損失関数を提案した
 RelGAN 76 https://arxiv.org/abs/1908.07269 (a)
  • 77. StarGANv2 77 https://arxiv.org/abs/1912.01865 会議 : CVPR20
 著者 : Yunjey Choi, Youngjung Uh, Jaejun Yoo, Jung-Woo Ha
 
 ● FUNITのように分離をするが,各ネットワークの出力をドメイン毎に異なるFC層を用いて条件付き信号 を用いてどの層を使うかを選択する工夫がされている.
 ● 定量評価のスコアがかなり上昇している
 
 
 
 (a)
  • 78. 従来では解決されていない問題点が徐々に解決されつつある
 ● CycleGAN[ICCV17].Pix2Pix[CVPR17]で1:1ドメイン間の変換が提案された
 ● StarGAN[CVPR18]で1:nドメイン間の変換が提案された
 ● MUNIT[ECCV18]で1:1ドメイン間の変換だが,変換先を操作できるような機構が提案された
 ● FUNIT[ICCV19]でStarGANより多クラス間の参照画像を用いた変換が提案された
 ● RelGAN[ICCV19]でより補完性の高いドメイン間の変換が提案された
 ● StarGANv2[CVPR20]で従来より圧倒的に綺麗な参照画像を用いた変換が提案された
 
 (a)物体変換の発展 78 ● 実験に使用されるデータセットはCelebAの人の顔や動物の顔でしか行われ ていない問題
 ● 実際にデモを動かしてみるとうまくいかないサンプルなどの存在
 ● 学習時間が長すぎる問題
 ● まだまだ取り組める課題は多い
 ● 画像生成モデルであるStyleGANを上手に利用した研究との融合
 
 (a)
  • 79. Pix2pix
 79 会議 : CVPR 2017
 著者 : Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros
 
 ● 様々なimage-to-image translationタスクに適応可能な手法を提案
 ● 性能も良い
 ● 従来と異なり入力と生成画像(or 正解画像)のペアを識別器に入力し真偽を判定
 https://arxiv.org/pdf/1611.07004.pdf (b)
  • 80. BicycleGAN
 80 会議 : NeurlPS 2017
 著者 : Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A. Efros, Oliver Wang, Eli Shechtman
 
 ● 1入力多出力を可能にする手法を提案
 ○ pix2pixにノイズを入れても無視されてしまう
 ● BicycleGANではノイズが無視されないような工夫を行なっている
 ○ 潜在回帰損失など
 https://arxiv.org/pdf/1711.11586.pdf (b)
  • 81. Cascaded Refinement Networks
 81 会議 : ICCV 2017
 著者 : Qifeng Chen, Vladlen Koltun
 
 ● 敵対的訓練を用いずにセグメントラベルから画像を生成する手法を提案
 ● 下図のモジュールを段階的に積み上げ画像を生成する
 ○ このモジュールはセグメントラベルと前段のモジュールの出力を受け取る
 https://arxiv.org/pdf/1707.09405v1.pdf (b)
  • 82. Pix2pixHD
 82 会議 : CVPR 2018
 著者 : Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jun Kautz, Bryan Catanzaro
 
 ● セグメントラベルから高解像度(2048 x 1024)な画像を生成する手法を提案
 ● coarse-to-fineな生成器を設計することで高解像度化を実現
 ● 他にもboundary mapを用いた,より写実的な画像の生成なども行っている
 https://arxiv.org/pdf/1711.11585.pdf (b)
  • 83. SIMS
 83 会議 : CVPR 2018
 著者 : Xiaojuan Qi, Qifeng Chen, Jiaya Jia, Vladlen Koltun
 
 ● 訓練データセットにおける画像の構成要素をメモリバンクMに保存しておき,テストセグメントラベルでは Mから構成要素を取り出し画像を生成する手法を提案
 ● Mだけでは埋められない領域をfに入力して最終的な結果を得る
 https://arxiv.org/pdf/1804.10992v1.pdf (b)
  • 84. GauGAN
 84 会議 : CVPR 2019
 著者 : Taesung Park, Ming-Yu Liu, Ting-Chun Wang, Jun-Yan Zhu
 
 ● 画像生成のための新しい正規化手法(SPADE)を提案
 ○ SPADE : SPatially-Adaptive DEnormalization
 ○ 従来手法より意味情報を保持できる
 ● AdaINのγとβを特徴マップの要素ごとに求めている
 ○ γとβは畳み込み層で求める
 ○ 空間的・意味的な変換を施すことができる
 https://arxiv.org/pdf/1903.07291.pdf (b)
  • 85. CLADE
 85 会議 : arXiv 2020
 著者 : Zhentao Tan, Dongdong Chen, Qi Chu, Menglei Chai, Jing Liao, Mingming He, Lu Yuan, Nenghai Yu
 
 ● SPADEの利点はspatial-adaptivenessよりもsemantic-awarenessであること観察
 ○ 右図上ではクラスごとにγとβが変わっているが,空間的には変わらないことがわかる
 ● SPADEの計算量を削減しつつ同程度の性能を持つ正規化手法(CLADE)を提案
 ○ CLADE : CLass-Adaptive DEnormalization
 ● CLADEではクラスごとにγとβを用意し直接最適化する
 ○ spatial-adaptivenessは考えない
 https://arxiv.org/pdf/2004.02867.pdf (b)
  • 86. メタサーベイ
 86 (b)セグメントラベルからの画像生成タスクにおける強強研究機関
 
 
 ● UC Berkeley
 ○ pix2pix, BicycleGAN, pix2pixHD, GauGAN
 ○ Jun-Yan Zhuさんがどの研究にも名前が載っててヤバイ(語彙力)
 ● NVIDIA
 ○ pix2pixHD, GauGAN
 ○ Ming-Yu LiuさんとTing-Chun Wangさんもヤバイ()
 ● Intel
 ○ Cascaded Refinement Networks, SIMS
 
 
 Jun-Yan Zhuさん Ming-Yu Liuさん Ting-Chun Wangさん (b)
  • 87. メタサーベイ
 87 (b)セグメントラベルからの画像生成タスクに関する主観的感想
 
 
 ● 生成器の設計系研究から正規化モジュールの設計にシフトしそう
 ○ 生成器の設計もあまり凝っていないのでまだ掘れそう
 ● 教師あり手法よりなし手法の方が勢いがある
 ○ データセットへの制約が緩いため?
 ● 生成画像の応用はあまり研究されていない印象.次の2つは個人的有力候補
 ○ image manipulation(純粋な方法はpix2pixHDでされているので工夫が必要)
 ○ データ拡張(設定を上手く練ればsem.seg.のデータ拡張として使えそう)
 
 (b)
  • 88. 研究機関
 88 Microsoft Research Asia (中国, 北京)  ・Microsoft Researchのアジア支部   ・アメリカ国外における最大の研究所  ・北京大学や清華大学の卒業生が研究者として多く在籍   ・学生との連携、教育も積極的に行っている  ・CVPR2020, ICLR2020等に論文を投稿
  • 89. 注目研究者
 89 Ming-Yu Liu (NVIDIA) ・Image-to-Imageといえばという研究者  ・前述のセグメントラベルからの画像変換だけでなく   Image-to-Image分野全体の功績が凄い ・NVIDIAの莫大な計算リソースが武器  ・Few-Shot Unsupervised Image-to-Image   TranslationはTesla V100 32GB × 8台使用し実験を行った ・論文 ・High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs(CVPR2018)  ・Few-Shot Unsupervised Image-to-Image Translation(ICCV2019) https://research.nvidia.com/person/mingyu-liu

  • 90.  研究領域 ● GANによるデータ拡張,Image-to-Image,Domain Adaption  今年の目標 ● 筑波大学院合格 ● 論文をできるだけ読む  好きな音楽ジャンル ● JAZZ(特にBig band),Vocaloid
  一言 ● もっと専門的に物事を捉えられるように勉強します!!
 
 著者紹介
 90 星 将仁(ほしまさひと) ● Twitter:https://twitter.com/Masa_m_0413 ● 所属:茨城工業高専 専攻科2年 情報工学コース ● 茨城県那珂市出身 ● 小学生:ドラム,中学生:吹奏楽,高校:吹奏楽 ● 自粛期間中にダーツの腕前をメキメキとあげています
  • 91. ● Twitter:https://twitter.com/kodai_nakashima ● 所属:産総研テクニカルスタッフ  研究領域 ● GANの応用  今年の興味 ● GAN,Semantic Segmentation,Domain Adaptation  目標 ● 博士課程への進学 ● 人間性を捧げる ● ADステータスの解除
 著者紹介
 91 中嶋 航大(なかしま こうだい)
  • 92.  研究領域 ● Image-to-Image Translation ● Image Generation ● Weakly Supervised Instance Segmentation ● Twitter:https://twitter.com/udoooom ● 所属:東大 相澤山崎松井研 M1 著者紹介
 92 堀田 大地(ほりた だいち)
  • 95. A Style-Based Generator Architecture
 for Generative Adversarial Networks
 95 会議 : CVPR2019
 著者 : Tero Karras, Samuli Laine, Timo Aila
 ● いわゆるStyleGAN (v2も出ました)
 ● GANによる高解像度な画像生成のためのネットワークと様々なテクニックの提案
 ● 潜在表現zはMLPで中間表現に変換した後にAdaIN(style transferでよく使う)で繰り返し印 加
 ● 高解像度かつ高品質な顔画像データセットFFHQの構築

  • 96. Image2StyleGAN: How to Embed Images Into the StyleGAN Latent Space? 会議 : ICCV2019
 著者 : Rameen Abdal, Yipeng Qin, Peter Wonka
 
 ● 提案: StyleGANの中間表現Wを各層に複製したW′を誤差逆伝播で変化させ,StyleGAN に入れた時クエリ画像に最も近い画像を生成するW′ を発見
 ● 応用: 任意の2画像からW′を抽出し,morphing/expression transferなど
 ● 後続研究: In-Domain GAN Inversion for Real Image Editing (CVPR2020)
 
 上: 入力,下: 埋め込み morphing expression transfer
  • 97. Image2StyleGAN++: How to Edit the Embedded Images? 97 会議 : CVPR2020
 著者 : Rameen Abdal, Yipeng Qin, Peter Wonka
 
 ● 提案1: W′を最適化→StyleGANのもう一つの入力であるノイズも最適化することで,より 精細なクエリ画像のStyleGANへの埋め込みを実現
 ● 提案2: 損失関数, マスク入力の有無等を変えて最適化するだけで,reconstruction, inpainting, crossover, sketch/scribble edit 等を実現
 Inpainting Crossover sketch/scribble edit
  • 98. StyleRig: Rigging StyleGAN for 3D Control over Portrait Images 98 会議 : CVPR2020
 著者 : Ayush Tewari, Mohamed Elgharib, Gaurav Bharaj, Florian Bernard, Hans-Peter Seidel, Patrick Perez, Michael Zollhofer, Christian Theobalt
 
 ● StyleGANは高解像度画像生成するが,望みの形質だけを変更する編集は難しい
 ● 各種パラメタを陽に持つ3DMMモデルとstyleganの潜在表現の対応を発見し実現

  • 99. GANSpace: Discovering Interpretable GAN Controls 99 会議 : arXiv2020
 著者 : Erik Härkönen , Aaron Hertzmann , Jaakko Lehtinen, Sylvain Paris
 
 ● 生成モデルのlatent vector(高次元)にある特徴を加える方向ベクトルを発見する
 ● 既存研究は発見したい特徴に関する何らかの教師情報が必要だった
 ● PCAで低次元に特徴を落とすと,人とinteractionして簡単に見つけられる

  • 100. Deep Image Prior 100 会議 : CVPR2018
 著者 : Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky
 ● 単一の欠損(e.g., ノイズ・穴)画像だけを入力にCNNの最適化で元画像を復元
 ● 自然な画像を生成するためのpriorを大量の画像群から学習するアプローチが主流である 中,CNNの構造自体も重要なpriorであることを示唆

  • 101. SinGAN: Learning a Generative Model From a Single Natural Image 101 会議 : ICCV2019 (best paper) 
 著者 : Tamar Rott Shaham, Tali Dekel, Tomer Michaeli
 
 ● 単一画像から生成モデル学習, G/Dを階層的に積み重ねて,学習につかった単一画像と パッチレベルの分布は一緒だが構造が違う新画像を生成
 ● 階層構造を利用して,super-resolution, harmonization, animation, editingなどを実現

  • 102. Structural-analogy from a Single Image Pair 102 会議 : arXiv2020
 著者 : Sagie Benaim, Ron Mokady, Amit Bermano, Daniel Cohen-Or, Lior Wolf 
 ● 画像ペア一対だけから生成モデル学習 (SinGANのim2im向け拡張)
 ● 画像A/Bに対して,Bの見た目とAの構造を保持した画像を生成するモデルを実現

  • 103. Semantic Pyramid for Image Generation 103 会議 : CVPR2020
 著者 : Assaf Shocher, Yossi Gandelsman, Inbar Mosseri, Michal Yarom, Michal Irani, William T. Freeman, Tali Dekel
 
 ● 学習済みの分類器を使って様々な階層の特徴抽出,そのうち生成器の条件付けとして渡 す階層を限定することで,入力画像に対し様々なレベルの`類似`画像を生成するモデル の実現
 ● 空間的なマスクによる条件付けと組み合わせる事で多様な画像編集タスクを実現 (e.g., composition, semantic re-labeling, sketch-to-photo)

  • 104. 画像編集のまとめ 104 - 教師ペアが自明に集まるタスクは生成の質・設定がやや飽和してきた?
 例) label2image, image inpainting, sketch/scribble-based editing
 
 - feed-forward型のsingle-task NNに落とし込むだけでなく,応用の用途と要求さ れる質・速度に応じたアプローチが求められる段階か?
 例1) StyleGANへの画像埋め込み: 遅いが高品質
 例2) multi-task系: 質は少し劣るが汎用性が非常に高い
 

  • 105. ● Twitter:https://twitter.com/naoto_inoue_ ● 所属:東大 相澤山崎松井研 D3  研究領域 ● content creationに向けた画像生成の応用 ● Image Editing ● Image Generation  今年の目標 ● インパクトのある仕事をする
  (宣伝)過去の研究 ● 物体検出におけるdomain adaptation (CVPR2018) https://arxiv.org/abs/1803.11365 ● 単一写真からの線画生成 (PacificGraphics2019) 著者紹介
 105 井上 直人(いのうえ なおと)
  • 107. Walking in the GAN Latent Space
 107 GANは潜在空間上の2点間の滑らかな内挿が可能
 この性質を使うことで,
 GANの解釈性の改善とGANの制御性の検証ができる
 
 このトピックでは
 特定の画像変換に対応する潜在空間上の方向を
 - 教師ありで [Goetschalckx+ 2019]
 - 自己教師で [Jahanian+ 2020], [Plumerault+ 2020]
 - 教師なしで [Voynov+ 2020]
 発見する手法を調査
 

  • 108. Ganalyze: Toward visual definitions of cognitive image properties
 108 会議 : ICCV2019
 著者 : L. Goetschalckx, A. Andonian, A. Oliva, and P. Isola
 
 ● 記憶に残りやすい or 残りにくいイメージはどのように見えるか?また記憶性をもたらす視覚的特 性とは?をテーマに,BigGANが学習した潜在空間上を,MemoryNetを使って評価される方向へ誘 導することで視覚的特性を可視化した.
 
 
 Fig. 4. より抜粋.右に行くほど記憶に残りやすい
  • 109. On the ”steerability” of generative adversarial networks
 109 会議 : ICLR2020
 著者 : A. Jahanian, L. Chai, and P. Isola
 
 ● self-supervisedな画像変換を施した画像をもとに得られるGANの潜在空間を操舵する方向から ,GANの潜在空間を操縦することで基本的な視覚的な変換がどの程度達成されるかを検証.
 
 
 生成された画像 G(z) と編集した edit(G(z), α) を最小化する αw を探す. 対象をフレームアウトさせるような変換はできない → Dataset bias をGANが反映
  • 110. Controlling generative models 
 with continuous factors of variations
 110 会議 : ICLR2020
 著者 : A. Plumerault, H. L. Borgne, and C. Hudelot
 
 ● 生成モデルの潜在空間上から,物体の位置やスケールなどの特性を制御可能にする方向を見つ ける方法を提案.GANalyze や GAN Steerability との違いは,
 ○ Gが再現不可能な高周波数画像成分を低減する再構成誤差
 ○ 潜在空間の軌跡の候補を再帰的に生成した後,方向を決定するモデルを学習
 ○ Saliency detectionによる定量評価
 
 

  • 111. Unsupervised discovery of interpretable directions
 in the gan latent space
 111 会議 : arXiv:2002.03754
 著者 : A. Voynov and A. Babenko
 
 ● R を生成画像ペアから潜在空間上での方向を予測するように訓練することにより,GANの潜在空 間上での人間が解釈可能な画像変換に対応する方向をunsupervised に発見
 
 
 生成画像と方向に沿って移動した生成画像を受け取り, Rはその方向を予測する. Gは固定し,AとRを学習する.
  • 112.  研究領域 ● Semantic Segmentation ● Anomaly Detection ● Image Synthesis,Novel View Synthesis ● Disentanglement Learning   著者紹介
 112 相澤 宏旭(あいざわ ひろあき) ● Twitter:https://twitter.com/aizw_h ● GitHub:https://github.com/aizawan ● HP:https://aizawan.github.io/ ● 所属:岐阜大学加藤研究室 D3
  • 113. Generative Models Meta Survey
 113 Thank you for attention!