Upgrade to Pro — share decks privately, control downloads, hide ads and more …

シン・CNN vs. ViT

Yoshitaka Ushiku
August 03, 2024
2.2k

シン・CNN vs. ViT

第61回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/321175/
で読んだ論文Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods [Jiang+, CVPR 2024]の資料です。

第57回 コンピュータビジョン勉強会@関東
https://kantocv.connpass.com/event/260132/
で発表した CNN vs. ViT の資料
https://speakerdeck.com/yushiku/cnn-vs-vit
もご覧ください。ご覧になればわかりますが、色々な論文をまとめた前回に比べて、今回は論文1本読んだだけです。

Yoshitaka Ushiku

August 03, 2024
Tweet

Transcript

  1. 2013.6~2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4~2016.3 NTT CS研 研究員

    2016.4~2018.9 東京大学 講師 (原田牛久研究室) 2016.9~2018.9 産業技術総合研究所 協力研究員 2016.12~2018.9 国立国語研究所 共同研究員 2018.10~2024.3 オムロンサイニックエックス株式会社 Principal Investigator 2019.1~ 株式会社 Ridge-i Chief Research Officer 2020.4~2023.3 津田塾大学 非常勤講師 2021.7~ 東北大学 非常勤講師 2022.1~ 合同会社ナインブルズ 代表 2023.12~ 理化学研究所 客員主管研究員 2024.4~ オムロンサイニックエックス株式会社 VP for Research [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成 動画の特定区間と キャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station. 自己紹介
  2. 自己紹介(その他) 主な学術団体活動 ACM・IEEE・電子情報通信学会・情報処理学会・人工知能学会・応用物理学会 一般会員 コンピュータビジョン勉強会@関東 幹事 日本ロボット学会 代議員 日本ディープラーニング協会 有識者会員

    共立出版 コンピュータビジョン最前線 編集 科学技術振興機構(JST) CRDS 分野別委員会委員 さきがけ アドバイザー BOOST アドバイザー 産業技術総合研究所 覚醒プロジェクト プロジェクトマネージャー AIロボット駆動科学イニシアティブ 設立準備事務局 主な研究プロジェクト 2022-2025 人と融和して知の創造・越境をするAIロボット JST Moonshot(PM:牛久祥孝) 2021-2025 マテリアル探索空間拡張プラットフォームの構築 JST 未来社会創造事業(代表:長藤圭介) 2017-2020 多様なデータへのキャプションを自動で生成する技術の創出 JST ACT-I(代表:牛久祥孝) 2017-2021 機械可読時代における文字科学の創成と応用展開 JSPS 基盤研究(S)(代表:内田誠一)
  3. 2020年代のConvNet = ConvNeXt • ResNetを拡張したConvNeXt モダンな – データ拡張 – Depth-wise

    conv – 活性化関数 – 正規化 etc. • Swin-Transformerを超えるよ! [Liu+, CVPR 2022]
  4. サブ説明カウント (Sub-Explanation Counting) • Minimal Sufficient Explanation (MSE) – 9割の尤度比を満たす最小パッチ集合

    • =任意の部分集合が尤度比9割未満 • それ以外の画像は黒/ぼかし – ビームサーチで全て探索 • サブ説明カウント – MSEを親としてパッチを一つずつ削除(ぼかす) →子ノードへ – もし尤度比が5割以上なら上記を繰り返し、下回れば止める 基準尤度を上回るノードの数を数える
  5. クロス試験 (Cross-Testing) • 挿入メトリック:あるパッチを挿入した時の尤度𝑓𝑐 の増分 • クロス試験 – 1つ目の深層学習モデル(Swin-T)から 2つ目の深層学習モデル(VGG-19)への

    クロス試験の例☞ – 正規化された挿入メトリックの累積和を プロットしてAUC(曲線下面積)を計算 𝑡ステップ後の摂動画像 即ち 、かつ ※論文の式(2)は符号を間違っているので注意 左からぼかし画像、元画像、顕著度マップ − 上位𝒕/𝑻のパッチのみを保持した[0, 1]の顕著度マップ
  6. iGOS++ 領域を削除しながら重要領域を探すI-GOSを改善する可視化手法 iGOS++では削除だけでなく保存も行う+平滑化項で連続領域を可視化 皆さんよくご存じの勾配ベース可視化手法 • 特徴マップなので解像度が粗い • 勾配ベースはモデル予測と関係がない GradCAM [Selvaraju+,

    ICCV 2017] ランダムなマスクで重要な領域を推定 • ランダムなので最重要領域とは限らない • マスクの最適化は非凸なので最適化も大変 RISE [Petsiuk+, CVPR 2021] 勾配ではなく累積勾配で重要領域を最適化 • 削除して最適化するだけなので最適解かは不明 • 重要な領域を細切れにしがち I-GOS [Qi+, AAAI 2020] [Khorram+, CHIL 2021]
  7. 実験設定 • 深層学習モデル – 古いCNN: VGG19, ResNet50 & 新しいCNN: ResNet50-C1/C2/D

    – ConvNeXt: ConvNeXt-T – Transformer: Swin-T, Nest-T, DeiT-S, PiT-S – CNNから蒸留したTransformer: DeiT-S, PiT-S, LeViT-256 • データセット:ImageNetの検証データセット(最初の5000枚)
  8. モデル別のMSEの数とそれぞれのサイズから見えた傾向 MSEの比較による結果 • MSEの数 – CNN, ConvNext, 蒸留Transformer > Transformer

    • MSEのサイズ – Transformer > CNN, ConvNext, 蒸留Transformer MSE数が多くサイズが小さい=選言的 より少ないパッチで分類できるパターンが多くある サイズが大きい=合成的 パッチが多少減っても正しく分類できる どちらも隠蔽や欠損には強いメカニズム
  9. サブ説明の視覚的な例 • CNNと蒸留 Transformerは – サブ説明小さめ ⇒選言性が高い • ConvNeXtと Transformerは

    – サブ説明大きめ ⇒合成性が高い • いずれも – 同じようなパッチの どれかを見ている
  10. モデル別のサブ説明の数から見えた傾向 サブ説明の比較による結果 • ConvNextやTransformer は特にサブ説明が多い =最近の手法は合成的 – 他のCNNや蒸留Transformer の10倍 •

    ConvNextは – CNN並みにMSEが多い – CNN並みにMSEが小さい – Transformer並みにサブ説 明が多い ConvNeXtも CNNなのに? 何が原因?
  11. 畳込みだとか注意機構だとかは関係なさそう ConvNeXtとSwin-Tをアブレーションしてみた • アブレーション項目 – CNNの畳込みカーネルやTransformerのウィンドウサイズ – 正規化としてのレイヤー正規化、グループ正規化、バッチ正規化 • バッチ正則化

    – ConvNeXtもTransformerもCNN並みのMSE数、サイズ、サブ説明数に(左) – バッチ正則化の時だけ、一部の特徴量次元のActivation Valueが大きい(右) – バッチ正則化は特徴量内で次元ごとにバラバラに値を変えることが原因か
  12. クロス試験の定性的な例 Swin-Tと 他とのクロス試験 Swin-Tと 他とのクロス試験 VGG19と 他とのクロス試験 蒸留DeiTと 他とのクロス試験 モデルが

    見ている パッチ (iGOS++) 元画像 モデル毎 事後確率 ConvNeXtと 他のとクロス試験の結果を 用意しなくてよかったのか?
  13. モデルのクラスタ間の混同行列 あれ、行列が非対称なの? 古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer CNN: 余裕 CNN:

    ここだけ見れば 分かるよね? ConvNeXt: ここだけ見れば 分かるよね? ConvNeXt: 無理 ※ 見やすさのため、論文図8の色を変更して使用
  14. モデルのクラスタ間の混同行列 あれ、行列が非対称なの? 古いCNN 新しいCNN ConvNeXt Transformer 蒸留Transformer 古いCNNと 蒸留Transformer これらが見ているパッチ

    は他のモデルも見ている 新しいCNNとConvNeXt、 Transformer 他のモデルが見てない パッチを見ている ⇒アンサンブルすると精度 が上がった ※ 見やすさのため、論文図8の色を変更して使用