SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Swin Transformer: Hierarchical Vision Transformer using
ShiftedWindows
Kazuki Fujikawa
サマリ
• 書誌情報
– Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
• Arxiv:2103.14030
• Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo
(Microsoft Research Asia)
• 概要
– CVの汎用バックボーン: Swin Transformerを提案
• Transformerの画像への適用で課題になる、画像サイズ対して二乗で計算量が増える問題を
線形の増加に緩和
– モデルの複雑度・速度のトレードオフで良好な結果を確認
• Object Detection, Semantic Segmentation タスクで SoTA
2
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
3
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
4
背景
• Tranformerベースのアーキテクチャは、NLPではデファクトスタンダードと
なり、CVの世界でも活用可能であることが報告されている
• Transformerを言語から画像へ適用する際の課題として、解像度の問題が
挙げられる
– 画像における解像度は、自然言語におけるトークン数と比較して、スケールの変化が大きい
– Self-Attentionは解像度に対して二乗の計算コストを要する
5
画像サイズに対してスケーラブルな
Transformerアーキテクチャを考えたい!
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
6
関連研究
• Vision Transformer [Dosovitskiy+, ICLR2021]
– 入力画像をパッチ(画像の断片)に分割し、Transformerへ入力
• Patch Embedding: パッチ内のピクセルを1次元に並び替えた上で線形写像を取る
• Patch Embedding に Positional Encoding を加えることで、パッチの元画像内での位置を表現
7
関連研究
• Vision Transformer [Dosovitskiy+, ICLR2021]
– 課題: Self-Attention の計算コスト
• 画像内のすべてのPatchに対してAttentionの計算を行うため、計算コストは画像サイズに対して
二乗で増加する
8
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
9
提案手法: Swin Transformer
• 以下の3モジュールで構成
– Patch Partition + Linear embedding
– Swin Transformer Block
• Window based Multihead Self-Attention (W-MSA)
• Shifted window based Multihead Self-Attention (SW-MSA)
– Patch Merging
10
提案手法: Swin Transformer
• Patch Partition + Linear embedding
– Patch Embedding の 計算は Vision Transformer と同様
• パッチへの分割 → 線形写像
11
提案手法: Swin Transformer
• Window based Multihead Self-Attention(W-MSA)
– 画像をパッチに分割後、パッチの集合であるウィンドウを定義
– Window内のパッチに対してのみ、Self-Attentionで参照する
• → Self-Attentionの計算コストは画像サイズの大きさに対して線形に増加
12
Patch (e.g. 4x4 pixel)
Window (e.g. 4x4 patch)
Swin Transformer Block
提案手法: Swin Transformer
• Shifted window based Multihead Self-Attention
(SW-MSA)
– W-MSA では、ウィンドウ間の関係性をモデリングできない
• → ウィンドウをシフトさせ、ウィンドウ間の関係性をモデリングできるようにした
• (下図: 縦方向に2patch, 横方向に2patch, ウィンドウをシフトしている)
13
Swin Transformer Block
提案手法: Swin Transformer
• Shifted window based Multihead Self-Attention
(SW-MSA)
– 単純なウィンドウシフトでは、端に半端なウィンドウを発生させる関係で、
計算コストが増加する(下図: 2x2 window → 3x3 window)
• → 端数を逆側に回してウィンドウ数を一定にする(cyclic shift)ことで、計算コストを削減
• → 同じウィンドウ内に隣接しない patch が存在する問題はSelf-Attentionのマスクで対処
14
提案手法: Swin Transformer
• Patch Merging
– Swin Transformer Block を数層重ねた後、隣接する 2x2 の
patch を統合する
• Pixel embedding 同様、2x2 の patch を 1次元に並び替えて線形写像を取る
• その後の Swin Transformer Blockでは Window 内の patch 数は一定に保つため、
計算コストはそのままで広範な範囲に対して Self-Attention を計算することになる
15
アウトライン
• 背景
• 関連研究
• 提案手法
• 実験・結果
16
実験: Image Classification
• 実験設定
– アーキテクチャ: レイヤー数、チャネル数の異なる複数のモデルを定義
• Swin-T: C = 96, layer numbers = {2, 2, 6, 2}
• Swin-S: C = 96, layer numbers = {2, 2, 18, 2}
• Swin-B: C = 128, layer numbers = {2, 2, 18, 2}
• Swin-L: C = 192, layer numbers = {2, 2, 18, 2}
– タスク
• ImageNet 1000クラス分類のタスク(train: 1.23M)をスクラッチで学習
• 他のモデルで同様の複雑度(パラメータ数・速度)のものと比較して評価
17
実験: Image Classification
• 実験結果
– SoTA の Transformer ベースのアーキテクチャ(DeiT)に対し、同様の複雑度で良い
パフォーマンスを実現
– SoTA の CNN ベースのアーキテクチャ(RegNet, EfficientNet)に対し、速度-精度の
トレードオフでわずかに改善
18
実験: Image Classification
• 実験結果
– SoTA の Transformer ベースのアーキテクチャ(DeiT)に対し、同様の複雑度で良い
パフォーマンスを実現
– SoTA の CNN ベースのアーキテクチャ(RegNet, EfficientNet)に対し、速度-精度の
トレードオフでわずかに改善
19
実験: Object Detection
• 実験設定
– タスク
• COCO Object Detection
• 4種の主要な物体検出フレームワークのバックボーンに採用して実験
– Cascade Mask R-CNN [He+, 2016]
– ATSS [Zagoruyko+, 2016]
– RedPoints v2 [Chen+, 2020]
– Sparse RCNN [Sun+, 2020]
20
実験: Object Detection
• 実験結果
– いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認
– Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善
– SoTAモデルとの比較でも改善を確認
21
実験: Object Detection
• 実験結果
– いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認
– Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善
– SoTAモデルとの比較でも改善を確認
22
実験: Object Detection
• 実験結果
– いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認
– Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善
– SoTAモデルとの比較でも改善を確認
23
実験: Semantic Segmentation
• 実験設定
– タスク: ADE20K
• 実験結果
– DeiTの同等の複雑度のモデルより高速で、高精度の予測ができることを確認
– SoTAモデル(SETR)より少ないパラメータで、高精度な予測ができることを確認
24
実験: Semantic Segmentation
• 実験設定
– タスク: ADE20K
• 実験結果
– DeiTの同等の複雑度のモデルより高速で、高精度の予測ができることを確認
– SoTAモデル(SETR)より少ないパラメータで、高精度な予測ができることを確認
25
結論
• CVの汎用バックボーン: Swin Transformerを提案
– Transformerの画像への適用で課題になる、画像サイズの増加に対して二乗で計算量が
増える問題を線形の増加に緩和
• モデルの複雑度・速度のトレードオフで良好な結果を確認
– Object Detection, Semantic Segmentation タスクで SoTA
26
References
• Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv
preprint arXiv:2103.14030 (2021).
• Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at
scale." In ICLR2021.
27
Ad

More Related Content

What's hot (20)

SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
Hiroto Honda
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
Deep Learning JP
 

Similar to [DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (20)

【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
Sony - Neural Network Libraries
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
Rei Takami
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
Michiharu Niimi
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
Cs中間報告
Cs中間報告Cs中間報告
Cs中間報告
Tomoki Itou
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
 
Graph Clustering on Missing Data
Graph Clustering on Missing DataGraph Clustering on Missing Data
Graph Clustering on Missing Data
Yuma Inoue
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
Masayoshi Kondo
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011final
Mikio Kubo
 
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network文献紹介:Video Transformer Network
文献紹介:Video Transformer Network
Toru Tamaki
 
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
【DeepLearning研修】Transformerの基礎と応用 --第3回 Transformerの画像での応用
Sony - Neural Network Libraries
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
Rei Takami
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII
 
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
[チュートリアル講演]画像データを対象とする情報ハイディング〜JPEG画像を利用したハイディング〜
Michiharu Niimi
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
Deep Learning JP
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
kanejaki
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui
 
2012-03-08 MSS研究会
2012-03-08 MSS研究会2012-03-08 MSS研究会
2012-03-08 MSS研究会
Kimikazu Kato
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
harmonylab
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
 
Graph Clustering on Missing Data
Graph Clustering on Missing DataGraph Clustering on Missing Data
Graph Clustering on Missing Data
Yuma Inoue
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
Masayoshi Kondo
 
Or seminar2011final
Or seminar2011finalOr seminar2011final
Or seminar2011final
Mikio Kubo
 
文献紹介:Video Transformer Network
文献紹介:Video Transformer Network文献紹介:Video Transformer Network
文献紹介:Video Transformer Network
Toru Tamaki
 
Ad

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows Kazuki Fujikawa
  • 2. サマリ • 書誌情報 – Swin Transformer: Hierarchical Vision Transformer using Shifted Windows • Arxiv:2103.14030 • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo (Microsoft Research Asia) • 概要 – CVの汎用バックボーン: Swin Transformerを提案 • Transformerの画像への適用で課題になる、画像サイズ対して二乗で計算量が増える問題を 線形の増加に緩和 – モデルの複雑度・速度のトレードオフで良好な結果を確認 • Object Detection, Semantic Segmentation タスクで SoTA 2
  • 3. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 3
  • 4. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 4
  • 5. 背景 • Tranformerベースのアーキテクチャは、NLPではデファクトスタンダードと なり、CVの世界でも活用可能であることが報告されている • Transformerを言語から画像へ適用する際の課題として、解像度の問題が 挙げられる – 画像における解像度は、自然言語におけるトークン数と比較して、スケールの変化が大きい – Self-Attentionは解像度に対して二乗の計算コストを要する 5 画像サイズに対してスケーラブルな Transformerアーキテクチャを考えたい!
  • 6. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 6
  • 7. 関連研究 • Vision Transformer [Dosovitskiy+, ICLR2021] – 入力画像をパッチ(画像の断片)に分割し、Transformerへ入力 • Patch Embedding: パッチ内のピクセルを1次元に並び替えた上で線形写像を取る • Patch Embedding に Positional Encoding を加えることで、パッチの元画像内での位置を表現 7
  • 8. 関連研究 • Vision Transformer [Dosovitskiy+, ICLR2021] – 課題: Self-Attention の計算コスト • 画像内のすべてのPatchに対してAttentionの計算を行うため、計算コストは画像サイズに対して 二乗で増加する 8
  • 9. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 9
  • 10. 提案手法: Swin Transformer • 以下の3モジュールで構成 – Patch Partition + Linear embedding – Swin Transformer Block • Window based Multihead Self-Attention (W-MSA) • Shifted window based Multihead Self-Attention (SW-MSA) – Patch Merging 10
  • 11. 提案手法: Swin Transformer • Patch Partition + Linear embedding – Patch Embedding の 計算は Vision Transformer と同様 • パッチへの分割 → 線形写像 11
  • 12. 提案手法: Swin Transformer • Window based Multihead Self-Attention(W-MSA) – 画像をパッチに分割後、パッチの集合であるウィンドウを定義 – Window内のパッチに対してのみ、Self-Attentionで参照する • → Self-Attentionの計算コストは画像サイズの大きさに対して線形に増加 12 Patch (e.g. 4x4 pixel) Window (e.g. 4x4 patch) Swin Transformer Block
  • 13. 提案手法: Swin Transformer • Shifted window based Multihead Self-Attention (SW-MSA) – W-MSA では、ウィンドウ間の関係性をモデリングできない • → ウィンドウをシフトさせ、ウィンドウ間の関係性をモデリングできるようにした • (下図: 縦方向に2patch, 横方向に2patch, ウィンドウをシフトしている) 13 Swin Transformer Block
  • 14. 提案手法: Swin Transformer • Shifted window based Multihead Self-Attention (SW-MSA) – 単純なウィンドウシフトでは、端に半端なウィンドウを発生させる関係で、 計算コストが増加する(下図: 2x2 window → 3x3 window) • → 端数を逆側に回してウィンドウ数を一定にする(cyclic shift)ことで、計算コストを削減 • → 同じウィンドウ内に隣接しない patch が存在する問題はSelf-Attentionのマスクで対処 14
  • 15. 提案手法: Swin Transformer • Patch Merging – Swin Transformer Block を数層重ねた後、隣接する 2x2 の patch を統合する • Pixel embedding 同様、2x2 の patch を 1次元に並び替えて線形写像を取る • その後の Swin Transformer Blockでは Window 内の patch 数は一定に保つため、 計算コストはそのままで広範な範囲に対して Self-Attention を計算することになる 15
  • 16. アウトライン • 背景 • 関連研究 • 提案手法 • 実験・結果 16
  • 17. 実験: Image Classification • 実験設定 – アーキテクチャ: レイヤー数、チャネル数の異なる複数のモデルを定義 • Swin-T: C = 96, layer numbers = {2, 2, 6, 2} • Swin-S: C = 96, layer numbers = {2, 2, 18, 2} • Swin-B: C = 128, layer numbers = {2, 2, 18, 2} • Swin-L: C = 192, layer numbers = {2, 2, 18, 2} – タスク • ImageNet 1000クラス分類のタスク(train: 1.23M)をスクラッチで学習 • 他のモデルで同様の複雑度(パラメータ数・速度)のものと比較して評価 17
  • 18. 実験: Image Classification • 実験結果 – SoTA の Transformer ベースのアーキテクチャ(DeiT)に対し、同様の複雑度で良い パフォーマンスを実現 – SoTA の CNN ベースのアーキテクチャ(RegNet, EfficientNet)に対し、速度-精度の トレードオフでわずかに改善 18
  • 19. 実験: Image Classification • 実験結果 – SoTA の Transformer ベースのアーキテクチャ(DeiT)に対し、同様の複雑度で良い パフォーマンスを実現 – SoTA の CNN ベースのアーキテクチャ(RegNet, EfficientNet)に対し、速度-精度の トレードオフでわずかに改善 19
  • 20. 実験: Object Detection • 実験設定 – タスク • COCO Object Detection • 4種の主要な物体検出フレームワークのバックボーンに採用して実験 – Cascade Mask R-CNN [He+, 2016] – ATSS [Zagoruyko+, 2016] – RedPoints v2 [Chen+, 2020] – Sparse RCNN [Sun+, 2020] 20
  • 21. 実験: Object Detection • 実験結果 – いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認 – Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善 – SoTAモデルとの比較でも改善を確認 21
  • 22. 実験: Object Detection • 実験結果 – いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認 – Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善 – SoTAモデルとの比較でも改善を確認 22
  • 23. 実験: Object Detection • 実験結果 – いずれの物体検出フレームワークでもベースライン(ResNet50)からの改善を確認 – Transformerベースのバックボーン: DeiT と比較して、精度と共に速度も改善 – SoTAモデルとの比較でも改善を確認 23
  • 24. 実験: Semantic Segmentation • 実験設定 – タスク: ADE20K • 実験結果 – DeiTの同等の複雑度のモデルより高速で、高精度の予測ができることを確認 – SoTAモデル(SETR)より少ないパラメータで、高精度な予測ができることを確認 24
  • 25. 実験: Semantic Segmentation • 実験設定 – タスク: ADE20K • 実験結果 – DeiTの同等の複雑度のモデルより高速で、高精度の予測ができることを確認 – SoTAモデル(SETR)より少ないパラメータで、高精度な予測ができることを確認 25
  • 26. 結論 • CVの汎用バックボーン: Swin Transformerを提案 – Transformerの画像への適用で課題になる、画像サイズの増加に対して二乗で計算量が 増える問題を線形の増加に緩和 • モデルの複雑度・速度のトレードオフで良好な結果を確認 – Object Detection, Semantic Segmentation タスクで SoTA 26
  • 27. References • Liu, Ze, et al. "Swin transformer: Hierarchical vision transformer using shifted windows." arXiv preprint arXiv:2103.14030 (2021). • Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." In ICLR2021. 27