SlideShare a Scribd company logo
Mobility Technologies Co., Ltd.
MLP-Mixer: An all-MLP Architecture for Vision
2021/05/14
宮澤 一之
Mobility Technologies Co., Ltd.
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw
Mobility Technologies Co., Ltd.
論文情報
3
arXiv: https://arxiv.org/abs/2105.01601
■ Google Research
■ 2021年5月4日arXiv投稿
■ 著者の多くがViT論文と重複(赤下線)
Mobility Technologies Co., Ltd.
概要
4
convolutionもattentionも使わずMLPのみで画像分類のSoTAに匹敵する精度を達成
https://youtu.be/7K4Z8RqjWIk
Mobility Technologies Co., Ltd.
アーキテクチャ
5
Mobility Technologies Co., Ltd.
アーキテクチャ
6
ViTと同様に画像をパッチ
(e.g. 16x16)に分割
Mobility Technologies Co., Ltd.
アーキテクチャ
7
パッチごとのlinear
embeddings(token)
Mobility Technologies Co., Ltd.
アーキテクチャ
8
Mixer Layer(後述)の
繰り返し
Mobility Technologies Co., Ltd.
アーキテクチャ
9
クラス分類
Mobility Technologies Co., Ltd.
Mixer Layer
10
各パッチのembeddingを縦方向に並べたテーブル
Mobility Technologies Co., Ltd.
Mixer Layer
11
token-mixing MLP block
■ 入力テーブルの各列(チャネル)に独立にMLPを適用
■ 全てのチャネルに対してMLPの重みは共通
■ 異なる空間位置の間で特徴量を混合する役目
■ toxen-mixing MLPは入力tokenの順序にセンシティブなため、ViTのようなposition
embeddingsがなくても位置情報を学習できる
Mobility Technologies Co., Ltd.
Mixer Layer
12
channel-mixing MLP block
■ 入力テーブルの各行(パッチ)に独立にMLPを適用
■ 全てのパッチに対してMLPの重みは共通
■ 異なるチャネルの間で特徴量を混合する役目
Mobility Technologies Co., Ltd.
convolutionとの関係
13
1 x 1 convolutionと同等
single-channel depth-wise convolutionと同等
■ MixerはCNNの特殊ケースとみなすことができる
■ channel-mixing MLPでのweight sharingにより位置不変性を獲得
■ token-mixing MLPでチャネル間でweight sharingするのはCNNではあまり一般的でな
いが*モデルが大きくなった際のメモリ使用量削減に大きな効果を発揮
* separable convolutionでは各チャネルに独立にconvolutionを適用するが、カーネルが各チャネルで異なる
token-mixing MLP block channel-mixing MLP block
Mobility Technologies Co., Ltd.
■ 中〜大規模なデータセットでpre-trainingを行い、小〜中規模なデータセットに
finetuningして画像分類の性能を評価
■ 性能評価尺度
■ 画像分類の精度
■ pre-trainingに要する時間
■ 推論のスループット
■ 実装スペック
実験
14
参考:ViTのスペック
Mobility Technologies Co., Ltd.
実験結果
15
MLP-Mixer
convolution-based models
attention-based models
SoTAには及ばないが、SoTAに匹敵する精度を低い計算コストで実現している
Mobility Technologies Co., Ltd.
pre-trainingに要する時間 vs 精度
16
他のSoTAモデルと並び、Mixerは
Pareto frontier上にある
Mobility Technologies Co., Ltd.
pre-trainingのデータセットサイズ vs 精度
17
■ ResNetやViTと比較してMixerはデータセッ
トサイズを大きくすることによる精度向上
が顕著
■ データセットサイズを大きくすることでViT
との性能差も小さくなっていく
■ MixerはViTよりもpre-trainingのデータセッ
トサイズの恩恵を受けやすい
■ inductive biaseの違い?(ViTの
self-attentionで獲得される特性の方
が真の分布に対するcompatibilityが
低い)
Mobility Technologies Co., Ltd.
モデルサイズ vs 精度/スループット
18
モデルサイズを大きくすればMixer
はPareto frontierに乗る
Mobility Technologies Co., Ltd.
token-mixing MLPのweightの可視化
19
1st layer 2nd layer 3rd layer
Mobility Technologies Co., Ltd.
■ ViTを踏襲し、convolutionもattentionも使わずMLP-onlyなシンプルなアーキテクチャで
SoTAに匹敵する画像分類性能を達成
■ 精度のみではSoTAに及ばないが、精度 vs 計算コストを考えるとPareto frontier上に
ある
■ attentionを使うViTは入力パッチ数の2乗に比例して演算量が増えるが、Mixerは線形
に抑えられる
■ pre-trainingのデータセットサイズに対するスケーラビリティが高い
まとめ
20
Mobility Technologies Co., Ltd.
■ 公式 https://github.com/google-research/vision_transformer
■ timm https://github.com/rwightman/pytorch-image-models
実装
21
Mobility Technologies Co., Ltd.
なぜか同時多発的に類似論文がarXivに登場
■ 5/4
MLP-Mixer: An all-MLP Architecture for Vision
■ 5/6
Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well
on ImageNet
■ 5/7
ResMLP: Feedforward networks for image classification with data-efficient training
おまけ
22
Mobility Technologies Co., Ltd.
23
Mobility Technologies Co., Ltd.
24
Mobility Technologies Co., Ltd.
We're Hiring!
25
https://hrmos.co/pages/mo-t/jobs
文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
Mobility Technologies Co., Ltd.
26
Ad

More Related Content

What's hot (20)

SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
MasanoriSuganuma
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
Tatsuya Matsushima
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
Deep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
MasanoriSuganuma
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
harmonylab
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
Tatsuya Matsushima
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
Deep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
[DL輪読会]PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
Deep Learning JP
 

Similar to MLP-Mixer: An all-MLP Architecture for Vision (20)

UnityとROSの連携について
UnityとROSの連携についてUnityとROSの連携について
UnityとROSの連携について
UnityTechnologiesJapan002
 
Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021
Ryo Kabutan
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa
 
MLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考えるMLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考える
Takashi Suzuki
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
Kohei Kojima
 
Smfl20201001
Smfl20201001Smfl20201001
Smfl20201001
三井住友ファイナンス&リース デジタル開発室
 
拡散する画像生成.pdf
拡散する画像生成.pdf拡散する画像生成.pdf
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
 
05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料
wagatuma
 
LLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdf
Akira Shibata
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
Tetsutaro Watanabe
 
IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1
Koyo Takenoshita
 
最弱オセロ
最弱オセロ最弱オセロ
最弱オセロ
Takumayoshida6
 
最弱オセロ
最弱オセロ最弱オセロ
最弱オセロ
Takumayoshida6
 
高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法
高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法
高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法
amatatsu
 
API ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリAPI ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリ
Yoshitaka Seo
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
Tetsutaro Watanabe
 
Swift for pose-estimation
Swift for pose-estimationSwift for pose-estimation
Swift for pose-estimation
mana o2
 
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
Arata Fujimura
 
それは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automateそれは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automate
Tomoyuki Obi
 
Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021Unity道場 ロボティクス 秋のLT祭り 2021
Unity道場 ロボティクス 秋のLT祭り 2021
Ryo Kabutan
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa
 
MLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考えるMLプロジェクトのリリースフローを考える
MLプロジェクトのリリースフローを考える
Takashi Suzuki
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
Kohei Kojima
 
05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料05.日本マイクロソフト(株)_発表資料
05.日本マイクロソフト(株)_発表資料
wagatuma
 
LLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdfLLM Webinar - シバタアキラ to share.pdf
LLM Webinar - シバタアキラ to share.pdf
Akira Shibata
 
先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際先駆者に学ぶ MLOpsの実際
先駆者に学ぶ MLOpsの実際
Tetsutaro Watanabe
 
IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1IoTあるじゃん北海道支部勉強会#1
IoTあるじゃん北海道支部勉強会#1
Koyo Takenoshita
 
高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法
高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法
高知生成AIラボ(2025-02-14)AIエージェント時代のエンジニアリングと開発手法
amatatsu
 
API ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリAPI ペタペタしただけのお手軽 感情分析アプリ
API ペタペタしただけのお手軽 感情分析アプリ
Yoshitaka Seo
 
ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出ドライブレコーダの画像認識による道路情報の自動差分抽出
ドライブレコーダの画像認識による道路情報の自動差分抽出
Tetsutaro Watanabe
 
Swift for pose-estimation
Swift for pose-estimationSwift for pose-estimation
Swift for pose-estimation
mana o2
 
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
アジャイル開発の原則を守りつつ、マルチサイト開発を行なう!
Arata Fujimura
 
それは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automateそれは本当にAutomate? 改めて考えるPower Automate
それは本当にAutomate? 改めて考えるPower Automate
Tomoyuki Obi
 
Ad

More from Kazuyuki Miyazawa (11)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
Kazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
Kazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
 
Ad

MLP-Mixer: An all-MLP Architecture for Vision

  • 1. Mobility Technologies Co., Ltd. MLP-Mixer: An all-MLP Architecture for Vision 2021/05/14 宮澤 一之
  • 2. Mobility Technologies Co., Ltd. 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 自己紹介 2 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 論文情報 3 arXiv: https://arxiv.org/abs/2105.01601 ■ Google Research ■ 2021年5月4日arXiv投稿 ■ 著者の多くがViT論文と重複(赤下線)
  • 4. Mobility Technologies Co., Ltd. 概要 4 convolutionもattentionも使わずMLPのみで画像分類のSoTAに匹敵する精度を達成 https://youtu.be/7K4Z8RqjWIk
  • 5. Mobility Technologies Co., Ltd. アーキテクチャ 5
  • 6. Mobility Technologies Co., Ltd. アーキテクチャ 6 ViTと同様に画像をパッチ (e.g. 16x16)に分割
  • 7. Mobility Technologies Co., Ltd. アーキテクチャ 7 パッチごとのlinear embeddings(token)
  • 8. Mobility Technologies Co., Ltd. アーキテクチャ 8 Mixer Layer(後述)の 繰り返し
  • 9. Mobility Technologies Co., Ltd. アーキテクチャ 9 クラス分類
  • 10. Mobility Technologies Co., Ltd. Mixer Layer 10 各パッチのembeddingを縦方向に並べたテーブル
  • 11. Mobility Technologies Co., Ltd. Mixer Layer 11 token-mixing MLP block ■ 入力テーブルの各列(チャネル)に独立にMLPを適用 ■ 全てのチャネルに対してMLPの重みは共通 ■ 異なる空間位置の間で特徴量を混合する役目 ■ toxen-mixing MLPは入力tokenの順序にセンシティブなため、ViTのようなposition embeddingsがなくても位置情報を学習できる
  • 12. Mobility Technologies Co., Ltd. Mixer Layer 12 channel-mixing MLP block ■ 入力テーブルの各行(パッチ)に独立にMLPを適用 ■ 全てのパッチに対してMLPの重みは共通 ■ 異なるチャネルの間で特徴量を混合する役目
  • 13. Mobility Technologies Co., Ltd. convolutionとの関係 13 1 x 1 convolutionと同等 single-channel depth-wise convolutionと同等 ■ MixerはCNNの特殊ケースとみなすことができる ■ channel-mixing MLPでのweight sharingにより位置不変性を獲得 ■ token-mixing MLPでチャネル間でweight sharingするのはCNNではあまり一般的でな いが*モデルが大きくなった際のメモリ使用量削減に大きな効果を発揮 * separable convolutionでは各チャネルに独立にconvolutionを適用するが、カーネルが各チャネルで異なる token-mixing MLP block channel-mixing MLP block
  • 14. Mobility Technologies Co., Ltd. ■ 中〜大規模なデータセットでpre-trainingを行い、小〜中規模なデータセットに finetuningして画像分類の性能を評価 ■ 性能評価尺度 ■ 画像分類の精度 ■ pre-trainingに要する時間 ■ 推論のスループット ■ 実装スペック 実験 14 参考:ViTのスペック
  • 15. Mobility Technologies Co., Ltd. 実験結果 15 MLP-Mixer convolution-based models attention-based models SoTAには及ばないが、SoTAに匹敵する精度を低い計算コストで実現している
  • 16. Mobility Technologies Co., Ltd. pre-trainingに要する時間 vs 精度 16 他のSoTAモデルと並び、Mixerは Pareto frontier上にある
  • 17. Mobility Technologies Co., Ltd. pre-trainingのデータセットサイズ vs 精度 17 ■ ResNetやViTと比較してMixerはデータセッ トサイズを大きくすることによる精度向上 が顕著 ■ データセットサイズを大きくすることでViT との性能差も小さくなっていく ■ MixerはViTよりもpre-trainingのデータセッ トサイズの恩恵を受けやすい ■ inductive biaseの違い?(ViTの self-attentionで獲得される特性の方 が真の分布に対するcompatibilityが 低い)
  • 18. Mobility Technologies Co., Ltd. モデルサイズ vs 精度/スループット 18 モデルサイズを大きくすればMixer はPareto frontierに乗る
  • 19. Mobility Technologies Co., Ltd. token-mixing MLPのweightの可視化 19 1st layer 2nd layer 3rd layer
  • 20. Mobility Technologies Co., Ltd. ■ ViTを踏襲し、convolutionもattentionも使わずMLP-onlyなシンプルなアーキテクチャで SoTAに匹敵する画像分類性能を達成 ■ 精度のみではSoTAに及ばないが、精度 vs 計算コストを考えるとPareto frontier上に ある ■ attentionを使うViTは入力パッチ数の2乗に比例して演算量が増えるが、Mixerは線形 に抑えられる ■ pre-trainingのデータセットサイズに対するスケーラビリティが高い まとめ 20
  • 21. Mobility Technologies Co., Ltd. ■ 公式 https://github.com/google-research/vision_transformer ■ timm https://github.com/rwightman/pytorch-image-models 実装 21
  • 22. Mobility Technologies Co., Ltd. なぜか同時多発的に類似論文がarXivに登場 ■ 5/4 MLP-Mixer: An all-MLP Architecture for Vision ■ 5/6 Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet ■ 5/7 ResMLP: Feedforward networks for image classification with data-efficient training おまけ 22
  • 25. Mobility Technologies Co., Ltd. We're Hiring! 25 https://hrmos.co/pages/mo-t/jobs