MLP-Mixer: An all-MLP Architecture for Vision

Mobility Technologies Co., Ltd.
MLP-Mixer: An all-MLP Architecture for Vision
2021/05/14
宮澤一之

宮澤一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
自己紹介
2
@kzykmyzw

論文情報
3
arXiv: https://arxiv.org/abs/2105.01601
■ Google Research
■ 2021年5月4日arXiv投稿
■ 著者の多くがViT論文と重複（赤下線）

概要
4
convolutionもattentionも使わずMLPのみで画像分類のSoTAに匹敵する精度を達成
https://youtu.be/7K4Z8RqjWIk

アーキテクチャ
5

6
ViTと同様に画像をパッチ
（e.g. 16x16）に分割

7
パッチごとのlinear
embeddings（token）

8
Mixer Layer（後述）の
繰り返し

9
クラス分類

Mixer Layer
10
各パッチのembeddingを縦方向に並べたテーブル

Mixer Layer
11
token-mixing MLP block
■ 入力テーブルの各列（チャネル）に独立にMLPを適用
■ 全てのチャネルに対してMLPの重みは共通
■ 異なる空間位置の間で特徴量を混合する役目
■ toxen-mixing MLPは入力tokenの順序にセンシティブなため、ViTのようなposition
embeddingsがなくても位置情報を学習できる

Mixer Layer
12
channel-mixing MLP block
■ 入力テーブルの各行（パッチ）に独立にMLPを適用
■ 全てのパッチに対してMLPの重みは共通
■ 異なるチャネルの間で特徴量を混合する役目

convolutionとの関係
13
1 x 1 convolutionと同等
single-channel depth-wise convolutionと同等
■ MixerはCNNの特殊ケースとみなすことができる
■ channel-mixing MLPでのweight sharingにより位置不変性を獲得
■ token-mixing MLPでチャネル間でweight sharingするのはCNNではあまり一般的でな
いが*モデルが大きくなった際のメモリ使用量削減に大きな効果を発揮
* separable convolutionでは各チャネルに独立にconvolutionを適用するが、カーネルが各チャネルで異なる
token-mixing MLP block channel-mixing MLP block

■ 中〜大規模なデータセットでpre-trainingを行い、小〜中規模なデータセットに
finetuningして画像分類の性能を評価
■ 性能評価尺度
■ 画像分類の精度
■ pre-trainingに要する時間
■ 推論のスループット
■ 実装スペック
実験
14
参考：ViTのスペック

実験結果
15
MLP-Mixer
convolution-based models
attention-based models
SoTAには及ばないが、SoTAに匹敵する精度を低い計算コストで実現している

pre-trainingに要する時間 vs 精度
16
他のSoTAモデルと並び、Mixerは
Pareto frontier上にある

pre-trainingのデータセットサイズ vs 精度
17
■ ResNetやViTと比較してMixerはデータセッ
トサイズを大きくすることによる精度向上
が顕著
■ データセットサイズを大きくすることでViT
との性能差も小さくなっていく
■ MixerはViTよりもpre-trainingのデータセッ
トサイズの恩恵を受けやすい
■ inductive biaseの違い？（ViTの
self-attentionで獲得される特性の方
が真の分布に対するcompatibilityが
低い）

モデルサイズ vs 精度/スループット
18
モデルサイズを大きくすればMixer
はPareto frontierに乗る

token-mixing MLPのweightの可視化
19
1st layer 2nd layer 3rd layer

■ ViTを踏襲し、convolutionもattentionも使わずMLP-onlyなシンプルなアーキテクチャで
SoTAに匹敵する画像分類性能を達成
■ 精度のみではSoTAに及ばないが、精度 vs 計算コストを考えるとPareto frontier上に
ある
■ attentionを使うViTは入力パッチ数の2乗に比例して演算量が増えるが、Mixerは線形
に抑えられる
■ pre-trainingのデータセットサイズに対するスケーラビリティが高い
まとめ
20

■ 公式　https://github.com/google-research/vision_transformer
■ timm https://github.com/rwightman/pytorch-image-models
実装
21

なぜか同時多発的に類似論文がarXivに登場
■ 5/4
MLP-Mixer: An all-MLP Architecture for Vision
■ 5/6
Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well
on ImageNet
■ 5/7
ResMLP: Feedforward networks for image classification with data-efficient training
おまけ
22

23

24

We're Hiring!
25
https://hrmos.co/pages/mo-t/jobs

文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。
26

MLP-Mixer: An all-MLP Architecture for Vision

Recommended

More Related Content

What's hot (20)

Similar to MLP-Mixer: An all-MLP Architecture for Vision (20)

More from Kazuyuki Miyazawa (11)

MLP-Mixer: An all-MLP Architecture for Vision