Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Layerの紹介

Outrageously Large Neural Networks:
The Sparsely-Gated
Mixture-of-Experts Layer
論文紹介
Twitter:@UMU____

何の論文か？
• 混合エキスパート層(Mixture-of-Experts)をDNNに導入するこ
とで，法外に(outrageously)大きいネットワークを，実現可能
な計算量に落とし込んで学習させることができた．という論文．

目次
• 大きなネットワークの必要性
• DNNの計算量について
• 混合エキスパート層の構成
• 混合エキスパート層のゲート
• （計算効率のための手法）
• まとめ

大きなネットワークの必要性
• 自然言語処理や音声処理，画像処理を機械学習で扱う際，非常
に大きなデータセットと，非常に大きなネットワークを用いる
ことで，性能が向上するということが経験的に知られている．
GoogLeNet
1400万画像

DNNの計算量について
• DNNの計算量は，データセットのサイズとネットワークのサイ
ズに各々比例する．データセットとネットワークのサイズはど
ちらも大きくなっていくので，結果的に二次のオーダーで計算
量が増える
→大問題．
・そこで，ネットワークのサイズと計算量が比例しないようにす
る方法が開発されてきた（先行研究）
→手法：データがネットワークで処理される際，ネットワークの
大分部を通らないようにする．（疎なモデル）

混合エキスパート層の構成
• 本論文で使用されている「混合エキスパート層」は，複数のエ
キスパート（ネットワーク）を，「ゲート」(Gating Network)
を用いて，（連続的に）ON/OFFすることで，疎なモデルを実
現．
• 混合エキスパートの手法自体は，
1990年代からある古いもの．
SVMなど他の機械学習手法の適用例や，
ゲートが離散的など，
様々なバリエーションが存在．

• エキスパート自体がNNと
なっている．
• 入力をx,出力をy，各エキス
パートの関数を𝐸𝑖(𝑥)，ゲー
トの関数を𝐺(𝑥)𝑖とすると，
混合エキスパート層全体で
みた関数は，
𝑦 = 𝐸𝑖(𝑥)𝐺(𝑥)𝑖
となる．

• 本論文では，𝐸𝑖(𝑥)として隠
れ層1層とそれに付随した活
性化層ReLuを用いている．

𝑦 = 𝐸𝑖(𝑥) 𝐺(𝑥)𝑖
• 𝐺(𝑥)𝑖 = 0となる𝑖に対しては，
𝐸𝑖(𝑥)を計算する必要がない
ので，疎なモデルが実現さ
れている．
• もちろん𝐺(𝑥)𝑖 = 0となる頻
度が少なければ意味がない
ので，そのために細工をす
る．

混合エキスパート層のゲート
• ゲートもエキスパートと同様に（学習可能な）NNである．
• ゲートとして考えられる関数としては，
が考えられる（LSTMの選択ゲートと同じ）．
• しかしながら，この関数は𝐺(𝑥)𝑖 = 0とならない．
→KeepTopK関数を用いて，上位k個以外を－∞にした後，
SoftMaxに通すことで解決．
（これによって微分可能性が失われるが問題ないらしい）

混合エキスパート層のゲート
• 加えて，負荷分散のために， KeepTopK関数を通す前にガウシ
アンノイズを加えて，ゲートの完成．ガウシアンノイズの分散
はソフトプラス関数を活性化層に用いた単層NNを用いる．

負荷分散
• 負荷分散は，ゲートによって選択されるエキスパートが偏らな
いようにするために行われる．
ゲートの関数の中身以外にも，偏らないようにするために，
Importance loss,load lossなどを損失関数に加えている．
（正規化の一種？）

計算効率のための手法
＜GPUプログラミングが分かる人向け＞
• この論文は計算効率のことを第一に考えている．
→ハードウェアがGPUであることを考慮したアルゴリズムの設
計になっている．
• エキスパートをすべてのGPUでそれぞれ保持するのではなく，
エキスパートを分割して，特定のGPUはこの部分のエキスパー
ト群を処理する．という仕組みになっている．
• データ並列でスレッドを動かすと，GPUの性質から非効率なた
め，エキスパート並列でスレッドを動かしている．
（エキスパート以外はデータ並列．）

まとめ
• 従来のDNNに比べ，計算量の増大を抑えながらネットワークサ
イズを飛躍的に増大させることができた．
• また，それによって，性能向上がみられた．

Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Layerの紹介

Recommended

More Related Content

What's hot (20)

Viewers also liked (20)

Similar to Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Layerの紹介 (20)

More from KCS Keio Computer Society (20)

Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Layerの紹介