一、背景
神经网络的吸收信息的容量(capacity)受限于参数数目。
条件计算(conditional computation)针对于每个样本,激活网络的部分子网络进行计算,它在理论上已证明,可以作为一种显著增加模型容量的方法。
所以本文引入了稀疏门控专家混合层(Sparsely-Gated Mixture-of-Experts Layer),包括数以千计的前馈子网络。对于每一个样本,有一个可训练的门控网络(gating network)会计算这些专家(指前馈子网络)的稀疏组合。
二、模型结构
本文的条件计算方法,就是引入了一个新的通用神经网络组件类型:稀疏门控专家混合层。
MoE 包含:
- 一些专家,每个专家都是一个简单的前馈神经网络。
- 一个可训练的门控网络,它会挑选专家的一个稀疏组合,用来处理每个输入。
- 所有网络都是使用反向传播联合训练的。
如图所示,我们把 MoE 以卷积的方式(convolutionally)放在多层 LSTM 层之间。在文本的每个位置上,就会调用 MoE 一次,进而可能选择不同的专家组合。不同的专家会倾向于变得高度专业化(基于语法和语义)。