摘要 归一化层在现代神经网络中无处不在,长期以来一直被认为是必不可少的。这项工作表明,使用一种非常简单的技术,不含归一化层的Transformer也能达到相同甚至更好的性能。我们引入动态双曲正切(Dynamic Tanh, DyT),这是一种逐元素操作,即 D y T ( x ) = tanh ( α x ) DyT(x)=\tanh(\alpha x)