- 博客(5)
- 收藏
- 关注
原创 多轮对话论文阅读
《Learning Efficient Dialogue Policy from Demonstrations through Shaping》和《Bootstrapped Policy Learning for Task-oriented Dialogue through Goal Shaping》两篇论文的阅读
2025-05-03 18:10:22
1983
1
原创 transformer架构
特别是在某些专业领域。预训练技术使得模型能够从未标记的大规模数据中学习通用特征和先验知识,比如语言的语法规则、视觉的底层特征,从而减少对标记数据的依赖,使得在有限的数据集上也能训练出性能良好的模型。编码器解码器注意力计算时,关注来自编码器的源序列和解码器自身输入的注意力信息,将编码器的输出作为Key和Value向量,解码器的自身自注意力输出作为Query向量。技巧,缓解神经网络中的内部协变量偏移问题,即层之间的输入分布的变化,有助于稳定模型的训练过程,提高模型的收敛速度,并且可以使用更大的学习率。
2025-03-17 14:01:43
826
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人