本文是LLM系列文章,针对《PRETRAINED LANGUAGE MODEL IN CONTINUAL LEARNING: A COMPARATIVE STUDY》的翻译。
持续学习中的预训练语言模型比较研究
摘要
连续学习(CL)是一种设置,在这种设置中,模型从输入数据流中学习,同时避免忘记先前学习的知识。预训练语言模型已经成功地应用于不同自然语言问题的连续学习中。随着许多持续学习方法和PLM的快速发展,理解和理清它们的相互作用对于持续提高持续学习成绩至关重要。在本文中,我们在2个典型的增量设置中,在3个基准上,彻底比较了5种PLM和4种CL方法组合的持续学习性能。我们广泛的实验分析揭示了PLM和CL方法之间有趣的性能差异。此外,我们的代表性探索分析以分层和任务的方式剖析了PLM的性能特征,揭示了它们的内层被遗忘的程度,以及不同CL方法对每一层的影响。最后,我们的观察和分析揭示了一些重要的研究问题,这些问题将为有效的持续学习技术的设计提供信息和指导。