文章目录
如今深度学习取得了令人瞩目的成功,但是深度学习模型需要有大量的标注数据进行支撑。真实应用情景中,经常会出现缺乏标注数据、数据分布不均衡导致模型鲁棒性差、模型性能不佳的问题,而文本增强能在一定程度上解决这些问题。
为什么文本增强会为模型带来性能提升呢?在扩大数据的数量使模型能够充分训练的表象之下,主要包含以下几个原因:
1、文本增强引入了外部知识
- 人工的先验知识,如将图片翻转之后图片类别不变,句子中动词的缩写展开变为原型语义不变等。
- 领域外知识,如使用预训练的生成器生成新的样例时,引入了预训练模型中丰富的知识。
2、防止过拟合
- 通过向数据中加入随机噪声,提升模型鲁棒性。
- 通过扩大数据的数量,使其更加平滑。
1、方法综述
数据增强最早应用在CV领域,如对图片进行翻转、旋转、缩放、平移等。近年来,出现了更为复杂的CV数据增强方法,如图片风格迁移Luan et al.(2017)[1](如图1)。