基于深度学习的轴承故障识别-数据预处理

我这几天在公共号上看一个数据挖掘数据分析的大佬分享经验,讲到数据预处理的重要性,说在学习的时候都是下载下来标准数据集,数据齐齐整整的,等工作实际上项目遇到的数据都是大量噪点。数据预处理经常被低估重要性,说到深度学习可能会想到神经网络,想到网络层,想到算法,但是潜意识总觉得数据处理是另一块的东西。我自己的看法是,比起黑箱的深度学习过程, 数据预处理直观得多,效果也很明显。


说了一大堆,我这个毕设用的数据集也是标准数据集,也没有啥要处理的噪点,所以主要就是做了一下数据增强。

数据增强的目的就是在不实质性增加数据的情况下,让有限的数据产生等价于更多数据的价值。就像张飞让部下在马尾绑树枝跑来跑去假装人多一样,用一定的方式使数据对训练集而言显得更多。

如果处理的是图片,可以将图片做几何变换(翻转,旋转,缩放等),也可以做颜色变换(模糊,噪声,填充等),生成对抗网络也是很好的数据增强方式。更多的可以看参考1言有三的文章。

这里数据增强的方法用的是重叠采样,采集训练样本时,选定样本长度为l,步长为s偏移,若数据集共有n个数据,则可以得到[n-(l-s)]个训练样本,用这种方法扩充数据量。

重叠采样(图片来自哈工大张伟的论文)

另外,数据样本有限,划分数据集的时候,可以采用交叉验证法或者留一法等方法。

交叉验证法(cross validation)即将数据集划分成k个互斥子集,为了确保数据的一致性,子集通过分层采样获取。训练时,k-1个子集作为训练集,余下的一个子集是测试集。此方法实际性能的稳定性很大程度取决于k的取值,故通常称为“k折交叉验证”(k-fold cross validation),k

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zhangjiali12011

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值