数据分析中缺失值处理~R语言

Taylor_zhuang

于 2018-02-04 19:50:10 发布

阅读量6.1w

点赞数 59

CC 4.0 BY-SA版权

分类专栏： R语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhuangailing/article/details/79253768

最近接到了一些真实的数据，数据中包含着许多缺失值，如何对缺失值处理，能更好的为我们做数据分析，更高效率的建模，缩小在测试集上预测分析的偏差，当然这个偏差越小我们肯定越高兴的。

数据准备

我用的是一份地理样本数据，里面有坐标，各种物质成分（Ca，N，P等）

对于缺失数据的检验，有多个方法。

第一种：

library(VIM)

aggr(env,prop=T,numbers=T)

函数用法，可以在控制台加载完包后help()或者?函数

一看这数据还不算崩溃，但是缺失还是比较严重的，

第二种方法：

用mice包中的md.pattern（data）

怎么解读这个呢，其实最后一行返回的就是缺失数目，98为一共有多少缺失值。

缺失值的处理方法有哪些呢？我主要是做笔记

1、删除缺失值

其实这种方法只有在自己拥有大量的数据进行模型训练才可以选择删除，比如用na.omit()或者

在建模时设置na.action=na.omit。当然，实际业务在过手的时候，数据量不大的情况下，或者你删除

缺失值后，建立的模型不能很好的解释业务，可以考虑缺失值的重新认定。

2、删除个别变量

对于有些确实很严重的数据，比如缺失值的数量超过了你在业务上认定的比例，那么可以删除这个变量。但是我最近接到的数据居然是长这样的，就是这个变量对于要建立的模型很重要，在不能

删除这个变量，我们需要考量变量在模型中的地位以及训练和测试的数量上做一抉择。

最低0.47元/天解锁文章

博客等级

码龄8年

17
原创

127
点赞

620
收藏

70
粉丝

关注

私信

热门文章

分类专栏

R语言 10篇
sublime3学习 2篇
python 7篇
markdown 1篇

展开全部收起

上一篇：: R中gRain包的加载和使用

下一篇：: 使用markdown语法书写python笔记

最新评论

Rmarkdown关于PDF报告的中文输出问题
m0_51878351: 你好请问解决了吗，我也出现这个问题
sublime text3装入插件Anaconda
她不喜欢喝咖啡: 有可能是 anaconda 版本新的问题，2.2.3 支持 sublime 3,新版不支持了，新版支持 sublime 4。
ubuntu19.03下anaconda关联sublime text3
CSDN-Ada助手: 非常感谢您分享了这篇关于“ubuntu19.03下anaconda关联sublime text3”的博客。我觉得你可以继续写一篇关于如何在Ubuntu下使用Anaconda进行Python开发的技术文章。这样的文章对于那些正在学习Python或者使用Ubuntu进行开发的用户来说会非常有帮助，相信会有更多读者受益于你的分享。期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
seaborn绘制热图
101lucky: 格子里的数字能显示成99.8%这种带百分号的数字吗？怎么设置呢？
Rmarkdown关于PDF报告的中文输出问题
bernese_yyds: 作者你好，我使用rmarkdown时出现Error in xfun::normalize_path(path, ..., must_work = must_work, resolve_symlink = FALSE) : 参数没有用(resolve_symlink = FALSE) Calls: <Anonymous> -> normalize_path 停止执行网上查阅了很多方法都无法解决

最新文章

目录

展开全部

收起

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。