这是Analiytics Vidhya的竞赛题目,大型商场销售额预测,该项目提供了从不同城市的10家商店中收集的多种商品的销售数据,目的是通过这些销售数据建立一个模型,预测每个产品在特定商店中的销售情况。在这里使用竞赛中提供的数据,先对数据进行分析,来发现销售的规律。
数据已经从Analiytics Vidhya网站上下载了,首先导入使用的类库,并读入数据文件。
数据读入之后,首先看一下是否有缺失值。
通过计算可以看出,商品重量和店铺大小存在缺失值。那么,看一下缺失值的数量,再来决定如何处理缺失值。
通过计算可以看到,缺失值所占比例较大,如果是要构建模型进行预测,需要对数据进行缺失值填充。在这里只是对数据分析,因此对缺失值先采取删除的策略。留待后续预测是在填充缺失值。
删除缺失值后,剩余4650条记录,这些数据全部都是2013年的销售数据,首先对这些数据进行分析,寻找那些