物流行业分析1 --浅析商品 | 用户反馈数据
数据来源说明
数据来源:某网络公开数据 [ 某企业销售的6种商品所对应的送货及用户反馈数据 ] ,如有侵权,请联删除,谢谢!
导入包
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = 'SimHei' ## 设置中文显示
项目背景
解决问题:
1、配送服务是否存在问题
2、是否存在尚有潜力的销售区域
3、商品是否存在质量问题
分析结论:
1、货品4→西北,货品2→马来西亚两条线路存在较大问题,急需提升时效;
2、货品2在华东地区还有较大市场空间,适合加大投入。同时货品2在西北配送时效长,用户拒收率高,从成本角度考虑,应该减少投入;
3、货品1、2、4质量存在问题,建议扩大抽检范围,增大质检力度;
分析过程如下:
一、数据清洗
① 重复值、缺失值、格式调整
② 异常值处理(比如:销售金额存在等于0的,数量和销售金额的标准差都在均值的8倍以上等)
二、数据探索
增加一项辅助列:月份
三、数据分析并可视化
数据清洗
读取数据
data = pd.read_csv('data_wuliu.csv',encoding='gbk') #读取csv文件
data.head() #查看数据前5行
data.info()
通过info()可以看出,包括10列数据,名字,数据量,格式等,可以得出:
1. 订单号 货品交货状态 数量都是有缺失值的,但是确实量不大,可以删除;
2. 订单行 对分析影响不大,可以考虑删除;
3. 销售金额格式不对(万元|元,逗号问题),数据类型需要转换成int|float
重复值和缺失值处理
#删除重复值
data.drop_duplicates(keep='first&