1、项目背景
随着计算机技术与通信技术的日益成熟和广泛应用,互联网自90年代初开始得到迅猛的发展,至今虽只有十几年时间,但已发展成为信息时代的人类生活中不可或缺的部分,成为全球范围内信息传播的主要渠道,与此同时,连入互联网的用户越来越多。目前,互联网的用户规模已不容小视,互联网市场潜力巨大,各大网站运营商都在采取积极的措施,分析用户的行为特征,对不同客户群提供差异化的服务,以达到精准营销的目的。比如,有些网站根据用户的注册资料,性别、年龄、区域、职业等信息对用户进行分群,但这种分群方式是“粗犷”的,未能考虑到用户的行为特征和兴趣偏好,分群结果难以为精准营销提供决策的支持。
网站运营商想要在浩如烟海的互联网用户中找到目标客户存在很大困难,具体表现为:运营商不知道目标用户浏览网站时有什么样的行为特征和习惯?运营商急需快速有效的方法解决用户分群问题。在这一背景下,本案例采用数据挖掘的手段分析用户过去的浏览行为,在此基础上建立用户自动分群模型。
本案例的研究对象是泰迪杯竞赛网站,泰迪智能科技是一家专门从事大数据挖掘研发、咨询和培训服务的高科技企业。泰迪杯竞赛网致力于为用户提供丰富的泰迪杯竞赛信息、数据挖掘培训咨询,并提供往届优秀作品作为参考,以及面向高校的丰富教学资源,如:案例教程、教学视频、教学书籍、建模工具等。访问用户的增加使得网站越发难以掌握用户的需求。为更好满足用户的需求,本案例依据用户的历史浏览记录,研究用户的兴趣偏好,分析需求并发现用户的兴趣点,从而将用户分成不同群体。公司后续可以针对不同群体提供差异化的服务,提高用户的使用体验。
2、项目目标
-
依据用户的历史浏览记录,分析用户的行为特征和兴趣偏好。
-
根据用户的行为特征和兴趣偏好将用户划分成不同的群体,分析各群体的属性特征。
3、项目步骤
3.1工程前期准备
3.1.1导入数据
(1)介绍数据
用户访问网站时,系统会自动记录用户访问网站的日志。该网站被访问的数据记录(部分字段),如表 3‑1所示。
表 3‑1 用户访问记录表
id |
page_path |
Userid |
seeeionid |
ip |
data_time |
1 |
/zytj/index.jhtml |
NA |
DE80E709835F8AB1A38196185B05FDBC |
218.28.23.137 |
2016/7/14 18:33 |
2 |
/zytj/index.jhtml |
NA |
ED095CA37DB28D1404124B4988CAFB9F |
218.28.23.137 |
2016/7/14 18:33 |
3 |
/xtxm/index.jhtml |
8180 |
773F9B491EF1027B76698C489DEB9DB9 |
188.165.225.224 |
2016/7/14 18:34 |
4 |
/notice/614.jhtml |
NA |
E32144406C1DEAB298FE4677846A449D |
180.153.214.152 |
2016/7/14 18:35 |
5 |
/stpj/626.jhtml |
8181 |
FBD4EB0F3E6390A493997B22B0DE51AD |
180.153.206.20 |
2016/7/14 18:35 |
6 |
/thirdtipdm/index.jhtml |
NA |
0430EF0B7E5CD8A3831E78290DD2CED3 |
111.206.36.19 |
2016/7/14 18:35 |
表 3‑1记录了访问序号、内容id、访问内容、用户id、ip等多项属性的记录,并针对其中各个属性进行了说明,如表 3‑2所示。
表 3‑2 访问记录属性表
属性名称 |
属性说明 |
属性名称 |
属性说明 |
id |
访问序号 |
browser_type |
浏览器类型 |
content_id |
内容id |
browser_version |
浏览器版本 |
page_path |
网址 |
platform_type |
平台类型 |
username |
用户名称 |
platform_series |
平台系列 |
userid |
用户id |
platform_version |
平台版本 |
sessionid |
一次浏览标识 |
data_time |
访问时间 |
ip |
ip地址 |
mobile_type |
手机类型 |
country |
国家 |
agent |
代理商 |
area |
区域 |
uniqueVisitorId |
唯一浏览ID |
(2)上传数据到Python数据挖掘建模平台
在新增数据源上,选择本地上传数据,如图 1所示。
图 1 本地上传数据源
在本地路径上选择文件,填写在平台新建的目标表名,如图 2所示。
图 2 本地选择文件上传
根据文件的数据,可以修改文件的字段名和类型,如图 3所示。
图 3 字段设置
上传成功,可以在平台的数据源上查看数据&#