TipDM数据挖掘案例:电子商务网站用户分群

1、项目背景

随着计算机技术与通信技术的日益成熟和广泛应用,互联网自90年代初开始得到迅猛的发展,至今虽只有十几年时间,但已发展成为信息时代的人类生活中不可或缺的部分,成为全球范围内信息传播的主要渠道,与此同时,连入互联网的用户越来越多。目前,互联网的用户规模已不容小视,互联网市场潜力巨大,各大网站运营商都在采取积极的措施,分析用户的行为特征,对不同客户群提供差异化的服务,以达到精准营销的目的。比如,有些网站根据用户的注册资料,性别、年龄、区域、职业等信息对用户进行分群,但这种分群方式是“粗犷”的,未能考虑到用户的行为特征和兴趣偏好,分群结果难以为精准营销提供决策的支持。

网站运营商想要在浩如烟海的互联网用户中找到目标客户存在很大困难,具体表现为:运营商不知道目标用户浏览网站时有什么样的行为特征和习惯?运营商急需快速有效的方法解决用户分群问题。在这一背景下,本案例采用数据挖掘的手段分析用户过去的浏览行为,在此基础上建立用户自动分群模型。

本案例的研究对象是泰迪杯竞赛网站,泰迪智能科技是一家专门从事大数据挖掘研发、咨询和培训服务的高科技企业。泰迪杯竞赛网致力于为用户提供丰富的泰迪杯竞赛信息、数据挖掘培训咨询,并提供往届优秀作品作为参考,以及面向高校的丰富教学资源,如:案例教程、教学视频、教学书籍、建模工具等。访问用户的增加使得网站越发难以掌握用户的需求。为更好满足用户的需求,本案例依据用户的历史浏览记录,研究用户的兴趣偏好,分析需求并发现用户的兴趣点,从而将用户分成不同群体。公司后续可以针对不同群体提供差异化的服务,提高用户的使用体验。

2、项目目标

  1. 依据用户的历史浏览记录,分析用户的行为特征和兴趣偏好。

  2. 根据用户的行为特征和兴趣偏好将用户划分成不同的群体,分析各群体的属性特征。

3、项目步骤

3.1工程前期准备

3.1.1导入数据

(1)介绍数据

用户访问网站时,系统会自动记录用户访问网站的日志。该网站被访问的数据记录(部分字段),如表 3‑1所示。

表 3‑1 用户访问记录表

id

page_path

Userid

seeeionid

ip

data_time

1

/zytj/index.jhtml

NA

DE80E709835F8AB1A38196185B05FDBC

218.28.23.137

2016/7/14 18:33

2

/zytj/index.jhtml

NA

ED095CA37DB28D1404124B4988CAFB9F

218.28.23.137

2016/7/14 18:33

3

/xtxm/index.jhtml

8180

773F9B491EF1027B76698C489DEB9DB9

188.165.225.224

2016/7/14 18:34

4

/notice/614.jhtml

NA

E32144406C1DEAB298FE4677846A449D

180.153.214.152

2016/7/14 18:35

5

/stpj/626.jhtml

8181

FBD4EB0F3E6390A493997B22B0DE51AD

180.153.206.20

2016/7/14 18:35

6

/thirdtipdm/index.jhtml

NA

0430EF0B7E5CD8A3831E78290DD2CED3

111.206.36.19

2016/7/14 18:35

表 3‑1记录了访问序号、内容id、访问内容、用户id、ip等多项属性的记录,并针对其中各个属性进行了说明,如表 3‑2所示。

表 3‑2 访问记录属性表

属性名称

属性说明

属性名称

属性说明

id

访问序号

browser_type

浏览器类型

content_id

内容id

browser_version

浏览器版本

page_path

网址

platform_type

平台类型

username

用户名称

platform_series

平台系列

userid

用户id

platform_version

平台版本

sessionid

一次浏览标识

data_time

访问时间

ip

ip地址

mobile_type

手机类型

country

国家

agent

代理商

area

区域

uniqueVisitorId

唯一浏览ID

(2)上传数据到Python数据挖掘建模平台

在新增数据源上,选择本地上传数据,如图 1所示。

图 1 本地上传数据源

在本地路径上选择文件,填写在平台新建的目标表名,如图 2所示。

图 2 本地选择文件上传

根据文件的数据,可以修改文件的字段名和类型,如图 3所示。

图 3 字段设置

上传成功,可以在平台的数据源上查看数据&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

军哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值