「大数据集群的搭建和使用」本期课程学习概览

该课程旨在教授大数据集群的搭建和使用,包括Hadoop、Spark、HBase、ZooKeeper和Kafka等组件的部署。学员将学习如何通过这些工具进行热门品类Top10、各区域热门商品Top3以及网站转化率的分析,涉及数据读取、统计、排序和持久化存储到HBase的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

课程名称:大数据集群的搭建和使用


学习目的:每年学一个小技术


学习目标:用所学知识分析电子烟行业热门品类Top10、各区域热门商品Top3、网站转化


学习内容:

第一部分:

大数据背景知识学习

大数据概述

Hadoop概述

第二部分:

搭建大数据集群环境

了解Linux操作系统

掌握虚拟机的创建与启动

熟悉Linux操作系统的安装

掌握虚拟机的克隆

熟悉Linux操作系统网络及主机名的配置

熟悉Linux操作系统SSH和时间同步的配置

掌握ZooKeeper集群部署

掌握Hadoop集群部署

掌握Spark集群部署

掌握HBase集群部署

掌握Kafka集群部署

第三部分:

热门品类Top10分析

掌握热门品类Top10分析实现思路

掌握如何创建Spark连接并读取数据集

掌握利用Spark获取业务数据

掌握利用Spark统计品类的行为类型

掌握利用Spark过滤品类的行为类型

掌握利用Spark合并相同品类的行为类型

掌握利用Spark根据品类的行为类型进行排序

掌握将数据持久化到HBase数据库

熟悉通过Spark on YARN运行程序

第四部分:

各区域热门商品Top3分析

掌握各区域热门商品Top3分析实现思路

掌握如何创建Spark连接并读取数据集

掌握利用Spark获取业务数据

掌握利用Spark过滤商品的行为类型

掌握利用Spark转换数据格式

掌握利用Spark统计每个区域中的不同商品

掌握利用Spark根据区域进行分组

掌握利用Spark根据区域内商品的查看次数进行排序

掌握将数据持久化到HBase数据库

掌握通过Spark On YARN运行程序

第五部分:

网站转化率统计

掌握网站转化率统计实现思路

了解如何生成用户浏览网页数据

掌握如何创建Spark连接并读取数据集

掌握利用Spark SQL统计每个页面访问次数

掌握利用Spark SQL获取每个用户浏览网页的顺序

掌握利用Spark SQL合并同一用户浏览的网页

掌握利用Spark SQL统计每个单跳的次数

掌握利用Spark SQL计算页面单跳转化率

掌握将数据持久化到HBase数据库

熟悉通过Spark On YARN运行程序

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

优秀的Athena在休息

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值