
离线数仓项目
文章平均质量分 95
收录个人在搭建《尚硅谷电商客服离线数仓》项目,全套笔记教程,笔记中也添加了个人理解,并对官方项目文档进行了优化,欢迎访问!
天蓝_BlueSky
孜孜不倦,持之以恒!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
离线电商数仓业务浅谈
也就是说,DIM层已经对事实描述的角度做出了处理,例如商品维度表抽取了ODS层的如下图8张表,对于商品来说,商品只是描述问题的维度,在后面的数据处理中,只需要对这一维度进行描述即可。 从ODS层知道,我们获取的只是对应的日志文件,那么必然要进行拆分,放入不同的数据表中,这里分为启动日志,页面日志,动作日志,曝光日志,错误日志五张表。后台数据库进行增删改查交互,产生的数据就是业务数据。实的角度,也就是我们所说的维度,在完成需求的时候,需要结合描述事实的角度,与事实的度量,相结合的方式。原创 2023-02-23 23:41:37 · 1372 阅读 · 2 评论 -
离线数仓搭建_18_Presto&Kylin即席查询
Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。原创 2022-10-06 20:08:08 · 426 阅读 · 0 评论 -
离线数仓搭建_17_Superset可视化工具的安装与使用
Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。原创 2022-09-30 17:03:48 · 893 阅读 · 0 评论 -
离线数仓搭建_16_Azkaban全流程调度
由于我们需要交给Azkaban调度的脚本,以及脚本需要的Hive,Sqoop等应用只在hadoop102部署了,为保证任务顺利执行,我们须在以下两种方案任选其一,推荐使用方案二。(3)观察HDFS的/origin_data/gmall/log/topic_log/2020-06-15路径是否有数据。(1)修改/opt/module/applog下的application.properties。(1)修改/opt/module/db_log下的application.properties。原创 2022-09-29 23:26:52 · 1196 阅读 · 1 评论 -
离线数仓搭建_15_ADS层数据构建
ADS层不涉及建模,建表根据具体需求而定。该需求为访客综合统计,其中包含若干指标,以下为对每个指标的解释说明。1.建表语句2.数据装载思路分析:该需求的关键点为会话的划分,总体实现思路可分为以下几步:第一步:对所有页面访问记录进行会话的划分。第二步:统计每个会话的浏览时长和浏览页面数。第三步:统计上述各指标。16.2.2 路径分析 用户路径分析,顾名思义,就是指用户在APP或网站中的访问路径。为了衡量网站优化的效果或营销推广的效果,以及了解用户行为偏好,时常要对访问路径进行分析。 用户原创 2022-09-28 14:45:11 · 562 阅读 · 0 评论 -
离线数仓搭建_14_DWT数据构建
(1)在/home/atguigu/bin目录下创建脚本dws_to_dwt_init.sh。(1)在/home/atguigu/bin目录下创建脚本dws_to_dwt.sh。(2)查看数据是否导入成功。(2)增加脚本执行权限。在脚本中填写如下内容。在脚本中填写如下内容。原创 2022-09-28 14:15:32 · 547 阅读 · 0 评论 -
离线数仓搭建_13_DWS层业务主题构建
1)map结构数据定义2)array结构数据定义3)struct结构数据定义4)struct和array嵌套定义。原创 2022-09-27 15:09:58 · 333 阅读 · 0 评论 -
离线数仓搭建_12_DWD层业务数据创建
本章节为数仓搭建DWD层业务数据创建及导入。原创 2022-09-26 10:53:40 · 906 阅读 · 0 评论 -
离线数仓搭建_11_DWD层用户行为日志创建
本文主要为数仓搭建用户行为日志表创建以及导入过程。原创 2022-09-24 14:16:58 · 331 阅读 · 0 评论 -
离线数仓搭建_10_DIM层维度层数据导入
本文为数据仓库DIM层数据装载流程,主要为DIM层的数据导入过程。原创 2022-09-22 16:11:14 · 1109 阅读 · 0 评论 -
离线数仓搭建_09_ODS层数据导入
本文为数仓搭建的第一层,即为ODS原始数据层,主要是将原始数据导入到hive中。原创 2022-09-21 17:47:30 · 1231 阅读 · 1 评论 -
离线数仓搭建_08_Hive on Spark环境搭建及数据准备
本文主要介绍内容为离线数仓的搭建,主要为Hive on Spark的测试,以及将业务数据上传到HDFS中。原创 2022-09-21 13:06:26 · 600 阅读 · 1 评论 -
离线数仓搭建_07_数仓建模理论
本文主要介绍数仓建模理论相关知识,主要内容包括,数仓分层和相关概念,维度表与实时表以及数仓每层的分步建立,为数仓正式搭建打下坚固的理论基础。原创 2022-09-19 19:53:52 · 594 阅读 · 0 评论 -
离线数仓搭建_06_业务数据的采集与Sqoop/MySQL/HDFS/Hive数据同步
本模块内容主要介绍业务数据的采集并与Sqoop,MySQL,HDFS,Hive框架形成同步机制,为后面的数仓建模做好基础设施建设。至此电商数仓,业务数据采集模块结束!原创 2022-09-19 15:50:25 · 412 阅读 · 0 评论 -
离线数仓搭建_05_电商业务简介与业务数据说明
本文为离线数仓,业务数据介绍部分,主要帮助读者了解关于电商业务数据的相关内容!原创 2022-09-19 14:47:02 · 815 阅读 · 1 评论 -
离线数仓搭建_04_zookeeper-flume-kafka框架配置
本文主要是对数据采集框架进行的配置,包含zookeeep,flume,kafka等组件,是一套完整的数据采集模块。原创 2022-09-04 20:24:15 · 904 阅读 · 0 评论 -
离线数仓搭建_03_Hadoop的配置与优化测试
本文为数仓搭建环境配置阶段之hadoop的配置安装与优化,数仓搭建教程持续更新中尽请期待!原创 2022-09-03 18:12:35 · 1069 阅读 · 0 评论 -
离线数仓搭建_02_服务器配置与数据生产
本文主要介绍《尚硅谷电商离线数仓》项目,服务器配置与数据生产的主要内容。原创 2022-09-02 15:19:03 · 730 阅读 · 0 评论 -
离线数仓搭建_01_数仓概念与项目框架说明
数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。原创 2022-09-01 21:12:23 · 1803 阅读 · 0 评论