
数仓建模
文章平均质量分 88
总结数仓开发中常见的一些知识点、项目中遇到的一些常见的问题。
SunnyRivers
在通信、游戏、互联网、新能源等不同行业从事过多年大数据开发相关工作,想通过博客和大家一起分享大数据技术带来的经验和乐趣。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓模型开发流程
仓库的应用则为满足业务部门各种数据统计需求,实现一个需求会涉及到多个参与方,原则上数据仓库主要负责共性需求的加工,而下游集市主要负责个性需求加工,因此需求需要分解,分解为共性需求与个性需求,最终形成数据仓库共性加工需求。在数据仓库建设过程中会存在业务系统终止运行、模型调整升级等情况,此时需要数据仓库模型执行下线处理,模型下线需在模型文档中明确标识,模型对应的数据表不删除,模型对应的任务执行下线处理。数据仓库模型建设主要有两种驱动方式,分别是需求驱动与数据驱动,一般采取需求驱动为主,加强数据驱动的建设方式。原创 2024-10-21 09:57:12 · 680 阅读 · 0 评论 -
数仓模型规范设计
分区致力于解决支持大表和索引的关键问题,一旦分区被定义,SQL语句就可以访问的操作某一个分区而不是整个表,因而提高管理的效率。分区对于数据仓库应用程序非常有效,因为他们常常存储和分析巨量的历史数据,对于HIVE,分区实际就是对应HDFS文件系统上的的独立的文件夹,该文件夹下是该分区所有数据文件。在分区设计中通常需要从数据存储与数据访问角度考虑。以下为常用表设计的分区定义。流水表:流水表通常的加载或加工方式为增量,在使用时也经常按天的方式进行应用,通常设计date=数据日期作为分区。原创 2024-10-21 09:32:10 · 1354 阅读 · 0 评论 -
数仓建模流程
数仓建模中的“建模”是一个将数据有序组织和存储起来的过程,旨在提高数据的使用效率和降低使用成本。规范定义主要是定义指标体系,原子指标、修饰词、时间周期和派生指标。指标体系指标体系包含原子指标、派生指标、修饰类型、修饰词、时间周期。原子指标/度量原子指标和度量含义相同,基于某一业务事件行为下的度量,是业务中不可再拆分的指标,具有明确业务含义的名词,如支付金额。派生指标派生指标=一个原子指标+多个修饰词(可选)+时间周期。可以理解为对原子指标业务统计范围的圈定。原创 2024-10-12 09:03:52 · 1003 阅读 · 0 评论