自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 使用Hive创建分区表及常见问题解决

【Hive分区表使用指南】本文介绍了Hive分区表的创建与使用技巧。通过SQL示例展示了静态和动态两种数据加载方式,并针对分区字段显示NULL、动态分区失败、元数据不一致等常见问题提供了解决方案。建议避免高基数列作为分区键,定期收集统计信息,并利用分区裁剪优化查询。文章强调合理使用分区表能显著提升大数据查询效率,是数据工程师的必备技能。文末还提供了技术博客链接和互动提示。

2025-07-07 11:21:37 404

原创 Hive查询慢如何优化?

问题,结合快餐项目中的真实案例,详细说明优化方案及效果。:在分析「各城市门店周销量」时,查询耗时从日常的。:优化后每日报表生成时间从2小时压缩至8分钟。被重复扫描 200+ 次。Shuffle 数据量达。:在子查询中提前过滤分区。:强制将维度表放入内存。store_id`列。

2025-07-01 11:33:27 298

原创 「拉链表如何解决跨天支付问题」的详细案例解析,结合快餐项目场景说明具体实现流程:

AND end_date >= '2023-07-01' -- 关键:锁定7月1日当天有效记录。AND status = '已支付' -- 此时状态尚未变更为"已完成"'9999-12-31' AS end_date -- 标记为当前有效。'2023-07-02' AS start_date, -- 新记录生效日。-- 若该订单当日有变更,则end_date设为昨日。-- 2. 关闭旧记录:将变更订单的原有效记录设为过期。更新为变更前一天(2023-07-01)

2025-07-01 10:25:00 455

原创 深入剖析Spark数据倾斜:分布式计算的隐形杀手:数据倾斜当你的Spark任务从10分钟突然变成2小时,当Executor陆续宕机而99%的任务卡在最后1%...这很

📌 数据倾斜问题及解决方案 数据倾斜表现为少数Task长时间运行(>1小时)或Executor内存溢出(OOM),主要由以下原因引起: 1️⃣ Key分布不均(热点Key) 解法:盐值分桶(添加随机前缀)、热点分离(单独处理TopN Key)、动态分区调整(增大shuffle分区数)。 2️⃣ Shuffle操作倾斜(Join/GroupBy) 解法:广播小表(Map侧Join)、分桶Join、预聚合(reduceByKey替代groupByKey)、启用SkewJoin优化。 3️⃣ 分区与资源失

2025-06-29 17:40:15 367

原创 离线数仓避坑指南:Hive分区表数据在HDFS却查不到?详解MSCK REPAIR TABLE解决方案

摘要: 当离线数仓ETL任务直接写入HDFS分区路径(如dt=20230601)后,Hive/SparkSQL查询返回空结果,原因是Hive元数据未同步更新。解决方案:使用MSCK REPAIR TABLE命令自动扫描HDFS目录,修复元数据缺失的分区。需确保分区路径命名规范(如分区键=分区值),并赋予执行账号ALTER权限。对于海量分区表,可指定层级优化性能。修复后,分区和数据即可正常查询。

2025-06-28 00:22:59 530

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除