数仓治理-小文件治理

前言

          HDFS小文件过多会对Hadoop扩展性以及稳定性造成影响,NameNode需维护大量元数据信息导致占用过多的存储空间。大量的小文件也会导致很差的查询分析性能,因为执行查询时需要进行频繁的文件打开/读取/关闭,造成查询性能的损耗。

一、小文件治理的背景

1.1 小文件产生原因

  • 日常任务及动态分区插入数据会产生大量的小文件,从而导致map数量剧增;
  •  reduce数量越多,小文件也越多(reduce个数和输出文件是对应的)
  • 数据源本身就包含大量的小文件,例如api,kafka消息管道等。
  •  实时数据落hive也会产生大量小文件。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值