Hadoop
数据压缩
-
概述
- 优点:以减少磁盘IO,减少磁盘储存空间
- 缺点:增加CPU开销
-
压缩原则
- 运算密集型的·Job,少用压缩
- IO密集型的Job,多用压缩
-
MR支持的压缩编码
- 压缩算法对比介绍
- 压缩性能的比较
- 压缩算法对比介绍
-
压缩方式选择
- 压缩方式选择时重点考虑:压缩、解压缩速度、压缩率(压缩后储存大小)、压缩后是否可以支持切片
Gzip
压缩- 优点:压缩率比较高
- 缺点:不支持切片,压缩、解压缩速度一般
Bzip2
压缩- 优点:压缩率高,支持切片
- 缺点:压缩/解压缩速度慢
Lzo
压缩- 优点:压缩/解压缩速度比较快,支持切片
- 缺点:压缩速率一般,想支持切片需要额外创建索引
- Snappy压缩
- 优点:压缩和解压缩速度快
- 缺点:不支持切片,压缩率一般
-
压缩位置选择
- 压缩可以在
MapReduce
作用的任意阶段启用
- 压缩可以在
-
压缩参数配置
-
为了支持多种压缩/解压缩算法,Hadoop引入编码和解码器
-
要在Hadoop中启用压缩,可以配置如下参数
-
-
注意:
- 即使你的MapReduce的输出输入文件都是为压缩的文件,你仍然可以对Map任务的中间结果输出做出压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能。