大数据工程师方向面试题库，包括Flink,Hadoop,Hbase,Hive,Kafka,Liunx,Spark,Sqoop,Z资源-CSDN文库资源-CSDN文库

共11个文件

doc：9个

docx：2个

需积分: 5 165 浏览量 2023-12-12 22:13:16 上传评论 1 收藏 5.23MB RAR 举报

大数据工程师是当前信息技术领域中的热门角色，他们负责处理海量数据，提供商业洞察，优化业务决策。这份面试题库涵盖了大数据技术栈的关键组件，包括Flink、Hadoop、HBase、Hive、Kafka、Linux、Spark、Sqoop以及Zookeeper。下面将详细解释这些技术及其在大数据处理中的作用。 Hadoop是Apache开源项目，核心是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。HDFS提供了高容错性的存储能力，适合大规模数据集的存储；MapReduce则用于处理和生成大数据集，通过分治策略将大任务拆解为小任务并行处理。 Spark是另一种分布式计算框架，相比MapReduce，它提供了更高效的数据处理，支持交互式查询和流处理。Spark的内存计算特性使其在处理复杂数据分析时速度显著提升，适用于实时计算和机器学习场景。 Flink是流处理框架，可同时处理批处理和流处理任务，具有低延迟和状态管理功能，适用于实时分析和事件驱动的应用。 HBase是一个基于Hadoop的非关系型数据库，提供高性能、高可用性的随机读写，适合存储半结构化和非结构化数据。 Hive是基于Hadoop的数据仓库工具，用于数据ETL（提取、转换、加载）和SQL-like查询，使得非编程背景的用户也能对大数据进行分析。 Kafka是Apache的流处理平台，用作消息队列，可以高效地处理和传输大量实时数据。 Linux是大数据环境下的常用操作系统，为集群管理和数据处理提供了稳定的基础。 Sqoop是用于在Hadoop和传统数据库间导入导出数据的工具，简化了批量数据迁移的过程。 Zookeeper是分布式协调服务，管理配置信息、命名服务、群组服务等，确保大数据集群的高可用性和一致性。综合面试题可能涵盖以上所有技术的使用场景、配置优化、故障排查等内容，同时也可能涉及到大数据处理的理论知识，如数据模型、分布式系统原理、并行计算等。对于求职者来说，熟悉这些技术的原理和实践是必不可少的。不仅要理解它们如何协同工作，还要能解决实际问题，例如优化性能、保证数据一致性和处理数据倾斜。此外，了解最新的大数据趋势和技术更新，如实时分析、云计算集成等，也是成为优秀大数据工程师的关键。通过这个面试题库，考生可以全面检验自己的技能水平，找出知识盲点，为成功就业做好准备。

资源推荐

资源详情

资源评论

收起资源包目录

技术面试题.rar （11个子文件）

技术面试题

sqoop.doc 36KB

Hadoop.doc 1.63MB

Hbase.doc 80KB

spark.doc 295KB

zookeeper.doc 48KB

Linux.doc 88KB

kafka.doc 185KB

Flink.doc 1.18MB

红有软件面试题.docx 18KB

综大数据综合.docx 2.83MB

Hive.doc 120KB

1. 列举 hadoop 有哪些进程，分别是什么作用？

2. Hadoop 实现连接的两种方式

3. hadoop 二次排序实现

4.hadoop shuffle 过程

7. hadoop 配置调优

8. 腾讯 hadoop 大规模集群

9. 建设大群的原因

10..Hadoop 安装步骤？

11.请列出正常的 hadoop 集群中 hadoop 都分别需

要启动哪些进程，他们的作用分别都是什么，请尽

量列的详细一些。

12.hadoop 运行原理

13.mapreduce 的原理

14.Hadoop HA 如何实现？简述过程

15.HDFS 存储机制

16.Hadoop 集群可以运行的 3 个模式？如何用命令

确认 hadoop 集群的健康状况

17.杀死一个 job，执行的命令是什么？

18.Mapreduce 数据倾斜是什么意思？怎么处理?

19.列出你所知道的 yarn 资源调度器说明其工作方

法？

20.SecondaryNameNode 的用途？

21.combiner 的作用，使用时机？

22.MapReduce--如何设置 Reducer 的个数

24.MR 的过程：

23.mr 中使用了哪些接口？（或者是抽象类）

24.mr 怎么处理小文件？

25.(hadoop 下的数据类型)context 输出类型

26.如何从编程的角度讲解 MR 的过程

27.MR 中有没有只有 MAP 的

28.MAP 输出端的组成部份

29.MR 中的 K 是什么意思

30.如何用 MR 实现 join

31.MAP 如何排序

32.65M 的任务会分成几个块（老版本）

33.假设 hadoop 一个 job 产生了 100 个 task，并且

其中的一个 task 失败了，hadoop 会如何处理?

34.试使用步骤 1，步骤 2，步骤 3.……说明 YARN 中

运行应用程序的基本流程

35. hadoop 支持三种调度器

36. 编写 mapreduce 的方式：

37. hadoop 二级排序：

38. 请简述 hadoop 怎样实现二级排序（对 key 和

value 双排序）

39. 请简述 mapreduce 中的 combine 和 partition

的作用

40. 用 mapreduce 怎么处理数据倾斜问题

41. hadoop 框架怎么来优化

43. 我们在开发分布式计算 job 的时候，是否可以

去掉 reduce 阶段

44. hadoop 中常用的数据压缩算法

45. mapreduce 的作业调度模式

48. datanode 在什么情况下不会备份数据

49. combine 合并出现在哪个过程

50. hdfs 的体系结构

51. flush 的过程

52. 什么是队列

53. 三个 datanode 中当有一个 datanode 出现错误

时会怎样？

54. MapReduce 优化经验

55. mapreduce 的大致流程

56. 搭建 hadoop 集群， master 和 slaves 都运行

哪些服务

57. hadoop 运行原理

58. HDFS 存储机制

59. 举一个例子说明 mapreduce 是怎么运行的。

60. 如何确认 hadoop 集群的健康状况

61.. 下面哪个程序负责 HDFS 数据存储。答案 C

62. HDfS 中的 block 默认保存几份？答案 A

63. 下列哪个程序通常与 NameNode 在一个节点启

动？

64. Hadoop 作者答案 D

65. HDFS 默认 Block Size 答案 B

66. 下列哪项通常是集群的最主要瓶颈答案 D

67. 关于 SecondaryNameNode 哪项是正确的？答

案 C

68. 配置机架感知[M3] 的下面哪项正确答案 ABC

69. Client 端上传文件的时候下列哪项正确答案 BC

70. 下列哪个是 Hadoop 运行的模式答案 ABC

71. Cloudera 提供哪几种安装 CDH 的方法答案 ABCD

72. Ganglia 不仅可以进行监控，也可以进行告警。

（ X ）

73. Block Size 是不可以修改的。（ X ）

74. Nagios 不可以监控 Hadoop 集群，因为它不提供

Hadoop 支持。（ X ）

75. 如果 NameNode 意外终止，

SecondaryNameNode 会接替它使集群继续工作。

（ X ）

76. Cloudera CDH 是需要付费使用的。（ X ）

77. Hadoop 是 Java 开发的，所以 MapReduce 只支

持 Java 语言编写。（ X ）

78. Hadoop 支持数据的随机读写。（X ）

79. NameNode 负责管理 metadata， client 端每次

读写请求，它都会从磁盘中读取或则会写入

metadata 信息并反馈 client 端。（X ）

80. NameNode 本地磁盘保存了 Block 的位置信息。

（X ）

81. DataNode 通过长连接与 NameNode 保持通信。

（ X ）

82. Hadoop 自身具有严格的权限管理和安全措施保

障集群正常运行。（X ）

83. Slave 节点要存储数据，所以它的磁盘越大越好。

（X ）

84. hadoop dfsadmin –report 命令用于检测 HDFS 损

坏块。（ X）

85. Hadoop 默认调度器策略为 FIFO（正确）

86. 集群内每个节点都应该配 RAID，这样避免单磁

盘损坏，影响整个节点运行。（X ）

87. 因为 HDFS 有多个副本，所以 NameNode 是不

存在单点问题的。（X ）

88. 每个 map 槽（进程）就是一个线程。（X ）

89. Mapreduce 的 input split 就是一个 block。（X ）

90. NameNode 的默认 Web UI 端口是 50030，它通

过 jetty 启动的 Web 服务。（X ）

91. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于

设置所有 Hadoop 守护线程的内存。它默认是 200 GB。

（ X ）

92. DataNode 首次加入 cluster 的时候，如果 log 中

报告不兼容文件版本，那需要 NameNode 执行

“Hadoop namenode -format ”操作格式化磁盘。

（X ）

93..reduceBykey 和 groupByKey 哪个快？

94. 怎么优化 shffle

95. persist 和 checkpoint 的区别

96、hadoop 的 shuffle 过程.Mapreduce 原理详解：

97、HDFS 读写数据的过程

98、fsimage 和 edit 的区别？

99、datanode 首次加入 cluster 的时候，如果 log

报告不兼容文件版本，那需要 namenode 执行格

式化操作，这样处理的原因是？

100、MapReduce 中排序发生在哪几个阶段？这

些排序是否可以避免？为什么？

101、hadoop 的优化？

102.在 Hadoop 中定义的主要公用 InputFormat 中，

默认是哪一个？（A）

103.2. 下面哪个程序负责 HDFS 数据存储？（C）

104..HDFS 中的 block 默认保存几份？（A）

105.关于 SecondaryNameNode 哪项是正确的？（C）

106.Hadoop 2.x 中 HDFS 默认 BlockSize 是（C）

107..下列哪项可以作为集群的管理（ABC）

108.Client 端上传文件的时候下列哪项正确？（BC）

109.下列哪个是 Hadoop 运行的模式？（ABC）

110.列举几个 hadoop 生态圈的组件并做简要描述

111. hadoop 节点动态上线下线怎么操作?

112.如何使用 mapReduce 实现两个表的 join?

113.Hadoop 的 sequencefile 的格式，并说明下什么是

java 序列化，如何实现 java 序列化?

114. 请描述 mapReduce 二次排序原理

115. 请描述 mapReduce 中排序发生的几个阶段

116.请描述 mapReduce 中 combiner 的作用是什么，

一般使用情景，哪些情况不需要？

117. 简述 Hadoop 的几个默认端口及其含义

118.两个类 TextInputFormat 和 KeyValueInputFormat

的区别是什么？

119..在一个运行的 Hadoop 任务中，什么是

InputSplit？

120.如果没有定义 partitioner，那数据在被送达

reducer 前是如何被分区的？

121.Map 阶段结束后， Hadoop 框架会处理：

Partitioning，Shuffle 和 Sort，在这个阶段都发生了

什么？

123.请列出你所知道的 Hadoop 调度器，并简要说明

其工作方法。

124、如何为一个 hadoop 任务设置 mappers 的数量

125、有可能使 hadoop 任务输出到多个目录中么？

如果可以，怎么做？

126、如何为一个 hadoop 任务设置要创建的 reducer

的数量

127、在 hadoop 中定义的主要公用 InputFormats 中，

哪一个是默认值：

128、两个类 TextInputFormat 和

KeyValueTextInputFormat 的区别？

129、在一个运行的 hadoop 任务中，什么是 InputSpilt?

130、Hadoop 框架中，文件拆分是怎么被调用的？

131、分别举例什么情况下使用 combiner,什么情况下

不会使用？

132、Hadoop 中 job 和 Tasks 之间的区别是什么？

133、Hadoop 中通过拆分任务到多个节点运行来实现

并行计算，但是某些节点运行较慢会拖慢整个任务

的运行，hadoop 采用何种机制应对这种情况？

134、流 API 中的什么特性带来可以使 map reduce 任

务可以以不同语言(如 perl\ruby\awk 等)实现的灵活

性？

134、参考下面的 M/R 系统的场景：

136、Map 阶段结束后，Hadoop 框架会处理：

Partitioning ,shuffle 和 sort,在这个阶段都会发生了什

么？

137、如果没有定义 partitioner,那么数据在被送达

reducer 前是如何被分区的？

138、什么是 Combiner?

139.、简要描述如何安装配置一个 apache 开原本

hadoop，只描述即可，无需列出完整步骤，能列出

步骤更好。

140、MapReduce 优化

150.简述 hadoop 安装过程

151.如何在集群中新添加一个节点

152.yarn 命令中的 container 的作用?

153.请简述 hadoop 怎样实现二级排序。

154.大数据解决方案的关键步骤是什么？

155.什么是 inputsplit

156.请写出 yarn 中当前运行的 Application 列表的命

令？

157.HDFS 上怎么做目录管理？

158.数据量这么小为什么用 hadoop？

159.hadoop 中块大小对内存的影响？

160.HDFS 的存储机机制是什么

161.怎么查看,删除,移动,拷贝 HDFS 上的文件

162..MR 的工作原理,请举个例子说明 MR 是怎么运

作的

163、日志抽取怎么抽的？抽取的数据存储位置，抽

取的文件怎么管理?

164、海量日志数据，提取出某日访问百度次数最多

的那个 IP。描述如何解决 HBase 中 region 太小和

region 太大带来的冲突

165.简单概述 hdfs 原理，以及各个模块的职责

166.mr 的工作原理

167 怎样判断文件时候存在

168fsimage 和 edit 的区别？

169.hdfs 中的 block 默认保存几份？

170.列举几个配置文件优化？

171 谈谈数据倾斜，如何发生的，并给出优化方案

172 简单概括安装 hadoop 的步骤

173.简单概述 hadoop 中的角色的分配以及功能

174.你认为用 java , streaming , pipe 方式开发

map/reduce,各有什么优点

175.简单概述 hadoop 的 join 的方法

176.简单概述 hadoop 的 combinet 与 partition 的区

别

177. hdfs 的数据压缩算法

178.hadoop 的调度

179.reduce 后输出的数据量有多大？

180. datanode 在什么情况下不会备份？

181.combine 出现在那个过程？

182hdfs 的体系结构？

183..hadoop flush 的过程？

184. 什么是队列

185.三个 datanode，当有一个 datanode 出现错误会

怎样？

186.mapReduce 的执行过程

187.Cloudera 提供哪几种安装 CDH 的方法

188.选择题与判断题

189.hadoop 的机架感知（或者说是扩普）

190.文件大小默认为 64M，改为 128M 有啥影响？

191.）datanode 首次加入 cluster 的时候，如果 log

报告不兼容文件版本，那需要 namenode 执行格式化

操作，这样处理的原因是？

192.什么 hadoop streaming？

192.MapReduce 中排序发生在哪几个阶段？这些排

序是否可以避免？为什么？

194.hadoop 的 shuffer 的概念

194.hadoop 的优化

195.怎样决定 mapreduce 的中的 map 以及 reduce

的数量

196.两个文件合并的问题

197.怎样决定一个 job 的 map 和 reduce 的数量

198.hadoop 的 sequencefile 的格式，并说明下什么

是 JAVA 的序列化，如何实现 JAVA 的序列化

3-40）简单概述一下 hadoop1 与 hadoop2 的区别

199.YARN 的新特性

200.hadoop join 的原理

201.hadoop 的二次排序

202.）hadoop 的 mapreduce 的排序发生在几个阶

段？

203.请描述 mapreduce 中 shuffer 阶段的工作流程，

如何优化 shuffer 阶段的？

204.mapreduce 的 combiner 的作用是什么，什么时

候不易使用？？

206.secondarynamenode 的主要职责是什么？简述

其工作机制 sn 的主要职责是执行 checkpoint 操作

每隔一段时间，会由 secondary namenode 将

namenode 上积累的所有 edits 和一个最新的

fsimage 下载到本地，并加载到内存进行 merge（这

个过程称为 checkpoint）

207.如果 namenode 宕机，datanode 节点是否也会跟

着挂掉？否.

208.一个 datanode 宕机,怎么一个流程恢复？

209.hadoop 的 namenode 宕机,怎么解决？

210.简述 hadoop 安装

211.用 mapreduce 怎么处理数据倾斜问题？

212.Mapreduce 的 map 数量和 reduce 数量怎么

确定 ,怎么配置？ map 的数量有数据块决定，reduce

数量随便配置。

213.说下对 hadoop 的一些理解,包括哪些组件

214.一些传统的 hadoop 问题,mapreduce 他就问

shuffle 阶段,你怎么理解的

215.HDFS 数据写入的机制与机架感知？

216.hadoop 中查看全部节点状态？

217.ssh 证书作用？

218.yarn 的主从进程

219 HDFS 的机架感知？

220. 如果 Client 节点就在 HDFS 中的一台 DataNode

节点上，副本的数据又是如何存储的？

221.Hadoop 性能调优怎么做？

1. 列举 hadoop 有哪些进程，分别是什么作用？

namenode

datanode

secondary namenode

ResourceManager

Nodemanager

JournalNode

ZookeeperFailoverController

2. Hadoop 实现连接的两种方式

map 连接和 reduce 端连接，map 端连接不需要

reduce 过程，适合大表 + 小表，reduce 端 join 适用

于大表 + 大表情况。

3. hadoop 二次排序实现

二次排序是对 value 进行排序，value 无法排序，只

能将 value 做到 key 中，通过 key 的排序来完成，因此

需要自定义 key，定义排序

4.hadoop shuffle 过程

MR 要确保给每个 reducer 的输入都是按照 key 排

序的。系统执行这一排序过程并将 map 的输出传输给

reduce 作为输入，这一过程称为 shuffle。

5.map 端过程

map 函数产生的输出会进入 buffer 中并进行预排

序。每个 map 任务都有一个环形缓冲区用于将输出内容

写入，缓冲区默认是 100m 空间（可通过

mapreduce.task.io.sort.mb 进行修改），当缓冲区内容

达到 80%的阈值（可以通过

mapreduce.-map.sort.spill.percent 进行修改）时，就

会启动一个后台线程将 buffer 中内容溢出到磁盘。溢出

发生期间，buffer 仍会持续写入。但如果在此期间，

buffer 满了，map 就会被阻塞直到溢出完成。溢出内容

会以轮询方式向特定目录（可通过

mapreduce.cluster.local.dir 修改）中进行写入。

在写入磁盘之前，该线程会按照 reducer 数据对数

据进行分区。在每个分区内，后台线程会对数据在内存

中进行按 key 排序，如果有 combiner 函数，还会在排

序的输出结构上进行 combine。运行 combiner 函数会

让 map 的输出更加紧凑，减少本地磁盘的数据写入量和

传输给 reducer 的数据量。

每当缓冲到达溢出的阈值，就会创建一个新的溢出

文件，因此在 map 任务将所有输出结果写如果，会产生

多个溢出文件。在 task 完成之前，这些溢出的文件需要

合并到一个分区化的、排序的输出文件中。属性

mapreduce.task.io.sort.factor 用来控制一次合并的文

件数，默认是 10。

如果存在至少 3 个

（mapreduce.map.combine.minspills 控制）溢出文

件，在 ouput 文件写入前，会再次执行 combiner 过程，

如果只有一个或两个溢出文件的话，map 端就不值得运

行 combiner 过程。

map 的输出写入文件时进行压缩是不错的想法，这

可以使得写入更快、更节省磁盘空间，也会减少传输到

reducer 的数据量。默认输出是没有启用压缩的，可以通

过 mapreduce.map.output.compress 设置为 true 开

启，压缩算法可以使用

mapreduce.map.output.compress.codec 设置。

输出文件的分区通过 http 协议供 reduce 使用，用

来处理文件分区的工作线程数由

mapreduce.shuffle.max.threads 控制，概述形式针对

每个 NodeManager 的，而不是每个 Map 任务。默认

为 0 表示设置为主机处理器个数的 2 倍大小。

6.reduce 端过程

reduce 任务需要跨越整个 cluster 从几个 map 任

务的输出中找出特定的分区来获取数据。map 任务完成

的时间各不相同，一旦 map 任务完成，reduce 任务就

开始复制其输出数据。这称之为 reduce 任务的复制阶段，

reduce 任务有少量的拷贝线程，以便它能够并行抓取

map 的输出。默认是 5 个线程，可通过

mapreduce.reduce.shuffle.parallelcopies 进行配置。

reducer 如何知道 map 的输出来自于哪台主机？

map 成功完成时，会使用心跳机制通知 appmaster，

因此 appmaster 就在 map 输出和 host 之间做一个映

射，reducer 中的一个线程会周期性询问 master 中的这

些映射数据，直到全部检索到他们为止。

第一个 reducer 检索到 map 输出后，并不会从磁盘

中立刻将 map 的输出删除，因为后续很可能 reducer 会

失败。事实上，他们会等待，直到收到 appmaster 的

delete 指令为止，而这是在 job 完成后发生的。

如果数据量很少，map 的数据就会拷贝到 reduce

的内存中（缓冲区大小可以通过

mapreduce.reduce.shuffle.input.b-uffer.percent 控

制，该属性指定的是占用堆内存的比例）。否则化，会

复制到磁盘。当内存缓冲区达到阈值（可由

map-reduce.reduce.shuffle.merge.percent 指定）或

者达到 map 输出个数的阈值

（mapreduce.reduce.merge.inmem.-threshold），

就会合并并溢出到磁盘。如果指定了 combiner，合并期

间就会执行来减少写入磁盘的数据量。

在磁盘上复制文件累积过程中，后台线程会将他们

合并成一个大、排过序的文件。这回节省后期合并的时

间。注意，任何在 map 端进行压缩的输出都要进行解压

缩才能够进行对他们进行合并。

当所有的 map 都复制完成，reduce 就进入排序阶

段（正确叫法应该是合并节点，排序一词被 map 端占用

了），这将会合并 map 的输出，保持他们的有序性。通

过轮询完成这一个过程。比如有 50 个 map 输出文件，

合并因子是 10（mapreduce.-task.io.sort.factor），表

示进行 5 次循环，每次合并 10 文件到一个文件中，最后

会有 5 个中间文件。最后阶段不是将 5 个文件合并成一

个，而是包含了内存和磁盘文件段的混合过程。

7. hadoop 配置调优

1.6.1 大量小文件

大量小文件会占用 namenode 的空间，每个文件大概占用

150 个字节，文件很小，导致 namenode 内存耗尽，服务

变慢。优化手段是进行归档或者合并成 sequence 文件。

减少内存消耗。

1.6.2 文件数太多

如果即时文件归档或合并后，还是有大量的文件，仍然

会导致 namenode 的性能降低。这是可以引入 fedeartion

机制，对名称节点进行扩容，将逻辑上的文件系统名字

空间映射到不同的 namenode 簇中，有效实现 namenode

的负载均衡。

1.6.3 禁用任务推断

任务推断是 hadoop 觉得 task 执行过慢，就会在其他的节

点运行同样的任务，一旦有一个成功，就会杀死其他的

task 。这些任务的执行都需要占用 slot ，可通过

mapred.map.tasks.speculative.execution=false 关闭

推断执行。这样可以提高效率。表现方式就是不会产生

杀死的 Task Attempts。配置方式如下：

[mapred-site.xml]

<name>mapred.map.tasks.speculative.ex

ecution</name>

<value>false</value>

</property>

1.6.4 机架感知

hadoop 副本存放策略是本地存放一份，同一机架内的其

他节点存放一份，不同机架上的节点存放一份。界定是

否是同一机架是通过机架感知技术实现的，可以自定义

机架感知类，也可以配置一个脚本，该脚本接受一个参

数，通常是 ip 地址，输出一个字符串机架地址。脚本可

以通过 topology.script.file.name 配置，该属性位于

core-site.xml 文件中。脚本文件只需要放置到 namenode

节点，不需要分发。hadoop 默认使用的就是基于脚本的

机架感知，因此只要配置好所有的是哪个脚本文件即可。

如下所示：

[soft/hadoop/etc/hadoop/myrackaware.sh]

#!/bin/bash

ip=$1

n4=`echo ${ip} | awk -F "." '{print

$4}'`

if (($n4<10)) ; then echo rack1 ;

elif (($n4>20)) ; then echo rack3 ; else

echo rack2 ; fi

<name>topology.script.file.name</n

ame>

<value>/soft/hadoop/etc/hadoop/myrack

aware.sh</value>

</property>

1.6.5 修改 map 端 buffer 大小

map 端 buffer 默认是 100m，如果 map 端数据量很大，会

发生频繁溢出，磁盘 IO 性能较低，可以增大该 buffer 的

值，使用 mapred.child.java.opts 配置。

1.6.6 map 个数设置

map 的个数有切片等计算得来，一个原则就是尽可能利

用整个集群的算力，即 map 个数等于 NM 节点数，所有

节点同时开始读取，每个节点读取一片。

1.6.7 reducer 数量

每个 reduce 计算量在 1g ~ 10g 之间，个数太少计算时间

必然较长，个数太多，增加网络调度的开销，同时 map

端的分区也会很多，并且一个 NM 上可能需要启动多个

reduce。推荐 reduce 个数也是 NM 节点数，通常不超过

map 数，刚好每个节点都要启动一个 reduce task，计算

起来要快。如果较少还需要对节点资源倒排序，过多还

需要启动多次 reduce，同时还要衡量在哪个节点启动多

次。

1.6.8 压缩中间数据

压缩中间数据，减少网络传输和磁盘空间。

mapred.compress.map.output，压缩算法采用 LZO 性价比

较高。

1.6.9 设置 combiner

如果可以 combiner 的话，设置 combiner 可以有效降低传

输和存储。

1.6.10 尽可能使用 IntWritable

hadoop 中 Text 使用 utf8 方式存储并还要存放长度等信

息，占用空间较大。耗费 cpu 的运算时间。

8. 腾讯 hadoop 大规模集群

TDW（Tencent distributed Data Warehouse，腾

讯分布式数据仓库）基于开源软件 Hadoop 和 Hive 进

行构建，打破了传统数据仓库不能线性扩展、可控性差

的局限，并且根据腾讯数据量大、计算复杂等特定情况

进行了大量优化和改造。

DW 服务覆盖了腾讯绝大部分业务产品，单集群规

模达到 4400 台，CPU 总核数达到 10 万左右，存储容量

达到 100PB；每日作业数 100 多万，每日计算量 4PB，

作业并发数 2000 左右；实际存储数据量 80PB，文件数

和块数达到 6 亿多；存储利用率 83%左右，CPU 利用率

85%左右。经过四年多的持续投入和建设，TDW 已经

成为腾讯最大的离线数据处理平台。折合单机是 32 核

cpu，20T 硬盘。

9. 建设大群的原因

1. 数据共享。TDW 之前在多个 IDC 部署数十个集

群，主要是根据业务分别部署，这样当一个业务需要其

他业务的数据，或者需要公共数据时，就需要跨集群或

者跨 IDC 访问数据，这样会占用 IDC 之间的网络带宽。

为了减少跨 IDC 的数据传输，有时会将公共数据冗余分

布到多个 IDC 的集群，这样又会带来存储空间浪费。

2. 计算资源共享。当一个集群的计算资源由于某些

原因变得紧张时，例如需要数据补录时，这个集群的计

算资源就捉襟见肘，而同时，另一个集群的计算资源可

能空闲，但这两者之间没有做到互通有无。

3. 减轻运营负担和成本。十几个集群同时需要稳定

运营，而且当一个集群的问题解决时，也需要解决其他

集群已经出现的或者潜在的问题。一个 Hadoop 版本要

在十几个集群逐一变更，监控系统也要在十几个集群上

部署。这些都给运营带来了很大负担。此外，分散的多

个小集群，资源利用率不高，机器成本较大。

10..Hadoop 安装步骤？

1 使用 root 账户登录

2 修改 IP

3 修改 host 主机名

4 配置 SSH 免密码登录

5 关闭防火墙

6 安装 JDK

6 解压 hadoop 安装包

7 配置 hadoop 的核心文件 hadoop-env.sh，core-site.xml ,

mapred-site.xml ， hdfs-site.xml

8 配置 hadoop 环境变量

9 格式化 hadoop namenode-format

10 启动节点 start-all.s

11.请列出正常的 hadoop 集群中 hadoop 都分别需

要启动哪些进程，他们的作用分别都是什么，请尽量列

的详细一些。

namenode：负责管理 hdfs 中文件块的元数据，响应客户

端请求，管理 datanode 上文件 block 的均衡，维持副本

数量

Secondryname：主要负责做 checkpoint 操作；也可

以做冷备，对一定范围内数据做快照性备份。

Datanode:存储数据块，负责客户端对数据块的 io 请

求

resourcemanager: 管理任务，并将任务分配给

nodemanager。

nodemanager: 执行 resourcemanger 分配的任务。

NameNode 启动时

通过 fsimage 读取元数据，载入内存

执行 edits 中的记录，在内存中生成最新的元数据

清空 edits，保存最新的元数据到 fsimage

收集 DataNode 汇报的块的位置信息

12.hadoop 运行原理

Hadoop 的主要核心是由两部分组成，HDFS 和 mapreduce，

首先 HDFS 的原理是分布式文件存储系统，将一个大的文

件切割成很多个小的文件，运行在多台服务器上面。

Mapreduce 的原理是使用 jobtracker 和 tasktracker 来进

行作业的执行，map 是将任务展开，reduce 是汇总处理

后的结果。

13.mapreduce 的原理

mr 是一种分布式的计算处理框架和任务调度模型，主要

由主节点把任务分配到从节点上，在从节点上进行区域

存储的调度和计算，因为能够把一个计算量很大的任务

分配到多个节点计算，所以可以大大减少计算时间。

14.Hadoop HA 如何实现？简述过程

hadoop 的 HA 是集群的高可用在集群中有两个

NameNode,一个的状态是 Active，表示他是活跃正常工作

状态，一个是 standby，表示待命状态，

两个 NN 不仅连接 dg,还与 zookeeper 集群的 JN 连接，

在数据同步时 dg 需要往两个 NN 中同步信息，在 active

出现故障时，standby 的 NameNode 可以自动转变成

active 状态，减少数据的丢失.

当 NN 都出现故障时也可以通过 zookeeper 集群也可

以工作

15.HDFS 存储机制

客户端写一个文件并不是直接写到 HDFS 上

HDFS 客户端接收用户数据，并把内容缓存在本地

当本地缓存收集足够一个 HDFS 块大小的时候，客户

端同 NameNode 通讯注册一个新的块

注册块成功后，NameNode 会给客户端返回一个

DataNode 的列表

列表中是该块需要存放的位置，包括冗余备份

客户端向列表中的第一个 DataNode 写入块

当完成时，第一个 DataNode 向列表中的下个 DataNode

发送写操作，并把数据已收到的确认信息给客户端，同

时发送确认信息给 NameNode

之后的 DataNode 重复之上的步骤.

当列表中所有 DataNode 都接收到数据并且由最后一

个 DataNode 校验数据正确性完成后，返回确认信息给客

户端

收到所有 DataNode 的确认信息后，客户端删除本地

缓存

客户端继续发送下一个块，重复以上步骤

当所有数据发送完成后，写操作完成

16.Hadoop 集群可以运行的 3 个模式？如何用命令

确认 hadoop 集群的健康状况

单机模式

伪分布式模式

全分布式模式

hadoop fsck /user/hadoop

hadoop dfsadmin -report

17.杀死一个 job，执行的命令是什么？

答：hadoop job –list 得到 job 的 id，然后执行 hadoop

job -kill jobId 就可以杀死一个指定 jobId 的 job 工作了。

18.Mapreduce 数据倾斜是什么意思？怎么处理?

答：在 reduce 过程中某一个 key 对应的 value 值太多，

在 reduce 进程耗时太长，其他进程一直等待，资源利用

不充分。

处理方法是在 map 与 reduce 中间运用 for 循环给这

些同 key 值的 value，重新赋值 key

19.列出你所知道的 yarn 资源调度器说明其工作方

法？

答：FIFO Scheduler ：把应用按提交的顺序排成一个队列，

这是一个先进先出队列，在进行资源分配的时候，先给

队列中最头上的应用进行分配资源，待最头上的应用需

求满足后再给下一个分配，以此类推。

Capacity Scheduler：有一个专门的队列用来运行小任

务，但是为小任务专门设置一个队列会预先占用一定的

集群资源，这就导致大任务的执行时间会落后于使用

FIFO 调度器时的时间。

FairScheduler：我们不需要预先占用一定的系统资源，

Fair 调度器会为所有运行的 job 动态的调整系统资源。

当第一个大 job 提交时，只有这一个 job 在运行，此时它

获得了所有集群资源；当第二个小任务提交后，Fair 调度

器会分配一半资源给这个小任务，让这两个任务公平的

共享集群资源。

20.SecondaryNameNode 的用途？

答：Secondary NameNode 不是备份节点，主要的工作是

阶段性的合并 fsimage 和 edits 文件，以此来控制 edits 的

文件大小在合理的范围

为了缩短集群重启时 NameNode 重建 fsimage 的时间，

在 NameNode 硬盘损坏的情况下，Secondary NameNode

也可用作数据恢复，但绝不是全部，一般情况下

Secondary Namenode 运行在不同与 NameNode 的主机上，

并且它的内存需求和 NameNode 是一样的

21.combiner 的作用，使用时机？

答：combiner 其实也是一种 reduce 操作，是 map 运算的

后续操作，在 map 后续对于相同 key 值做一个简单合并，

减小后续的 reduce 的计算压力

可以在求总和、最大值、最小值，但是求平均值是

使用 combiner,结果会出现结果偏差。

22.MapReduce--如何设置 Reducer 的个数

答：1，在缺省情况下，一个 mapreduce 的 job 只有一个

reducer；在大型集群中，需要使用许多 reducer，中间数

据都会放到一个 reducer 中处理，如果 reducer 数量不够，

会成为计算瓶颈。

2，reducer 的最优个数与集群中可用的 reducer 的任务槽

数相关，一般设置比总槽数稍微少一些的 reducer 数量；

Hadoop 文档中推荐了两个公式：

0.95*NUMBER_OF_NODES*mapred.tasktracker.reduce.task

s.maximum

1.75*NUMBER_OF_NODES*mapred.tasktracker.reduce.task

s.maximum

备注：NUMBER_OF_NODES 是集群中的计算节点个数；

mapred.tasktracker.reduce.tasks.maximum：每个节点所分

配的 reducer 任务槽的个数；

3 ，在代码中通过： JobConf.setNumReduceTasks(Int

numOfReduceTasks)方法设置 reducer 的个数；

24.MR 的过程：

答： a. 客户端编写好 mapreduce 程序，提交 job 到

jobtracker；

b.Jobtracker 进行检查操作，确定输出目录是否存在，

存在抛出错误；

c.Jobtracker 根据输入计算输入分片 input split、配置

job 的资源、初始化作业、分配任务；

d.每个 input split 创建一个 map 任务，tasktracker 执

行编写好的 map 函数；

e.Combiner 阶段是可选的，它是一个本地化的 reduce

操作，合并重复 key 的值；

f.Shuffle 一开始就是 map 做输出操作，并对结果进行

排序，内存使用达到阀值就会 spill，把溢出文件写磁盘，

写磁盘前有个排序操作，

map 输出全部做完后，会合并溢出文件，这个过程

中还有个 Partitioner 操作，一个 partitioner 对应一个

reduce 作业，reduce 开启复制线程，

复制对应的 map 输出文件，复制时候 reduce 还会进

行排序操作和合并文件操作

g.传输完成，执行编写好的 reduce 函数，结果保存

到 hdfs 上。

23.mr 中使用了哪些接口？（或者是抽象类）

答：自从 hadoop 0.20.0 开始，hadoop 同时新旧两套

mapreduce API 其主要的改变之一就是把接口变为抽象类

评论收藏

内容反馈

三水编程

粉丝: 465

大数据工程师方向面试题库，包括Flink,Hadoop,Hbase,Hive,Kafka,Liunx,Spark,Sqoop,Z

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse

大数据笔记，包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK......

大数据入门指南Hadoop，Hive，Spark，Storm，Flink，HBase，Kafka，Zookeeper，Flume

Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala

[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结 目前包含Hadoop,Hive,Spark,Flink,Hbase,Kafka,Zookeeper框架的面试题知识.zip

[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结.目前包含Hadoop,Hive,Spark,Flink,Hbase,Kafka,Zookeeper框架的面试题知识.zip

hadoop,hbase,hive版本整合兼容性最全，最详细说明【适用于任何版本】

徐老师大数据培训Hadoop+HBase+ZooKeeper+Spark+Kafka+Scala+Ambari

大数据领域核心技术解析-spark flink hadoop kafka Hive、Flume、DataX、Redis等组件优化与实践应用

java 大数据 spark flink redis hive hbase kafka 面试题 数据结构 算法 设计模式.zip

spark+clickhouse+hive+kafka+vue+hbase大型分析系统

大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南

最全的大数据大厂面试宝典，大数据面试题，大数据面试，王傲旗的大数据之路，大数据成神之路，Flink,Spark,Hadoop,Hbase,Hive,Impala,Hbase,MapReduce.zip

flink-hbase-2.11-1.10.0-API文档-中文版.zip

大数据hadoop，spark，hive等等面试汇总

大数据面试题，大数据成神之路开启...Flink/Spark/Hadoop/Hbase/Hive...-Python开发

本项目为大数据基础镜像组件，其中包括Hadoop、Spark、Hive、Tez、Hue、Flink、MySQL等

flink+hbase+spark_linux.rar

采用Spring Boot+Hbase+kafka搭建，封装了通过JavaBean的方式操作Hbase

flink-connector-kafka-0.10-2.11-1.10.0-API文档-中文版.zip

flink-connector-kafka-2.12-1.14.3-API文档-中英对照版.zip

hadoop storm hbase spark

hadoop-3.3.4.tar.gz + winutils 安装环境

基于Hadoop电商购物推荐平台销售数据分析与可视化系统源码

基于Hadoop大数据技术音乐推荐系统数据分析与可视化（基于Spark和Hive的音乐推荐系统数据分析与可视化）基于Python的音乐推荐系统数据分析与可视化

基于Hadoop大数据技术的热门旅游景点推荐数据分析与可视化系统（基于Django大数据技术热门旅游景点数据分析与可视化系统）

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

基于Hadoop的电影影评数据分析

最新资源

[大数据面试题]分享自己在网络上收集的大数据相关的面试题以及自己的答案总结目前包含Hadoop,Hive,Spark,Flink,Hbase,Kafka,Zookeeper框架的面试题知识.zip

java 大数据 spark flink redis hive hbase kafka 面试题数据结构算法设计模式.zip

大数据学习路线大数据技术栈思维导图大数据常用软件安装指南

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计