
1. 列举 hadoop 有哪些进程,分别是什么作用?
2. Hadoop 实现连接的两种方式
3. hadoop 二次排序实现
4.hadoop shuffle 过程
7. hadoop 配置调优
8. 腾讯 hadoop 大规模集群
9. 建设大群的原因
10..Hadoop 安装步骤?
11.请列出正常的 hadoop 集群中 hadoop 都分别需
要启动 哪些进程,他们的作用分别都是什么,请尽
量列的详细一些。
12.hadoop 运行原理
13.mapreduce 的原理
14.Hadoop HA 如何实现?简述过程
15.HDFS 存储机制
16.Hadoop 集群可以运行的 3 个模式?如何用命令
确认 hadoop 集群的健康状况
17.杀死一个 job,执行的命令是什么?
18.Mapreduce 数据倾斜是什么意思?怎么处理?
19.列出你所知道的 yarn 资源调度器 说明其工作方
法?
20.SecondaryNameNode 的用途?
21.combiner 的作用,使用时机?
22.MapReduce--如何设置 Reducer 的个数
24.MR 的过程:
23.mr 中使用了哪些接口?(或者是抽象类)
24.mr 怎么处理小文件?
25.(hadoop 下的数据类型)context 输出类型
26.如何从编程的角度讲解 MR 的过程
27.MR 中有没有只有 MAP 的
28.MAP 输出端的组成部份
29.MR 中的 K 是什么意思
30.如何用 MR 实现 join
31.MAP 如何排序
32.65M 的任务会分成几个块(老版本)
33.假设 hadoop 一个 job 产生了 100 个 task, 并且
其中的一个 task 失败了,hadoop 会如何处理?
34.试使用步骤 1,步骤 2,步骤 3.……说明 YARN 中
运行应用程序的基本流程
35. hadoop 支持三种调度器
36. 编写 mapreduce 的方式:
37. hadoop 二级排序:
38. 请简述 hadoop 怎样实现二级排序(对 key 和
value 双排序)
39. 请简述 mapreduce 中的 combine 和 partition
的作用
40. 用 mapreduce 怎么处理数据倾斜问题
41. hadoop 框架怎么来优化
43. 我们在开发分布式计算 job 的时候,是否可以
去掉 reduce 阶段
44. hadoop 中常用的数据压缩算法
45. mapreduce 的作业调度模式
48. datanode 在什么情况下不会备份数据
49. combine 合并出现在哪个过程
50. hdfs 的体系结构
51. flush 的过程
52. 什么是队列
53. 三个 datanode 中当有一个 datanode 出现错误
时会怎样?
54. MapReduce 优化经验
55. mapreduce 的大致流程
56. 搭建 hadoop 集群 , master 和 slaves 都运行
哪些服务
57. hadoop 运行原理
58. HDFS 存储机制
59. 举一个例子说明 mapreduce 是怎么运行的。
60. 如何确认 hadoop 集群的健康状况
61.. 下面哪个程序负责 HDFS 数据存储。 答案 C
62. HDfS 中的 block 默认保存几份? 答案 A
63. 下列哪个程序通常与 NameNode 在一个节点启
动?
64. Hadoop 作者 答案 D
65. HDFS 默认 Block Size 答案 B
66. 下列哪项通常是集群的最主要瓶颈 答案 D
67. 关于 SecondaryNameNode 哪项是正确的? 答
案 C
68. 配置机架感知[M3] 的下面哪项正确 答案 ABC
69. Client 端上传文件的时候下列哪项正确 答案 BC
70. 下列哪个是 Hadoop 运行的模式 答案 ABC
71. Cloudera 提供哪几种安装 CDH 的方法 答案 ABCD
72. Ganglia 不仅可以进行监控,也可以进行告警。
( X )
73. Block Size 是不可以修改的。( X )
74. Nagios 不可以监控 Hadoop 集群,因为它不提供
Hadoop 支持。( X )
75. 如果 NameNode 意外终止,
SecondaryNameNode 会接替它使集群继续工作。
( X )
76. Cloudera CDH 是需要付费使用的。( X )
77. Hadoop 是 Java 开发的,所以 MapReduce 只支
持 Java 语言编写。( X )
78. Hadoop 支持数据的随机读写。(X )
79. NameNode 负责管理 metadata, client 端每次
读写请求,它都会从磁盘中读取或则 会写入
metadata 信息并反馈 client 端。(X )
80. NameNode 本地磁盘保存了 Block 的位置信息。
(X )
81. DataNode 通过长连接与 NameNode 保持通信。
( X )
82. Hadoop 自身具有严格的权限管理和安全措施保
障集群正常运行。(X )
83. Slave 节点要存储数据,所以它的磁盘越大越好。
(X )
84. hadoop dfsadmin –report 命令用于检测 HDFS 损
坏块。( X)
85. Hadoop 默认调度器策略为 FIFO( 正确)
86. 集群内每个节点都应该配 RAID,这样避免单磁
盘损坏,影响整个节点运行。(X )
87. 因为 HDFS 有多个副本,所以 NameNode 是不
存在单点问题的。(X )
88. 每个 map 槽(进程)就是一个线程。(X )
89. Mapreduce 的 input split 就是一个 block。(X )
90. NameNode 的默认 Web UI 端口是 50030,它通
过 jetty 启动的 Web 服务。(X )
91. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于
设置所有 Hadoop 守护线程的内存。它默认是 200 GB。
( X )
92. DataNode 首次加入 cluster 的时候,如果 log 中
报告不兼容文件版本,那需要 NameNode 执行
“Hadoop namenode -format ”操作格式化磁盘。
(X )
93..reduceBykey 和 groupByKey 哪个快?
94. 怎么优化 shffle
95. persist 和 checkpoint 的区别
96、hadoop 的 shuffle 过程.Mapreduce 原理详解:
97、HDFS 读写数据的过程
98、fsimage 和 edit 的区别?
99、datanode 首次加入 cluster 的时候,如果 log
报告不兼容文件版本,那需要 namenode 执行格
式化操作,这样处理的原因是?
100、MapReduce 中排序发生在哪几个阶段?这
些排序是否可以避免?为什么?
101、hadoop 的优化?
102.在 Hadoop 中定义的主要公用 InputFormat 中,
默认是哪一个?(A)
103.2. 下面哪个程序负责 HDFS 数据存储?(C)
104..HDFS 中的 block 默认保存几份?(A)
105.关于 SecondaryNameNode 哪项是正确的?(C)
106.Hadoop 2.x 中 HDFS 默认 BlockSize 是(C)
107..下列哪项可以作为集群的管理(ABC)
108.Client 端上传文件的时候下列哪项正确?(BC)
109.下列哪个是 Hadoop 运行的模式?(ABC)
110.列举几个 hadoop 生态圈的组件并做简要描述
111. hadoop 节点动态上线下线怎么操作?
112.如何使用 mapReduce 实现两个表的 join?
113.Hadoop 的 sequencefile 的格式,并说明下什么是
java 序列化,如何实现 java 序列化?
114. 请描述 mapReduce 二次排序原理
115. 请描述 mapReduce 中排序发生的几个阶段
116.请描述 mapReduce 中 combiner 的作用是什么,
一般使用情景,哪些情况不需要?
117. 简述 Hadoop 的几个默认端口及其含义
118.两个类 TextInputFormat 和 KeyValueInputFormat
的区别是什么?
119..在一个运行的 Hadoop 任务中,什么是
InputSplit?
120.如果没有定义 partitioner,那数据在被送达
reducer 前是如何被分区的?
121.Map 阶段结束后, Hadoop 框架会处理:
Partitioning,Shuffle 和 Sort,在这个阶段都发生了
什么?
123.请列出你所知道的 Hadoop 调度器,并简要说明
其工作方法。
124、如何为一个 hadoop 任务设置 mappers 的数量
125、有可能使 hadoop 任务输出到多个目录中么?