Hadoop MapReduce Task Scheduler Introduction

Introduction to
Hadoop TaskScheduler
July 11, 2012
Guangxian Liao
Big Data Engineering Team
Hanborq Inc.

MapReduce任务调度
• 配置：mapred.jobtracker.taskScheduler
• 插件式Task调度器
• 基类TaskScheduler
• JT收到TT的心跳时，使用调度器分配Task

2

Task调度器
调度器介绍

JobQueueTaskScheduler 一个队列，FIFO，可以指定优先级

CapacityTaskScheduler(contrib目多个队列，每个队列可以指定资源百分比，
录) FIFO，支持优先级。可以设定单个用户占用
队列资源的百分比上限
FairScheduler(contrib目录) 默认每个用户有单独的Job pool，缺省平均
分配资源，每个job可以配置优先级，每个
pool可以配置权值和最低资源保障，支持
Slot抢占。
LimitTasksPerJobTaskScheduler 基本功能和JobQueueTaskScheduler一样，可
以指定每个Job同时运行的Task数量上限
mapred.jobtracker.scheduler.maxRunningTasks
PerJob

3

JobQueueTaskScheduler调度策略
• 按照数据局部性分配MapTask。

• 保证每个TaskTracker负载比较均衡。

• 默认TaskTracker和Map处理的数据片(split)在同一个节点或者同一个机
架认为是LocalMapTask。

• 网络拓扑由脚本来提供，脚本负责获取主机对应的拓扑位置。
${topology.script.file.name}

• 可以一次heartbeat分配多个LocalMapTask。

• 如果没有LocalMapTask可以分配，则可以分配一个NonLocalMapTask。

• ReduceTask一次最多分配一个。

4

FairScheduler配置
• 配置：mapred.fairscheduler.poolnameproperty
• Job的poolname由哪个JobConf参数来指定。
• 默认是user.name，按照用户分pool
• 也可以指定为mapred.job.queue.name
• 或者group.name

5

FairScheduler配置
• 配置：mapred.fairscheduler.pool
• 用户可以直接指定job放入哪个pool
• 配置这个参数后，mapred.fairscheduler.poolnameproperty
失效

6

FairScheduler配置
• 配置：mapred.fairscheduler.allocation.file
• Pool分配的xml文件的路径
• Absolute path

7

FairScheduler xml文件举例
• <?xml version="1.0"?>
<allocations>
<pool name="sample_pool">
<minMaps>5</minMaps>
<minReduces>5</minReduces>
<weight>2.0</weight>
</pool>
<user name="sample_user">
<maxRunningJobs>6</maxRunningJobs>
</user>
<userMaxJobsDefault>3</userMaxJobsDefault>
</allocations>

8

FairScheduler Task抢占
• mapred.fairscheduler.preemption
• Default：false
• 是否支持抢占

9

两种情况会抢占
• 一个Pool一定时间内没有分配到最低的资源
• 一个Job一定时间内没有占用到它应该被分
配资源的一半。

10

The End
Thank You Very Much!
liaoguangxian@gmail.com

11

Hadoop MapReduce Task Scheduler Introduction

Recommended

More Related Content

What's hot (20)

Viewers also liked (6)

Similar to Hadoop MapReduce Task Scheduler Introduction (20)

More from Hanborq Inc. (12)

Hadoop MapReduce Task Scheduler Introduction