精通Spark:Spark内核剖析、源码解读、性能优化和商业案例实战

本课程为Spark内核高端课程,由Spark源码级专家王家林老师授课,旨在深入剖析Spark内核机制及源码,包括基于内存的计算模式、DAG机制、任务调度等内容,并涵盖大量核心源码解读及性能优化技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这是世界上第一个Spark内核高端课程:

1,  该课程在对Spark的13个不同版本源码彻底研究基础之上提炼而成;

2,  课程涵盖Spark所有内核精髓的剖析;

3,  课程中有大量的核心源码解读;

4,  全景展示Spark商业案例下规划、部署、开发、管理技术;

5,  涵盖Spark核心优化技巧

 

该课程是Spark的高端课程,其前置课程是“18小时内掌握Spark:把云计算大数据速度提高100倍以上!”。

培训对象

1,  系统架构师、系统分析师、高级程序员、资深开发人员;

2, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

3, 云计算大数据从业者和Hadoop使用者;

4, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

5, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

6, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员;

学员基础

了解面向对象编程;

了解Linux的基本使用;

 

王家林老师

Spark亚太研究院院长和首席专家,Spark源码级专家,Spark潜心研究(20121月起)2年多后,在完成了对Spark13不同版本的源码的彻底研究的同时不断在实际环境中使用Spark的各种特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工作,专注于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最早实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不同领域的大数据的高效处理和存储,现在正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

Android架构师、高级工程师、咨询顾问、培训专家;

通晓Android、HTML5、Hadoop,迷恋英语播音和健美;

致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;

国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

HTML5技术领域的最早实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

   超过10IT畅销书作者

培训内容

 

第一天

1堂课Spark为什么如此之快?

1.1 基于内存的计算模式

1.2 DAG的机制与实现

1.3 Lineage的机制

 

2堂课Spark的核心组件源码剖析

2.1 SparkContext

2.2 RDD Graph

2.3 Scheduler

2.4 BlockTracker

2.5 ShuffleTracker

2.6 Worker

 

3堂课彻底剖析RDD

3.1 分区

3.2 依赖

3.3 函数

3.4 最佳位置

3.5 分区策略

3.6 Hadoop RDD

3.7 Filtered RDD

3.8 Joined RDD

3.9 Scala中集合操作

 

4堂课源码剖析RDD执行流程

4.1 Driver部分RDD源码剖析

4.2 Spark Client端的RDD源码剖析

4.3 Worker中的RDD源码剖析

 

 时间

內  容

备注

 

 

 

 

 

 

 

 

 

第二天

5堂课Spark任务调度

5.1 源码剖析RDD Objects

5.2 源码剖析DAGScheduler

5.3 源码剖析TaskScheduler

5.4 DAG、TaskSet、Task

5.5 Worker的Executor

5.6 Worker的BlockManager

 

6堂课调度器的优化

6.1 调度器实现源码剖析

6.2 Narrow Dependency

6.4 Wide Dependency

6.5 重用已缓存过的数据

6.6 基于Partitioning的join优化

 

7堂课:Spark性能优化

7.1 任务执行速度倾斜

7.2 Reducer数量的优化

7.3 Task GC和OOM

7.4 本地性缓慢

7.5序列化

7.6 其它性能优化最佳时间

 

8堂课:Spark商业案例

8.1 架构

8.2 代码剖析

8.3 优化

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值