没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论






























大数据处理框架深入解读

目录
大数据处理框架深入解读..............................................1
前言................................................................3
一、基础............................................................4
1.大数据的定义..................................................4
2.大数据的特征..................................................4
Volume......................................................5
Velocity....................................................5
Variety.....................................................5
3.大数据处理流程................................................6
4.大数据处理框架的定义..........................................6
二、数据处理框架分类................................................7
三、批处理系统......................................................8
Apache Hadoop...............................................8
四、流处理系统.....................................................10
Apache Storm...............................................11
Apache Samza...............................................12
五、混合处理系统:批处理和流处理...................................13
Apache Spark...............................................14
Apache Flink...............................................15
六、大数据处理框架的选择...........................................17
1.对于初学者...................................................17
2.对于企业应用.................................................18

前言
说起大数据处理,一切都起源于 Google 公司的经典论文:
《MapReduce:Simplied Data Processing on Large Clusters》。在当时
(2000 年左右),由于网页数量急剧增加,Google 公司内部平时要编写很多的
程序来处理大量的原始数据:爬虫爬到的网页、网页请求日志;计算各种类型
的派生数据:倒排索引、网页的各种图结构等等。这些计算在概念上很容易理
解,但由于输入数据量很大,单机难以处理。所以需要利用分布式的方式完成
计算,并且需要考虑如何进行并行计算、分配数据和处理失败等等问题。
针对这些复杂的问题,Google 决定设计一套抽象模型来执行这些简单计算,并
隐藏并发、容错、数据分布和均衡负载等方面的细节。受到 Lisp 和其它函数式
编程语言 map、reduce 思想的启发,论文的作者意识到许多计算都涉及对每条
数据执行 map 操作,得到一批中间 key/value 对,然后利用 reduce 操作合并那
些 key 值相同的 k-v 对。这种模型能很容易实现大规模并行计算。
事实上,与很多人理解不同的是,MapReduce 对大数据计算的最大贡献,其实
并不是它名字直观显示的 Map 和 Reduce 思想(正如上文提到的,Map 和 Reduce
思想在 Lisp 等函数式编程语言中很早就存在了),而是这个计算框架可以运行
在一群廉价的 PC 机上。MapReduce 的伟大之处在于给大众们普及了工业界对于
大数据计算的理解:它提供了良好的横向扩展性和容错处理机制,至此大数据
计算由集中式过渡至分布式。以前,想对更多的数据进行计算就要造更快的计
算机,而现在只需要添加计算节点。

话说当年的 Google 有三宝:MapReduce、GFS 和 BigTable。但 Google 三宝虽
好,寻常百姓想用却用不上,原因很简单:它们都不开源。于是 Hadoop 应运而
生,初代 Hadoop 的 MapReduce 和 HDFS 即为 Google 的 MapReduce 和 GFS 的开源
实现(另一宝 BigTable 的开源实现是同样大名鼎鼎的 HBase)。自此,大数据
处理框架的历史大幕正式的缓缓拉开。
一、基础
1.大数据的定义
“大数据”一词的确切定义其实是很难给出的,因为不同的人(供应商、从业
者、商业公司等)对它的理解也并不完全一致。通常来讲,大数据是:
� 大数据集
� 用于处理大数据集的某类技术
此处的“大数据集”是指一个数据集的数据量太大以至于无法使用传统工具或
单机方式来处理和存储,而处理技术包括数据接入、数据持久化存储、数据计
算和分析、数据展示(可视化)等等。
2.大数据的特征
大数据系统的基本需求与传统系统并没有本质上的不同。但大数据系统虽然具
有海量的数据规模,但是对数据的接入和处理速度上也有较高的要求,而且在
剩余18页未读,继续阅读
资源评论


笔下生辉
- 粉丝: 0
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 专升本C语言试卷.docx
- 网络营销策划期末考试试卷及答案.doc
- 君豪贸易电子商务网站解决方案.doc
- 云计算的军事应用初探.docx
- 2023年VisualBasic题库有答案要点.doc
- 青少年网络安全知识.docx
- 模块一-网络营销概述2ppt课件.pptx
- 【推荐】运用文本数据库中元数据关联规则进行知识发现的研究.ppt
- 集团网站专业版集团客户端使用手册.doc
- 网络公司季度工作总结.pptx
- 红塔集团数据库营销系统集成安装用户手册.doc
- 8.软件测试与质量管理.ppt
- 员工亲历微软与Google工作管理资料.pdf
- 算法概述概要.pptx
- 网络化智能家居平台商业计划书.doc
- 制冷系统安全技术操作规程.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
