
Hadoop
文章平均质量分 59
莱维贝贝、
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库的概念
数仓概念: 数据仓库(英语:Data Warehouse,简称数仓、DW ),是一个用于存储、分析、报告的数据系统。 数据仓库的目的是构建面向分析的集成化数据环境,分析结果为企业提供决策支持( Decision Support )。 数仓专注分析 数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统; 同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用; 这也是为什么叫“仓库”,而不叫“工厂”的原因。 数据库为啥不用于进行分析? 答:数仓可以更好的分析,数据库也可以进行分原创 2022-03-30 14:31:50 · 2827 阅读 · 0 评论 -
第三章:MapReduce与YARN的理解
1. MapReduce 概述: 一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以; 其中用户负责map、reduce两个阶段的业务问题,Hadoop负责底层所有的技术问题; MapReduce核心思绪:先分再合,分而治之,主要目的:并行运行任务,提高效率。 注意: 不可拆分的计算任务或相互间有依赖关系的数据无法并行计算: MapReduce特点: 易于编程:简单的接口就可以完成分布式程序; 良好的扩展性:MR的分布式计算的特点可以随节点数据增长保持近似于线原创 2022-03-29 15:31:17 · 2946 阅读 · 0 评论 -
第一章:Hadoop是什么?
1.Hadoop介绍 Hadoop狭义上是指一款用java语言实现,开源允许用户简单的编程模式实现跨机器集群对海量数据进行分布式计算处理。 Hadoop核心组件: Hadoop HDFS(分布式文件存储系统):解决海量数据存储; Hadoop YARN(集群资源管理和任务调度):解决资源任务调度; Hadoop MapReduce(分布式计算框架):解决海量数据计算; Hadoop广义上是指围绕Hadoop打造的大数据生态圈 Hadoop现状 HDFS作为分布式文件存储系统,处于生态圈底层和核心地位原创 2022-03-25 21:00:34 · 1885 阅读 · 0 评论