
大数据
文章平均质量分 90
言之。
点一盏洁白的灯, 照一照漆黑的眠。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Spark速通】
Spark提供多种运行模式,包括local模式、stand alone模式和on yarn模式。local模式用于本地单机测试,若代码在该模式下运行通过,可提交到其他模式。stand alone模式需搭建Spark集群,代码提交到集群运行。若没有Spark集群,只有Hadoop集群,则可使用on yarn模式提交代码运行。原创 2025-01-29 23:48:25 · 11295 阅读 · 0 评论 -
Hive SQL 解决数据倾斜
这样,数据就会基于加盐后的。重新分布,减轻数据倾斜。原创 2025-01-20 14:53:58 · 10426 阅读 · 0 评论 -
【Hadoop面试题2025】
Hadoop的NameNode负责管理所有文件和目录的元数据,如果存在大量小文件,会导致NameNode存储的元数据量急剧增加,最终可能导致内存不足,影响整个集群的稳定性。例如,使用文件的最后访问时间,周期性检查是否存在超过N个月未访问的冷文件,并采取清理或迁移策略。:系统中存在一些过时的数据,可能是某个时间段的备份文件,或者已经过期的日志文件、报表数据等,这些文件可能不会再被频繁访问。对于大数据处理框架,可以通过设置不同的存储层级,保证频繁访问的数据和冷数据的分离,避免冷数据影响热数据的处理效率。原创 2025-01-18 20:57:41 · 10946 阅读 · 0 评论 -
【大数据2025】MapReduce
-**起源与发展**:是2004年10月谷歌发表的MAPREDUCE论文的开源实现,最初用于大规模网页数据并行处理,现成为Hadoop核心子项目之一,是面向批处理的分布式计算框架。-**基本原理**:分为map和reduce两个阶段。map阶段将计算任务分发到数据节点并行运算,各节点得出部分结果;reduce阶段汇总部分结果得到最终结果,体现分而治之与并行运算思想,遵循计算跟着数据走、移动计算而非数据的原则。原创 2025-01-18 20:32:34 · 10703 阅读 · 0 评论 -
【大数据2025】Yarn 总结
Yarn是分布式通用资源管理系统,处于通用计算和数据存储中间位置。解决了MapReduce的问题,使资源调度更精细且通用性增强,可调度多种计算框架作业到HDFS运行,同时对MapReduce单点故障率高的问题也有相应解决措施(后续内容应会提及具体架构优化方式)。架构组成:高可用架构由多台主节点构成,其中一台主节点处于active管理状态,其余为standby热备状态。状态决策机制:主节点间状态由zookeeper管控。原创 2025-01-18 19:52:10 · 10542 阅读 · 0 评论 -
【大数据2025】Hadoop 万字讲解
定义:为满足海量数据存储与计算的技术或架构。4V特征数据规模巨大(Volume):如达到10PB、50PB等海量规模。数据生成和处理速度快(Velocity):如鞋厂2017年每天数据增量100TB,且需快速处理。数据多样性(Variety):涵盖结构化、非结构化和半结构化数据,互联网时代后两者占比更高。价值(Value):海量数据挖掘价值高,与人工智能结合潜力大,但价值密度低,因数据量庞大稀释了价值。满足这四个特征的场景即为大数据场景,也称大数据的4V特性。原创 2025-01-18 18:33:40 · 11072 阅读 · 0 评论 -
为什么有了Hadoop还要HBase ?
Hadoop 和 HBase 各自有不同的设计目的和应用场景,虽然它们都属于大数据生态系统,但它们解决的问题和优化的方向不同。下面我将通过表格的方式,详细对比 Hadoop 和 HBase,并在最后描述两者对小文件的处理差异。虽然 HBase 底层使用 HDFS 存储数据,但它并不适合存储大量小文件,因为存储小文件会导致元数据管理开销,且并未针对小文件进行优化。(配合文件合并策略)会是更好的选择,而如果需要处理大量实时数据、频繁的读取和更新操作,因此,如果你的应用场景涉及大量小文件的存储,原创 2024-12-12 10:35:40 · 11053 阅读 · 0 评论