- 博客(62)
- 收藏
- 关注
原创 什么是SparkONYarn模式
Spark on YARN 是 Apache Spark 的一种部署模式,允许 Spark 应用程序在 Hadoop YARN 集群上运行,充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成,使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。
2025-05-13 15:42:19
905
原创 Standalone模式介绍
Spark Standalone 是 Apache Spark 自带的集群管理器,无需依赖外部系统(如 Hadoop YARN 或 Kubernetes),可直接部署 Spark 集群。它提供了简单的资源调度和任务管理功能,适合快速搭建测试环境或轻量级生产集群。Standalone 模式采用。
2025-05-13 15:39:30
924
原创 Spark安装
适合小规模集群测试,无需依赖 YARN 或 Kubernetes。适合开发和测试,支持 Windows、Linux、macOS。,查看集群状态和 Worker 节点信息。适合与 Hadoop 生态集成的生产环境。若成功进入交互式环境,则安装完成。适合容器化部署的云原生环境。
2025-05-13 15:36:55
944
原创 Tool接口使用步骤
根据需求,使用 YARN API 执行具体操作,如提交作业或查询集群状态。以下是一个完整的 WordCount 示例,展示如何使用。处理标准 Hadoop 参数(如。
2025-05-13 15:24:37
174
原创 Yarn-概述
主要用于协调集群中的计算资源(CPU、内存、磁盘、网络等),并为上层应用(如 MapReduce、Spark、Flink 等)提供统一的资源管理和调度服务。是 Apache Hadoop 生态系统中的核心组件,是一个。
2025-05-13 15:17:53
574
原创 数据压缩的概念和优缺点
是通过特定算法(压缩算法)对数据进行重新编码,以减少数据存储空间或传输带宽的技术。其核心目标是在不丢失关键信息(或允许一定程度信息损失)的前提下,降低数据量,提升存储和传输效率。
2025-05-13 15:13:19
648
原创 MapReduce打包运行
首先需要编写 MapReduce 程序,通常包含 Mapper、Reducer 和 Driver 类。这将生成一个包含所有依赖的 JAR 文件(通常位于。使用 Maven 管理依赖和打包,
2025-05-13 14:36:17
370
原创 HDFS概述
HDFS(Hadoop Distributed File System)是 Apache Hadoop 生态系统的核心组件之一,专为存储超大规模数据并在商用硬件集群上高效运行而设计。HDFS 作为 Hadoop 生态的基础组件,为分布式计算提供了可靠的底层存储。理解其架构和特性是高效使用 Hadoop 的关键,尤其适合大规模数据分析场景。将大文件分割为多个数据块(Block),分散存储在集群中的多个节点上,实现水平扩展。设计上容忍普通商用硬件故障,而非依赖昂贵的高可用设备。
2025-05-12 20:16:13
610
原创 HDFS客户端操作
通过 HDFS 的 Java API 可以在代码中操作文件系统。通过 HTTP 请求操作 HDFS(需启用。命令,语法类似 Linux 文件操作。HDFS 命令行工具基于。
2025-05-12 20:14:19
306
原创 配置Hadoop集群-配置历史和日志服务
通过以上测试,你可以全面验证 Hadoop 集群的功能完整性、性能表现和容错能力。在 Hadoop 集群中配置历史服务器和日志聚合服务,可以方便地查看作业历史记录和节点日志。完成 Hadoop 集群配置后,需要进行全面测试以验证其功能和性能。查看 YARN 界面的应用日志(Application Master 日志链接)。访问 Web 界面:http://master:19888。访问 http://master:19888,点击。是否显示所有 NodeManager(2 个)。
2025-05-12 20:02:42
911
原创 配置Hadoop集群-测试使用
通过以上测试,你可以全面验证 Hadoop 集群的功能完整性、性能表现和容错能力。如果遇到问题,请参考 Hadoop 日志文件(默认位于。完成 Hadoop 集群配置后,需要进行全面测试以验证其功能和性能。查看 YARN 界面的应用日志(Application Master 日志链接)。是否显示所有 NodeManager(2 个)。是否显示所有 DataNode(2 个)。
2025-05-12 20:01:19
535
原创 配置Hadoop集群-免密登录
在 Hadoop 集群中配置免密登录是确保各节点间高效通信的关键步骤。配置完成后,Hadoop 集群各节点间可通过 SSH 无密码通信,确保。若需要从节点之间也能免密通信(如 YARN 调度),需在。重复步骤 2~4,生成各自的密钥对并互相分发。时需输入目标节点密码,后续即可免密登录。若无需输入密码即可登录,表示配置成功。修改主节点的 SSH 配置(
2025-05-12 19:55:57
399
原创 配置Hadoop集群环境-使用脚本命令实现集群文件同步
在 Hadoop 集群环境中,确保各节点配置文件一致至关重要。以下是使用 rsyncrsync创建节点列表文件(如),每行包含一个从节点的主机名或 IP:plaintext创建脚本,用于将主节点的 Hadoop 配置同步到所有从节点:bash(如):bash(如):bashbash。
2025-05-12 19:54:07
472
原创 克隆虚拟机
在随后的设置中,请注意两点:(1)要给其他两台虚拟机取不同的名字。要注意,这里是虚拟机的名称,而不是它的hostname。(2)要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下,方便我们统一管理。得到了hadoop101,hadoop102,由于它们是从hadoop100直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。vm软件提供了克隆的功能,它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。
2025-05-12 19:47:26
268
原创 配置hosts
如果需要更具体的帮助(如批量添加域名、解决权限问题),可以进一步说明需求。右键点击「记事本」或其他文本编辑器,选择「以管理员身份运行」。修改 hosts 文件需要管理员权限,否则会提示「拒绝访问」。保存,若提示权限不足,请确认已以管理员身份运行编辑器。若返回配置的 IP 地址,则说明配置成功。
2025-05-12 19:42:52
564
原创 spark和hadoop的区别与联系
Hadoop的HDFS提供了可靠的分布式存储,而Spark作为计算引擎加速数据处理。:Spark可以运行在Hadoop YARN(资源调度框架)上,共享集群资源。:Spark可以直接读写Hadoop HDFS(分布式文件系统)中的数据。同属Apache顶级开源项目,拥有活跃的社区支持,适合企业级应用。,解决传统单机无法处理的PB级数据问题。,任务分片到多节点并行执行。
2025-04-21 09:06:36
360
原创 虚拟机配置IP
在window操作系统中,我们通过图形化的界面来设置ip值,而在linux中ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中的,要去设置IP地址,就需要使用vi 编辑器去修改这个配置文件。如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。是一个固定的套路,我们只需要按照这个流程来做就可以了,
2025-03-03 20:07:15
417
原创 Linux的基本命令
以下为你详细介绍 Linux 的基本命令,涵盖文件与目录操作、文件内容查看、权限管理、进程管理等方面。命令可以查看文件和目录的权限信息,权限信息显示在长格式输出的第一列,例如。Linux的基本命令。
2025-02-24 22:04:49
706
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人