姬激薄-CSDN博客

原创什么是SparkONYarn模式

Spark on YARN 是 Apache Spark 的一种部署模式，允许 Spark 应用程序在 Hadoop YARN 集群上运行，充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成，使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。

2025-05-13 15:42:19 905

原创 Standalone模式介绍

Spark Standalone 是 Apache Spark 自带的集群管理器，无需依赖外部系统（如 Hadoop YARN 或 Kubernetes），可直接部署 Spark 集群。它提供了简单的资源调度和任务管理功能，适合快速搭建测试环境或轻量级生产集群。Standalone 模式采用。

2025-05-13 15:39:30 924

原创 Spark安装

适合小规模集群测试，无需依赖 YARN 或 Kubernetes。适合开发和测试，支持 Windows、Linux、macOS。，查看集群状态和 Worker 节点信息。适合与 Hadoop 生态集成的生产环境。若成功进入交互式环境，则安装完成。适合容器化部署的云原生环境。

2025-05-13 15:36:55 944

原创 Tool接口使用步骤

根据需求，使用 YARN API 执行具体操作，如提交作业或查询集群状态。以下是一个完整的 WordCount 示例，展示如何使用。处理标准 Hadoop 参数（如。

2025-05-13 15:24:37 174

原创 Yarn-Tool接口定义

包中，是一个用于构建 Hadoop 命令行工具的标准接口。是一个辅助类，用于简化。

2025-05-13 15:21:32 202

原创 Yarn-概述

主要用于协调集群中的计算资源（CPU、内存、磁盘、网络等），并为上层应用（如 MapReduce、Spark、Flink 等）提供统一的资源管理和调度服务。是 Apache Hadoop 生态系统中的核心组件，是一个。

2025-05-13 15:17:53 574

原创数据压缩的概念和优缺点

是通过特定算法（压缩算法）对数据进行重新编码，以减少数据存储空间或传输带宽的技术。其核心目标是在不丢失关键信息（或允许一定程度信息损失）的前提下，降低数据量，提升存储和传输效率。

2025-05-13 15:13:19 648

原创什么是序列化与反序列化

将 ** 对象的状态（数据、属性等）转换为可存储或传输的字节流（二进制或文本格式）** 的过程。

2025-05-13 14:48:12 773

原创分区器介绍

在 Hadoop 中，分区器通过。Hadoop 默认使用。

2025-05-13 14:45:50 242

原创 MapReduce打包运行

首先需要编写 MapReduce 程序，通常包含 Mapper、Reducer 和 Driver 类。这将生成一个包含所有依赖的 JAR 文件（通常位于。使用 Maven 管理依赖和打包，

2025-05-13 14:36:17 370

HDFS（Hadoop Distributed File System）是 Apache Hadoop 生态系统的核心组件之一，专为存储超大规模数据并在商用硬件集群上高效运行而设计。HDFS 作为 Hadoop 生态的基础组件，为分布式计算提供了可靠的底层存储。理解其架构和特性是高效使用 Hadoop 的关键，尤其适合大规模数据分析场景。将大文件分割为多个数据块（Block），分散存储在集群中的多个节点上，实现水平扩展。设计上容忍普通商用硬件故障，而非依赖昂贵的高可用设备。

2025-05-12 20:16:13 610

原创 HDFS客户端操作

通过 HDFS 的 Java API 可以在代码中操作文件系统。通过 HTTP 请求操作 HDFS（需启用。命令，语法类似 Linux 文件操作。HDFS 命令行工具基于。

2025-05-12 20:14:19 306

原创配置Hadoop集群-配置历史和日志服务

通过以上测试，你可以全面验证 Hadoop 集群的功能完整性、性能表现和容错能力。在 Hadoop 集群中配置历史服务器和日志聚合服务，可以方便地查看作业历史记录和节点日志。完成 Hadoop 集群配置后，需要进行全面测试以验证其功能和性能。查看 YARN 界面的应用日志（Application Master 日志链接）。访问 Web 界面：http://master:19888。访问 http://master:19888，点击。是否显示所有 NodeManager（2 个）。

2025-05-12 20:02:42 911

原创配置Hadoop集群-测试使用

通过以上测试，你可以全面验证 Hadoop 集群的功能完整性、性能表现和容错能力。如果遇到问题，请参考 Hadoop 日志文件（默认位于。完成 Hadoop 集群配置后，需要进行全面测试以验证其功能和性能。查看 YARN 界面的应用日志（Application Master 日志链接）。是否显示所有 NodeManager（2 个）。是否显示所有 DataNode（2 个）。

2025-05-12 20:01:19 535

原创配置Hadoop集群-集群配置

完成以上配置后，你的 Hadoop 集群将具备分布式存储（HDFS）和计算（MapReduce/YARN）能力。

2025-05-12 19:58:58 607

原创配置Hadoop集群-免密登录

在 Hadoop 集群中配置免密登录是确保各节点间高效通信的关键步骤。配置完成后，Hadoop 集群各节点间可通过 SSH 无密码通信，确保。若需要从节点之间也能免密通信（如 YARN 调度），需在。重复步骤 2~4，生成各自的密钥对并互相分发。时需输入目标节点密码，后续即可免密登录。若无需输入密码即可登录，表示配置成功。修改主节点的 SSH 配置（

2025-05-12 19:55:57 399

原创配置Hadoop集群环境-使用脚本命令实现集群文件同步

在 Hadoop 集群环境中，确保各节点配置文件一致至关重要。以下是使用 rsyncrsync创建节点列表文件（如），每行包含一个从节点的主机名或 IP：plaintext创建脚本，用于将主节点的 Hadoop 配置同步到所有从节点：bash（如）：bash（如）：bashbash。

2025-05-12 19:54:07 472

原创安装hadoop

Hadoop 是一个开源的分布式计算框架，用于处理大规模数据。

2025-05-12 19:51:22 249

原创克隆虚拟机

在随后的设置中，请注意两点：（1）要给其他两台虚拟机取不同的名字。要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。得到了hadoop101,hadoop102，由于它们是从hadoop100直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。vm软件提供了克隆的功能，它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。

2025-05-12 19:47:26 268

原创配置hosts

如果需要更具体的帮助（如批量添加域名、解决权限问题），可以进一步说明需求。右键点击「记事本」或其他文本编辑器，选择「以管理员身份运行」。修改 hosts 文件需要管理员权限，否则会提示「拒绝访问」。保存，若提示权限不足，请确认已以管理员身份运行编辑器。若返回配置的 IP 地址，则说明配置成功。

2025-05-12 19:42:52 564

原创 spark和hadoop的区别与联系

Hadoop的HDFS提供了可靠的分布式存储，而Spark作为计算引擎加速数据处理。：Spark可以运行在Hadoop YARN（资源调度框架）上，共享集群资源。：Spark可以直接读写Hadoop HDFS（分布式文件系统）中的数据。同属Apache顶级开源项目，拥有活跃的社区支持，适合企业级应用。，解决传统单机无法处理的PB级数据问题。，任务分片到多节点并行执行。

2025-04-21 09:06:36 360

原创虚拟机配置IP

在window操作系统中，我们通过图形化的界面来设置ip值，而在linux中ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中的，要去设置IP地址，就需要使用vi 编辑器去修改这个配置文件。如果不进行设置，每次启动机器时都可能是随机的IP，不方便我们后续操作。第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时，它们的网段都是一致的。是一个固定的套路，我们只需要按照这个流程来做就可以了，

2025-03-03 20:07:15 417

空空如也

空空如也