自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 什么是SparkONYarn模式

Spark on YARN 是 Apache Spark 的一种部署模式,允许 Spark 应用程序在 Hadoop YARN 集群上运行,充分利用 YARN 的资源管理和调度能力。这种模式将 Spark 与 Hadoop 生态深度集成,使企业能够在同一集群上统一管理批处理、流处理、交互式查询等多种工作负载。

2025-05-13 15:42:19 905

原创 Standalone模式介绍

Spark Standalone 是 Apache Spark 自带的集群管理器,无需依赖外部系统(如 Hadoop YARN 或 Kubernetes),可直接部署 Spark 集群。它提供了简单的资源调度和任务管理功能,适合快速搭建测试环境或轻量级生产集群。Standalone 模式采用。

2025-05-13 15:39:30 924

原创 Spark安装

适合小规模集群测试,无需依赖 YARN 或 Kubernetes。适合开发和测试,支持 Windows、Linux、macOS。,查看集群状态和 Worker 节点信息。适合与 Hadoop 生态集成的生产环境。若成功进入交互式环境,则安装完成。适合容器化部署的云原生环境。

2025-05-13 15:36:55 944

原创 Spark基础介绍

【代码】Spark基础介绍。

2025-05-13 15:33:19 975

原创 Tool接口使用步骤

根据需求,使用 YARN API 执行具体操作,如提交作业或查询集群状态。以下是一个完整的 WordCount 示例,展示如何使用。处理标准 Hadoop 参数(如。

2025-05-13 15:24:37 174

原创 Yarn-Tool接口定义

包中,是一个用于构建 Hadoop 命令行工具的标准接口。是一个辅助类,用于简化。

2025-05-13 15:21:32 202

原创 Yarn-概述

主要用于协调集群中的计算资源(CPU、内存、磁盘、网络等),并为上层应用(如 MapReduce、Spark、Flink 等)提供统一的资源管理和调度服务。是 Apache Hadoop 生态系统中的核心组件,是一个。

2025-05-13 15:17:53 574

原创 数据压缩的概念和优缺点

是通过特定算法(压缩算法)对数据进行重新编码,以减少数据存储空间或传输带宽的技术。其核心目标是在不丢失关键信息(或允许一定程度信息损失)的前提下,降低数据量,提升存储和传输效率。

2025-05-13 15:13:19 648

原创 案例-流量统计

【代码】案例-流量统计。

2025-05-13 15:10:57 114

原创 测试代码清单

【代码】测试代码清单。

2025-05-13 14:55:03 88

原创 什么是序列化与反序列化

将 ** 对象的状态(数据、属性等)转换为可存储或传输的字节流(二进制或文本格式)** 的过程。

2025-05-13 14:48:12 773

原创 分区器介绍

在 Hadoop 中,分区器通过。Hadoop 默认使用。

2025-05-13 14:45:50 242

原创 数据清洗案例

【代码】数据清洗案例。

2025-05-13 14:41:13 257

原创 MapReduce打包运行

首先需要编写 MapReduce 程序,通常包含 Mapper、Reducer 和 Driver 类。这将生成一个包含所有依赖的 JAR 文件(通常位于。使用 Maven 管理依赖和打包,

2025-05-13 14:36:17 370

原创 MapReduce基本介绍

2025-05-13 14:32:21 341

原创 HDFS概述

HDFS(Hadoop Distributed File System)是 Apache Hadoop 生态系统的核心组件之一,专为存储超大规模数据并在商用硬件集群上高效运行而设计。HDFS 作为 Hadoop 生态的基础组件,为分布式计算提供了可靠的底层存储。理解其架构和特性是高效使用 Hadoop 的关键,尤其适合大规模数据分析场景。将大文件分割为多个数据块(Block),分散存储在集群中的多个节点上,实现水平扩展。设计上容忍普通商用硬件故障,而非依赖昂贵的高可用设备。

2025-05-12 20:16:13 610

原创 HDFS客户端操作

通过 HDFS 的 Java API 可以在代码中操作文件系统。通过 HTTP 请求操作 HDFS(需启用。命令,语法类似 Linux 文件操作。HDFS 命令行工具基于。

2025-05-12 20:14:19 306

原创 配置Hadoop集群-配置历史和日志服务

通过以上测试,你可以全面验证 Hadoop 集群的功能完整性、性能表现和容错能力。在 Hadoop 集群中配置历史服务器和日志聚合服务,可以方便地查看作业历史记录和节点日志。完成 Hadoop 集群配置后,需要进行全面测试以验证其功能和性能。查看 YARN 界面的应用日志(Application Master 日志链接)。访问 Web 界面:http://master:19888。访问 http://master:19888,点击。是否显示所有 NodeManager(2 个)。

2025-05-12 20:02:42 911

原创 配置Hadoop集群-测试使用

通过以上测试,你可以全面验证 Hadoop 集群的功能完整性、性能表现和容错能力。如果遇到问题,请参考 Hadoop 日志文件(默认位于。完成 Hadoop 集群配置后,需要进行全面测试以验证其功能和性能。查看 YARN 界面的应用日志(Application Master 日志链接)。是否显示所有 NodeManager(2 个)。是否显示所有 DataNode(2 个)。

2025-05-12 20:01:19 535

原创 配置Hadoop集群-集群配置

完成以上配置后,你的 Hadoop 集群将具备分布式存储(HDFS)和计算(MapReduce/YARN)能力。

2025-05-12 19:58:58 607

原创 配置Hadoop集群-免密登录

在 Hadoop 集群中配置免密登录是确保各节点间高效通信的关键步骤。配置完成后,Hadoop 集群各节点间可通过 SSH 无密码通信,确保。若需要从节点之间也能免密通信(如 YARN 调度),需在。重复步骤 2~4,生成各自的密钥对并互相分发。时需输入目标节点密码,后续即可免密登录。若无需输入密码即可登录,表示配置成功。修改主节点的 SSH 配置(

2025-05-12 19:55:57 399

原创 配置Hadoop集群环境-使用脚本命令实现集群文件同步

在 Hadoop 集群环境中,确保各节点配置文件一致至关重要。以下是使用 rsyncrsync创建节点列表文件(如),每行包含一个从节点的主机名或 IP:plaintext创建脚本,用于将主节点的 Hadoop 配置同步到所有从节点:bash(如):bash(如):bashbash。

2025-05-12 19:54:07 472

原创 安装hadoop

Hadoop 是一个开源的分布式计算框架,用于处理大规模数据。

2025-05-12 19:51:22 249

原创 克隆虚拟机

在随后的设置中,请注意两点:(1)要给其他两台虚拟机取不同的名字。要注意,这里是虚拟机的名称,而不是它的hostname。(2)要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下,方便我们统一管理。得到了hadoop101,hadoop102,由于它们是从hadoop100直接扣克隆过来的,所以目前他们的ip和hostname都是很hadoop100是一样的,这里就需要修改下。vm软件提供了克隆的功能,它可以允许我们从一台虚拟机上快速克隆出其他的一模一样的主机。配置IP的步骤是一样的。

2025-05-12 19:47:26 268

原创 配置hosts

如果需要更具体的帮助(如批量添加域名、解决权限问题),可以进一步说明需求。右键点击「记事本」或其他文本编辑器,选择「以管理员身份运行」。修改 hosts 文件需要管理员权限,否则会提示「拒绝访问」。保存,若提示权限不足,请确认已以管理员身份运行编辑器。若返回配置的 IP 地址,则说明配置成功。

2025-05-12 19:42:52 564

原创 spark和hadoop的区别与联系

Hadoop的HDFS提供了可靠的分布式存储,而Spark作为计算引擎加速数据处理。:Spark可以运行在Hadoop YARN(资源调度框架)上,共享集群资源。:Spark可以直接读写Hadoop HDFS(分布式文件系统)中的数据。同属Apache顶级开源项目,拥有活跃的社区支持,适合企业级应用。,解决传统单机无法处理的PB级数据问题。,任务分片到多节点并行执行。

2025-04-21 09:06:36 360

原创 虚拟机配置IP

在window操作系统中,我们通过图形化的界面来设置ip值,而在linux中ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中的,要去设置IP地址,就需要使用vi 编辑器去修改这个配置文件。如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。是一个固定的套路,我们只需要按照这个流程来做就可以了,

2025-03-03 20:07:15 417

原创 vi的基本使用

vi是 Linux 系统中一款经典且强大的文本编辑器,它有三种基本模式:命令模式、插入模式和底行模式。以下是vi。

2025-02-24 22:20:31 414

原创 Linux的基本命令

以下为你详细介绍 Linux 的基本命令,涵盖文件与目录操作、文件内容查看、权限管理、进程管理等方面。命令可以查看文件和目录的权限信息,权限信息显示在长格式输出的第一列,例如。Linux的基本命令。

2025-02-24 22:04:49 706

原创 安装VMware和centos

通过以上步骤,你就可以在 VMware Workstation Pro 中成功安装 CentOS 系统了。

2025-02-24 21:59:01 796

原创 scala测试

【代码】scala测试。

2024-12-30 11:37:09 134

原创 scala图书管理系统

【代码】scala图书管理系统。

2024-12-30 11:23:43 147

原创 scala泛型trait

【代码】scala泛型trait。

2024-12-09 11:38:31 145

原创 scala泛型类

【代码】scala泛型类。

2024-12-09 11:31:04 110

原创 scala隐式转换

【代码】scala隐式转换。

2024-12-09 10:56:32 84

原创 scala泛型

【代码】scala泛型。

2024-12-09 10:48:51 88

原创 scala隐式类

【代码】scala隐式类。

2024-12-09 08:50:20 140

原创 scala隐式对象

【代码】scala隐式对象。

2024-12-09 08:49:10 107

原创 scala隐式函数

【代码】scala隐式函数。

2024-12-09 08:47:55 124

原创 scala正则表达式

【代码】scala正则表达式。

2024-12-02 11:38:55 136

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除