学习笔记Spark（二）—— Spark集群的安装配置

别呀

于 2021-10-07 11:50:45 发布

阅读量1.6k

点赞数 4

CC 4.0 BY-SA版权

文章标签： spark big data scala

本文链接：https://blog.csdn.net/qq_46485161/article/details/120632714

本文档详细介绍了如何在Linux环境下配置和启动一个小型的Spark集群，包括集群规模、安装模式、配置文件解读及修改、分发安装包、设置环境变量、启动与关闭流程。此外，还展示了运行第一个Spark程序的步骤，以及如何通过Web界面进行监控。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、我的软件环境

二、Spark集群拓扑

2.1、集群规模

192.168.128.10     master	 1.5G ~2G内存、20G硬盘、NAT、1~2核 ；
192.168.128.11     node1	1G内存、20G硬盘、NAT、1核
192.168.128.12     node2	1G内存、20G硬盘、NAT、1核
192.168.128.13     node3	1G内存、20G硬盘、NAT、1核

2.2、Spark的安装模式

1、本地模式
在一个节点上安装Spark，利用本地线程运行程序，非分布式环境

2、伪分布式
Spark单机伪分布式是在一台机器上既有Master，又有Worker进程

3、完全分布式
全分布模式用于生产，至少需要3~4台机器，其中一台为为主节点，部署Master，其他节点部署Worker

4、HA高可用模式
在完全分布式基础上利用Zookeeper实现Master主从备份

三、Spark安装配置

3.1、Spark配置文件

Data: spark mllib里面用到的数据；
Ec2: 部署在亚马逊云平台上的脚本
Examples

最低0.47元/天解锁文章