一、我的软件环境

二、Spark集群拓扑
2.1、集群规模
192.168.128.10 master 1.5G ~2G内存、20G硬盘、NAT、1~2核 ;
192.168.128.11 node1 1G内存、20G硬盘、NAT、1核
192.168.128.12 node2 1G内存、20G硬盘、NAT、1核
192.168.128.13 node3 1G内存、20G硬盘、NAT、1核
2.2、Spark的安装模式
1、本地模式
在一个节点上安装Spark,利用本地线程运行程序,非分布式环境
2、伪分布式
Spark单机伪分布式是在一台机器上既有Master,又有Worker进程
3、完全分布式
全分布模式用于生产,至少需要3~4台机器,其中一台为为主节点,部署Master,其他节点部署Worker
4、HA高可用模式
在完全分布式基础上利用Zookeeper实现Master主从备份

三、Spark安装配置
3.1、Spark配置文件

Data: spark mllib里面用到的数据;
Ec2: 部署在亚马逊云平台上的脚本
Examples