Spark-Notebook 集群与云平台配置指南-CSDN博客

Spark-Notebook 集群与云平台配置指南

spark-notebook spark-notebook/spark-notebook: 是一个基于 Apache Spark 的交互式数据分析笔记本。适合对大数据处理、机器学习和数据分析有兴趣的人，特别是想使用 Apache Spark 进行数据分析和挖掘的人。特点是提供了一套交互式的界面，可以编写和运行 Spark 代码，同时支持多种数据源和可视化方式，具有高灵活性和易用性。项目地址: https://gitcode.com/gh_mirrors/sp/spark-notebook

概述

本文将详细介绍如何在不同的集群环境和云平台上配置和运行Spark-Notebook项目。Spark-Notebook是一个基于Web的交互式数据分析环境，支持Apache Spark。我们将重点讲解在安全YARN集群、Amazon EMR（不同版本）以及Mesosphere DCOS上的配置方法。

安全YARN集群配置

基本配置

在安全YARN集群上运行Spark-Notebook需要特别注意Kerberos认证和资源管理。以下是关键配置步骤：

环境变量设置：

export HADOOP_CONF_DIR=/etc/hadoop/
# 可选调试模式
# export HADOOP_JAAS_DEBUG=true

内存调优：
- 显式设置spark.yarn.am.memoryOverhead和spark.yarn.executor.memoryOverhead值
- 添加spark.yarn.archive（可使用与Spark、Scala和Hadoop版本完全相同的Apache Spark归档文件）

示例笔记本元数据

{
  "customSparkConf": {
    "spark.app.name": "Notebook",
    "spark.master": "yarn-client",
    "spark.executor.memory": "4G",
    "spark.driver.memory": "4G",
    "spark.yarn.am.memoryOverhead": "1024",
    "spark.yarn.executor.memoryOverhead": "1024",
    "spark.yarn.driver.memoryOverhead": "1024",
    "spark.warehouse.dir": "/users/spark/warehouse",
    "spark.yarn.archive": "hdfs:/user/spark/spark_yarn_archive.zip"
  }
}

Kerberos认证

对于安全集群访问，Spark-Notebook需要有效的Kerberos凭据：

在启动Spark-Notebook前执行kinit

设置cron任务定期更新凭据：

kinit -V -k -t /some-path/spark.headless.keytab -r 7d spark@somerealm.com

多用户场景下，需要配置用户模拟功能

Amazon EMR配置

Amazon EMR提供了托管Hadoop和Spark服务。我们将介绍不同EMR版本的配置方法。

EMR 3.x版本

环境信息

YARN集群管理器
Hadoop 2.4.0
Spark 1.3.1
Hive 0.13.1
Scala 2.10.4

安装与配置

安装Spark-Notebook：

wget [预构建包URL]
tar xvzf spark-notebook-0.6.0-scala-2.10.4-spark-1.3.1-hadoop-2.4.0-with-hive-with-parquet.tgz
mv spark-notebook-0.6.0-scala-2.10.4-spark-1.3.1-hadoop-2.4.0-with-hive-with-parquet spark-notebook

配置application.conf：

custom {
  sparkConf {
    spark.local.dir="/mnt/spark,/mnt1/spark"
    spark.driver.extraClassPath="..."
    spark.master="yarn-client"
    # 其他配置...
  }
}

运行命令：

export HADOOP_CONF_DIR=/home/hadoop/conf
export EXTRA_CLASSPATH=/home/hadoop/share/hadoop/common/lib/hadoop-lzo.jar:/home/hadoop/hive/conf
./bin/spark-notebook -Dconfig.file=./conf/application.conf -Dhttp.port=8989

EMR 4.x版本

EMR 4.x系列有多个子版本，配置略有不同。

4.0版本环境

Hadoop 2.6.0
Spark 1.4.1
Hive 1.0.0

4.2版本环境

Hadoop 2.6.0
Spark 1.5.2
Hive 1.0.0

关键配置差异

类路径设置：
- 4.2版本需要更详细的类路径配置
- 增加了额外的Java选项

运行环境变量：

export SPARK_LOCAL_IP=$(ec2-metadata -o | cut -d ' ' -f2)
export SPARK_LOCAL_HOSTNAME=$(ec2-metadata -h | cut -d ' ' -f2)
export CLASSPATH_OVERRIDES=...