经过测试centos采用的般般是3.0.2 windows 采用的最新版本,3. 5.3 java版本是 1.8.0
yum安装java 查看默认路径
update-alternatives --config java
# Java 环境变量
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.412.b08-1.el7_9.x86_64/jre
export PATH=$JAVA_HOME/bin:$PATH
# Spark 环境变量
export SPARK_HOME=/home/vagrant/soft/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH
编辑 .bashrc 文件 source
测试使用
文本获取
json获取
webui管理界面
spark 模拟环境使用
pip install jupyterlab
pip install jupyterlab-language-pack-zh-CN (配套中文包)
jupyter server list 查看服务列表
直接登录提示
启动程序 jupyter-lab
运行界面
使用 conda activate python 创建 conda py环境
conda create -n myspark python=3.8 创建conda 环境 命名 空间名称为 myspark
激活当前环境下的 开发环境 使用 jupyter-lab 进行模拟sqpark程序操作
windows 运行环境
java 1.8.0 spark spark-3.5.3-bin-hadoop3 路径不能包含空格
小彩蛋,支持 mysql在线查询
pip install prettytable 和 pip install pymysql 就可以在 jupyerLab中自由使用数据查询
还需要 pip install IPython 进行数据渲染
基本命令
import pymysql
from prettytable import from_db_cursor
# 创建连接
conn = pymysql.connect(host="localhost",port=3306,user='root',password='123456',db='siyu_cms')
# 创建游标
cur = conn.cursor()
# 执行查询
cur.execute("SELECT * FROM tp_users")
# 使用prettytable优化输出
table = from_db_cursor(cur)
print(table)
# 关闭游标 + 连接
cur.close()
conn.close()
查询结果以表格展示
import pymysql
import pandas as pd
from IPython.display import display
# 创建连接
conn = pymysql.connect(host="localhost",port=3306,user='root',password='root',db='tedu1')
# 模式一:
# 执行查询并将结果转化为DF
# pd.read_sql("SELECT * FROM tarena.user LIMIT 5", conn)
# 关闭连接
# 假如关闭连接则没有输出结果
# conn.close()
# 模式二:
# 输出表格
# df = pd.read_sql("SELECT * FROM tarena.user LIMIT 5", conn)
# df
# 关闭连接
# 假如关闭连接则没有输出结果
# conn.close()
# 模式二:
# 输出表格
df = pd.read_sql("SELECT * FROM tarena.user LIMIT 5", conn)
conn.close()
# 关闭连接后任然可以输出
display(df)
conda 基本命令
激活 环境
conda activate myspark 激活 对应环境条件
python 环境是 3.12
默认环境恰好也是 3.12.4
参考
【大数据Spark】PySpark使用SparkSQL查询数据_哔哩哔哩_bilibili
Spark基础实验五——Spark SQL编程初级实践 - 伽澄 - 博客园
【西天取经】(Spark入门)Windows10 安装 Spark3.0,使用.net创建第一个Spark程序 - 八_戒 - 博客园
Jupyter Lab | 汉化界面操作_jupyterlab汉化-CSDN博客
https://zhuanlan.zhihu.com/p/7061800044