2401_82503051-CSDN博客

原创 Spark RDD的词频统计

4. 按单词聚合计数（reduceByKey聚合）：从文件系统创建RDD，每行文本作为一个元素。# 2. 拆分单词（flatMap展平）# 5. 收集结果（action操作）# 3. 映射为键值对（map转换）：将每行文本拆分为单词并展平。：对相同单词的计数进行累加。# 1. 读取文本文件。：触发计算并收集结果。

2025-06-09 23:10:58 146

print(rdd5.collect()) # [('刘思思', '男', 22, '2018级'), ('张婷', '女', 19, '2019级')]stu = [("张婷", "女", 19, "2019级"), ("刘思思", "男", 22, "2018级")]rdd3 = rdd1.sortBy(lambda x: x, False) # 降序。rdd5 = rdd4.sortBy(lambda x: x[3]) # 按年级排序。# 从列表创建RDD。# 从元组创建RDD。

2025-06-09 22:57:20 907

原创 Ubuntu安装jupyter

若是可以然后文末添加保存并退出（Ctrl + X → Y → Enter），然后重新加载。

2025-06-09 16:27:05 123

原创 Ubuntu安装pyspark

然后输入pyspark，输出应显示Spark版本和Python上下文。

2025-06-09 16:19:41 130

原创 Ubuntu安装Kafka

要先将kafka压缩包复制粘贴到Ubuntu里，路径自定义，这里我是放在Downloads下。

2025-06-09 16:14:26 207

原创 Ubuntu安装MySQL

禁止root远程登录（Y）。选择密码强度（推荐选2）。移除测试数据库（Y）。重新加载权限表（Y）。移除匿名用户（Y）。

2025-06-09 16:11:42 168

原创 python3.6的安装

Ubuntu 的默认软件源可能没有包含 Python 3.6 的安装包（尤其是较新的 Ubuntu 版本已移除了旧版 Python）python3.6，说明需要手动添加包含 Python 3.6 的软件源。运行以下命令查看可安装的 Python 版本。1.添加deadsnakes PPA。2.添加python3.6。在spark中加入第三行。

2025-05-11 22:06:08 311

原创 Spark的安装配置

这里一样需要先将压缩包移到soft下。通过spark计算得到的pi近似值。

2025-05-11 22:03:49 144

原创 HDFS的配置

最后查看一下slaves配置文件的内容，这个文件中有运行DateNode进程的节点信息。这里配置的是单节点，里面默认就是localhost即本机，故不用任何修改。Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行，就说明HDFS启动正常。若没有NameNode可以尝试输入hdfs namenode -format后重新启动Hadoop和hdfs。找到这里，将=后面的改成/usr/local/jdk。找到下图中的位置，补充完整。

2025-05-11 22:00:40 189

原创 YARN的配置

配置完毕，可以启动YARN服务相关的程序，执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置，并改成图中变量。

2025-05-11 21:57:06 286

原创 Hadoop的安装

将解压的hadoop-2.6.5目录的用户和组权限设一下，方便启动Hadoop的时候能够完全控制这个目录，避免因为文件的访问权限导致出现问题。如果在version前加 - ，像java那样，就会报错。-version 被误认为是选项，但 Hadoop 并未定义该选项。我这里的用户名是shit，所以是shit:shit。这里和装jdk一样需要先将压缩包移到soft下。然后 cd ~/soft。然后输入spark的密码。

2025-05-11 21:55:47 138