- 博客(16)
- 收藏
- 关注
原创 Spark RDD的词频统计
4. 按单词聚合计数(reduceByKey聚合):从文件系统创建RDD,每行文本作为一个元素。# 2. 拆分单词(flatMap展平)# 5. 收集结果(action操作)# 3. 映射为键值对(map转换):将每行文本拆分为单词并展平。:对相同单词的计数进行累加。# 1. 读取文本文件。:触发计算并收集结果。
2025-06-09 23:10:58
146
原创 Spark RDD的创建与常用转换
print(rdd5.collect()) # [('刘思思', '男', 22, '2018级'), ('张婷', '女', 19, '2019级')]stu = [("张婷", "女", 19, "2019级"), ("刘思思", "男", 22, "2018级")]rdd3 = rdd1.sortBy(lambda x: x, False) # 降序。rdd5 = rdd4.sortBy(lambda x: x[3]) # 按年级排序。# 从列表创建RDD。# 从元组创建RDD。
2025-06-09 22:57:20
907
原创 Ubuntu安装MySQL
禁止root远程登录(Y)。选择密码强度(推荐选2)。移除测试数据库(Y)。重新加载权限表(Y)。移除匿名用户(Y)。
2025-06-09 16:11:42
168
原创 python3.6的安装
Ubuntu 的默认软件源可能没有包含 Python 3.6 的安装包(尤其是较新的 Ubuntu 版本已移除了旧版 Python)python3.6,说明需要手动添加包含 Python 3.6 的软件源。运行以下命令查看可安装的 Python 版本。1.添加deadsnakes PPA。2.添加python3.6。在spark中加入第三行。
2025-05-11 22:06:08
311
原创 HDFS的配置
最后查看一下slaves配置文件的内容,这个文件中有运行DateNode进程的节点信息。这里配置的是单节点,里面默认就是localhost即本机,故不用任何修改。Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行,就说明HDFS启动正常。若没有NameNode可以尝试输入hdfs namenode -format后重新启动Hadoop和hdfs。找到这里,将=后面的改成/usr/local/jdk。找到下图中的位置,补充完整。
2025-05-11 22:00:40
189
原创 YARN的配置
配置完毕,可以启动YARN服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。
2025-05-11 21:57:06
286
原创 Hadoop的安装
将解压的hadoop-2.6.5目录的用户和组权限设一下,方便启动Hadoop的时候能够完全控制这个目录,避免因为文件的访问权限导致出现问题。如果在version前加 - ,像java那样,就会报错。-version 被误认为是选项,但 Hadoop 并未定义该选项。我这里的用户名是shit,所以是shit:shit。这里和装jdk一样需要先将压缩包移到soft下。然后 cd ~/soft。然后输入spark的密码。
2025-05-11 21:55:47
138
原创 Hadoop伪分布集群环境搭建
JDK安装完毕,最好重新启动一下Ubuntu20.04虚拟机,这样设置的环境变量就会。这里的话需要先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC,:wq保存并退出。在Linux系统全局生效。
2025-05-11 21:52:48
99
原创 Ubuntu的配置
这里在最左边的工具栏,可以发现有个有个终端的标志,可以点add to favourite,就可以把终端固定在工具栏了。这里点open in terminal,打开终端。这里把虚拟机关机,然后我们将进行内存的配置。这里点ski怕,然后一直点next。然后再次打开虚拟机的终端。
2025-05-11 21:41:24
154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人