自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 filter

2025-06-09 23:50:47 102

原创 vi编辑器

2025-06-09 23:39:09 102

原创 Spark RDD的词频统计

4. 按单词聚合计数(reduceByKey聚合):从文件系统创建RDD,每行文本作为一个元素。# 2. 拆分单词(flatMap展平)# 5. 收集结果(action操作)# 3. 映射为键值对(map转换):将每行文本拆分为单词并展平。:对相同单词的计数进行累加。# 1. 读取文本文件。:触发计算并收集结果。

2025-06-09 23:10:58 146

原创 Spark RDD转换

【代码】Spark RDD转换。

2025-06-09 23:07:43 347

原创 Spark RDD的创建与常用转换

print(rdd5.collect()) # [('刘思思', '男', 22, '2018级'), ('张婷', '女', 19, '2019级')]stu = [("张婷", "女", 19, "2019级"), ("刘思思", "男", 22, "2018级")]rdd3 = rdd1.sortBy(lambda x: x, False) # 降序。rdd5 = rdd4.sortBy(lambda x: x[3]) # 按年级排序。# 从列表创建RDD。# 从元组创建RDD。

2025-06-09 22:57:20 907

原创 Ubuntu安装jupyter

若是可以然后文末添加保存并退出(Ctrl + X → Y → Enter),然后重新加载。

2025-06-09 16:27:05 123

原创 Ubuntu安装pyspark

然后输入pyspark,输出应显示Spark版本和Python上下文。

2025-06-09 16:19:41 130

原创 Ubuntu安装Kafka

要先将kafka压缩包复制粘贴到Ubuntu里,路径自定义,这里我是放在Downloads下。

2025-06-09 16:14:26 207

原创 Ubuntu安装MySQL

禁止root远程登录(Y)。选择密码强度(推荐选2)。移除测试数据库(Y)。重新加载权限表(Y)。移除匿名用户(Y)。

2025-06-09 16:11:42 168

原创 python3.6的安装

Ubuntu 的默认软件源可能没有包含 Python 3.6 的安装包(尤其是较新的 Ubuntu 版本已移除了旧版 Python)python3.6,说明需要手动添加包含 Python 3.6 的软件源。运行以下命令查看可安装的 Python 版本。1.添加deadsnakes PPA。2.添加python3.6。在spark中加入第三行。

2025-05-11 22:06:08 311

原创 Spark的安装配置

这里一样需要先将压缩包移到soft下。通过spark计算得到的pi近似值。

2025-05-11 22:03:49 144

原创 HDFS的配置

最后查看一下slaves配置文件的内容,这个文件中有运行DateNode进程的节点信息。这里配置的是单节点,里面默认就是localhost即本机,故不用任何修改。Java进程列表中应有NameNode、DataNode、SecondaryNameNode这三个程序在运行,就说明HDFS启动正常。若没有NameNode可以尝试输入hdfs namenode -format后重新启动Hadoop和hdfs。找到这里,将=后面的改成/usr/local/jdk。找到下图中的位置,补充完整。

2025-05-11 22:00:40 189

原创 YARN的配置

配置完毕,可以启动YARN服务相关的程序,执行过程中会分别运行ResourceManager和NodeManager这两个进程。找到如下图的位置,并改成图中变量。

2025-05-11 21:57:06 286

原创 Hadoop的安装

将解压的hadoop-2.6.5目录的用户和组权限设一下,方便启动Hadoop的时候能够完全控制这个目录,避免因为文件的访问权限导致出现问题。如果在version前加 - ,像java那样,就会报错。-version 被误认为是选项,但 Hadoop 并未定义该选项。我这里的用户名是shit,所以是shit:shit。这里和装jdk一样需要先将压缩包移到soft下。然后 cd ~/soft。然后输入spark的密码。

2025-05-11 21:55:47 138

原创 Hadoop伪分布集群环境搭建

JDK安装完毕,最好重新启动一下Ubuntu20.04虚拟机,这样设置的环境变量就会。这里的话需要先在Home下创建一个soft文档用来放我们用到的压缩包。直接将压缩包复制进soft中。然后ESC,:wq保存并退出。在Linux系统全局生效。

2025-05-11 21:52:48 99

原创 Ubuntu的配置

这里在最左边的工具栏,可以发现有个有个终端的标志,可以点add to favourite,就可以把终端固定在工具栏了。这里点open in terminal,打开终端。这里把虚拟机关机,然后我们将进行内存的配置。这里点ski怕,然后一直点next。然后再次打开虚拟机的终端。

2025-05-11 21:41:24 154

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除