ART1: Spark shell基础编程( 数据文件需要导入 )：将三份文件上传至HDFS，分别为student.txt（学生信息表），result_bigdata.txt（大数据基础成绩表），result_math.txt（数学成绩表）任务1：加载student.txt为名称为student的RDD数据，result_bigdata.txt为名称为bigdata的RDD数据，result_math.txt为名称为math的RDD数据

在Spark Shell中完成这个任务，我们需要先启动Spark交互式环境（即Spark Shell）。以下是具体步骤和对应的Scala代码示例： ### 步骤一：上传文件到HDFS 首先确保这三份文件已存在于您的本地系统中。然后通过以下命令将文件上传至HDFS： ```bash hdfs dfs -put student.txt /sparkDir/ hdfs dfs -put result_bigdata.txt /sparkDir/ hdfs dfs -put result_math.txt /sparkDir/ ``` 这里我们将所有文件放入了`/sparkDir/`目录下。 --- ### 步骤二：加载数据到RDD #### 启动Spark Shell 进入Spark的shell模式 (通常可以通过输入 `spark-shell` 来直接开启)。 #### 加载student.txt为名为`student`的RDD数据假设每行表示一条记录，在Spark Shell里运行下面这条语句即可读取文本文件作为RDD： ```scala val student = sc.textFile("hdfs://<namenode_host>:<port>/sparkDir/student.txt") ``` *注意*: 替换 `<namenode_host>` 和 `<port>` 成实际集群地址端口值，默认通常是 `localhost:9000`. 类似地处理其他两个文件： #### 加载result_bigdata.txt为名为`bigdata`的RDD数据 ```scala val bigdata = sc.textFile("hdfs://<namenode_host>:<port>/sparkDir/result_bigdata.txt") ``` #### 加载result_math.txt为名为`math`的RDD数据 ```scala val math = sc.textFile("hdfs://<namenode_host>:<port>/sparkDir/result_math.txt") ``` 此时我们就分别得到了三个基于对应原始txt文档内容而来的分布式集合(RDDs)，分别是students名单、大数据课的成绩单还有数学课程成绩单。您可以尝试打印出每个RDD的部分内容来验证是否成功加载了数据： ```scala student.take(5).foreach(println) bigdata.take(5).foreach(println) math.take(5).foreach(println) ``` 上面这段程序会抽取前五行数据显示出来供调试参考用。

阅读全文

相关推荐

现有student.txt和student-score.txt 将两个文件上传到hdfs上 使用Map/Reduce框架完成下面

Hadoop学习笔记(二)Hadoop 分布式文件系统 HDFS：1.HDFS基础

基于Spark Streaming将图片以流的方式写入HDFS分布式文件系统.zip

cassandratohdfs:Spark作业将数据从Cassandra传输到HDFS

HDFS常用Shell命令.md

04：HDFS分布式文件系统.zip

向hdfs上传Excel文件.doc

大数据教程-HDFS常用Shell命令.md.zip

华为大数据认证：HDFS分布式文件系统.pptx

HDFS上传文件报错org.apache.hadoop.fs.ChecksumException: Checksum error: file:/hyk/data/hyk.txt

分布式文件系统Hdfs文件简要介绍.pdf

HDFS分布式文件系统.pdf

分布式文件系统HDFS(1).pptx

hdfs.dll hdfs.lib

基于 DataX 开发的快速同步 MySQL 数据至 HDFS 上的工具.zip

数据挖掘概述.ppt

浅谈互联网+儿童文学阅读指导策略(1).docx

前端分析-202307110078988

推荐算法介绍PPT学习课件.ppt

大家在看

Total Commander软件及注册工具

C# Winform使用DataGridView的VirtualMode虚拟模式

SCLConvert1.0.rar

四海等深线_shp

cadlib4.0 加载dwg文件demo

最新推荐

实验七：Spark初级编程实践

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

第二章 分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx

HDFS文件系统基本文件命令、编程读写HDFS

MySql准实时同步数据到HDFS(单机版).docx

500强企业管理表格模板大全

YOLOv8目标检测算法深度剖析：从零开始构建高效检测系统（10大秘诀）

mclmcrrt9_8.dll下载

林锐博士C++编程指南与心得：初学者快速提能

线性代数方程组求解全攻略：直接法vs迭代法，一文搞懂

现有student.txt和student-score.txt 将两个文件上传到hdfs上使用Map/Reduce框架完成下面

第二章分布式文件系统HDFS+MapReduce（代码实现检查文件是否存在&WordCount统计）.docx