目录
二、准备 4 个小文件(文件大小分别为 1.7M,5.1M,3.4M,6.8M)
1. 第一种情况,默认分片:不修改程序代码,直接使用 WordCount 源程序
三、对 sogou.500w.utf8 数据进行分析,使用 MapReduce 编写程序完成。
一、MapReduce 示例程序的导入并运行测试
步骤 1:在 eclipse 中创建 Java Project → new Package
步 骤 2 : 将 /home/2130502441ryx/hadoop-3.1.3-src/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples 目录下的 WordCount.java 文件通过复制命令 cp 放到桌面/home/gdpu/Desktop,如下所示:
// 解压压缩包
tar -zxvf /home/2130502441ryx/hadoop-3.1.3-src.tar.gz /home/2130502441ryx
// 复制文件
cp /home/2130502441ryx/hadoop-3.1.3-src/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples/WordCount.java
步骤 3:将 WordCount.java 文件通过复制粘贴,拷贝至 eclipse 对应项目的包下。
步骤 4:导入依赖包 External jars,将以下文件夹里面的 jar 加入到项目的 build path。
\share\hadoop\common
\share\hadoop\common\lib
\share\hadoop\hdfs
\share\hadoop\mapreduce
\share\hadoop\yarn
步骤 5:将项目打包成 jar 包,项目点右键---> export ---> Java(JAR file)。
步骤 6:在 HDFS 文件系统上创建文件夹 input,并上传一些文本文件到该目录,文件自行在操作系统上选取。
hdfs dfs -mkdir /input
hdfs dfs -ls /