在hadoop数据集上运行简单数据

By | 2018年12月21日

一:在eclipse或者myeclipse上将java文件打包为jar包,例如:为max.jar,然后

将max.jar 、simple.txt拖到ubuntu中

 

二:打开终端:

./start-all.sh

三:创建一个文件夹在你的hadoop-2.8.4下

hadoop fs –mkdir /创建的文件夹名称

例如:创建一个input文件夹

然后查看是否创建成功:

hadoop fs –ls /

四:将你的simple.txt文件放在你的文件夹下

例如:我的simple.txt文件在我的桌面上,必须写上你文件夹的路径,以便于找到你的simple.txt文件

hadoop fs –put ~/桌面/sample.txt /input

然后进行查看

hadoop fs –ls –R /

-R 是进行迭代找寻你的文件夹下的文件,一层一层的找文件

五:找到后就可以运行你的文件了

hadoop jar  x.jar  ×××.MainClassName inputPath outputPath

x.jar为包的名称,包括路径,直接写包名称,则为默认路径

×××.MainClassName为运行的类名称

inputPath为输入路径 :hdfs://你自己的IP地址:9000/文件夹名称/sample.txt

outputPath为输出路径:hdfs://文件夹的路径(是一个不存在的文件夹的路径,随便写一个就好)

例如:

六:进行查看你的文件夹是否都创建成

hdfs dfs –ls /

查看你的输入路径的input文件夹下的simple.txt文件的内容

Hadoop fs –cat /input/simple.txt

查看你的输出文件下的

 

1.红色箭头是刚刚查看你输入路径下的input文件下的simple.txt的内容

2.红色箭头是最后出来的结果

发表评论