[Linux][Hadoop] 运行WordCount例子

紧接上篇，完成Hadoop的安装并跑起来之后，是该运行相关例子的时候了，而最简单最直接的例子就是HelloWorld式的WordCount例子。

参照博客进行运行：http://xiejianglei163.blog.163.com/blog/static/1247276201443152533684/

首先创建一个文件夹，并创建两个文件，目录随意，为以下文件结构：

examples

--file1.txt

--file2.txt

文件内容随意填写，我是从新闻copy下来的一段英文：

执行以下命令：

hadoop@ubuntu:/usr/local/gz/hadoop-2.4.1$ ./bin/hadoop fs -mkdir /data    #在hadoop中创建/data文件夹，该文件夹用来存放输入数据，这个文件不是Linux的根目录下的文件，而是hadoop下的文件夹

hadoop@ubuntu:/usr/local/gz/hadoop-2.4.1$ ./bin/hadoop fs -put -f ./data_input/* /data #将前面生成的两个 文件拷贝至/data下

执行WordCount命令，并查看结果：

hadoop@ubuntu:/usr/local/gz/hadoop-2.4.1$ ./bin/hadoop jar ./share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.4.1-sources.jar org.apache.hadoop.examples.WordCount /data /output

14/07/22 22:34:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

14/07/22 22:34:27 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032

14/07/22 22:34:29 INFO input.FileInputFormat: Total input paths to process : 2

14/07/22 22:34:29 INFO mapreduce.JobSubmitter: number of splits:2

14/07/22 22:34:30 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1406038146260_0001

14/07/22 22:34:32 INFO impl.YarnClientImpl: Submitted application application_1406038146260_0001

14/07/22 22:34:32 INFO mapreduce.Job: The url to track the job: http://ubuntu:8088/proxy/application_1406038146260_0001/

14/07/22 22:34:32 INFO mapreduce.Job: Running job: job_1406038146260_0001

14/07/22 22:34:58 INFO mapreduce.Job: Job job_1406038146260_0001 running in uber mode : false

14/07/22 22:34:58 INFO mapreduce.Job:  map 0% reduce 0%

14/07/22 22:35:34 INFO mapreduce.Job:  map 100% reduce 0%

14/07/22 22:35:52 INFO mapreduce.Job:  map 100% reduce 100%

14/07/22 22:35:52 INFO mapreduce.Job: Job job_1406038146260_0001 completed successfully

14/07/22 22:35:53 INFO mapreduce.Job: Counters: 49

        File System Counters

                FILE: Number of bytes read=2521

                FILE: Number of bytes written=283699

                FILE: Number of read operations=0

                FILE: Number of large read operations=0

                FILE: Number of write operations=0

                HDFS: Number of bytes read=2280

                HDFS: Number of bytes written=1710

                HDFS: Number of read operations=9

                HDFS: Number of large read operations=0

                HDFS: Number of write operations=2

        Job Counters

                Launched map tasks=2

                Launched reduce tasks=1

                Data-local map tasks=2

                Total time spent by all maps in occupied slots (ms)=71182

                Total time spent by all reduces in occupied slots (ms)=13937

                Total time spent by all map tasks (ms)=71182

                Total time spent by all reduce tasks (ms)=13937

                Total vcore-seconds taken by all map tasks=71182

                Total vcore-seconds taken by all reduce tasks=13937

                Total megabyte-seconds taken by all map tasks=72890368

                Total megabyte-seconds taken by all reduce tasks=14271488

        Map-Reduce Framework

                Map input records=29

                Map output records=274

                Map output bytes=2814

                Map output materialized bytes=2527

                Input split bytes=202

                Combine input records=274

                Combine output records=195

                Reduce input groups=190

                Reduce shuffle bytes=2527

                Reduce input records=195

                Reduce output records=190

                Spilled Records=390

                Shuffled Maps =2

                Failed Shuffles=0

                Merged Map outputs=2

                GC time elapsed (ms)=847

                CPU time spent (ms)=6410

                Physical memory (bytes) snapshot=426119168

                Virtual memory (bytes) snapshot=1953292288

                Total committed heap usage (bytes)=256843776

        Shuffle Errors

                BAD_ID=0

                CONNECTION=0

                IO_ERROR=0

                WRONG_LENGTH=0

                WRONG_MAP=0

                WRONG_REDUCE=0

        File Input Format Counters

                Bytes Read=2078

        File Output Format Counters

                Bytes Written=1710

hadoop@ubuntu:/usr/local/gz/hadoop-2.4.1$

上面的日志显示出了wordCount的详细情况，然后执行查看结果命令查看统计结果：

hadoop@ubuntu:/usr/local/gz/hadoop-2.4.1$ ./bin/hadoop fs -cat /output/part-r-00000

14/07/22 22:38:05 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

"as     1

"atrocious,"    1

-       1

10-day  1

13      1

18      1

20,     1

2006.   1

3,000   1

432     1

65      1

7.4.52  1

:help   2

:help<Enter>    1

:q<Enter>       1

<F1>    1

Already,        1

Ban     1

Benjamin        1

后面省略了很多统计数据，wordCount统计结果完成。

[Linux][Hadoop] 运行WordCount例子的更多相关文章

RedHat 安装Hadoop并运行wordcount例子
1.安装 Red Hat 环境 2.安装JDK 3.下载hadoop2.8.0 http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/had ...
（四）伪分布式下jdk1.6+Hadoop1.2.1+HBase0.94+Eclipse下运行wordCount例子
本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子. HBase在伪分布环境下安装一. 前提条件已经成功地安装 ...
hadoop运行wordcount实例，hdfs简单操作
1.查看hadoop版本 [hadoop@ltt1 sbin]$ hadoop version Hadoop -cdh5.12.0 Subversion http://github.com/cloud ...
hadoop执行wordcount例子
1:下载hadoop.http://mirror.esocc.com/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 2:解压. tar - ...
hadoop的wordcount例子运行
可以通过一个简单的例子来说明MapReduce到底是什么: 我们要统计一个大文件中的各个单词出现的次数.由于文件太大.我们把这个文件切分成如果小文件,然后安排多个人去统计.这个过程就是”Map”.然后 ...
配置RHadoop与运行WordCount例子
1.安装R语言环境 su -c 'rpm -Uvh http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch. ...
[hadoop] hadoop 运行 wordcount
讲准备好的文本文件放到hdfs中执行 hadoop 安装包中的例子 [root@hadoop01 mapreduce]# hadoop jar hadoop-mapreduce-examples-2 ...
CDH quick start VM 中运行wordcount例子
需要注意的事情: 1. 对于wordcount1.0 ,按照http://www.cloudera.com/content/cloudera/en/documentation/HadoopTutori ...
Hadoop3 在eclipse中访问hadoop并运行WordCount实例
前言: 毕业两年了,之前的工作一直没有接触过大数据的东西,对hadoop等比较陌生,所以最近开始学习了.对于我这样第一次学的人,过程还是充满了很多疑惑和不解的,不过我采取的策略是还是先让环 ...

随机推荐

CentOS 6.4 搭建git 服务器
CentOS 6.4 搭建git 服务器 (2013-11-22 19:04:09)转载▼ 标签: it 分类: Linux 此文件是依据markdown所编写,更好效果参见本人github的文档ht ...
烂泥：php5.6源码安装及php-fpm配置
LNMP环境的搭建中,现在只有php没有源码安装过.这篇文章就把这个介绍下. 注意本篇文章使用的centos 6.5 64bit. 登陆centos下载php5.6的安装包.php的软件包可以去国内的 ...
espcms自定义表单邮件字段
/include/inc_replace_mailtemplates.php中增加一行就可以了. 如:$replacemail['mailform'][] = array(name => '职位 ...
【leetcode】Maximal Rectangle
Maximal Rectangle Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle conta ...
C#之设置无边框后如何移动窗体（转）
转载:http://www.cnblogs.com/techmango/archive/2012/03/31/2427523.html 第一种,利用windows的消息机制来实现: 首先﹐.定义鼠標左 ...
svn迁移到git仓库并保留commit历史记录
svn迁移到git仓库并保留commit历史记录最近在做svn迁移到gitlab,由于之前一直是由svn做版本控制.最简单的方式是将svn的内容export出来,然后添加到gitlab即可.但是,如 ...
volley post非json格式数据并获取json数据
在使用JsonObjectRequest时无法post非json格式的数据,因而采用StringRequest获取到相应的数据后再转为json格式的数据. //这里的上下文需要讨论 private s ...
ios 引入第三方库运行时找不到函数实现
今天引入webtrends 这个库,结果一直运行时找不到函数,纳闷了一下午! 后来发现,是other flag没有设置对,对于那些包含category用来扩展ios原始类型的库,链接的时候需要特别的链 ...
Storm集成Kafka应用的开发
我们知道storm的作用主要是进行流式计算,对于源源不断的均匀数据流流入处理是非常有效的,而现实生活中大部分场景并不是均匀的数据流,而是时而多时而少的数据流入,这种情况下显然用批量处理是不合适的,如果 ...
json格式
$.post('text.action',{....},function(datas){ var name=datas.data[0].name; }); 如果是多个还可以用循环获取.$.post(' ...

[Linux][Hadoop] 运行WordCount例子

[Linux][Hadoop] 运行WordCount例子的更多相关文章

随机推荐

热门专题