利用hadoop自带程序运行wordcount

1.启动hadoop守护进程

bin/start-all.sh

2.在hadoop的bin目录下建立一个input文件夹

JIAS-MacBook-Pro:hadoop-0.20. jia$ mkdir input

3.进入input目录之后，在input目录下新建两个文本文件，并想其写入内容

JIAS-MacBook-Pro:hadoop-0.20. jia$ cd input

JIAS-MacBook-Pro:input jia$ echo "hello excuse me fine thank you">text1.txt

JIAS-MacBook-Pro:input jia$ echo "hello how do you do thank you">text2.txt

4.进入hadoop的bin目录，输入jps命令，确认hadoop已经跑起来了

JIAS-MacBook-Pro:hadoop-0.20. jia$ cd bin

JIAS-MacBook-Pro:bin jia$ jps

 SecondaryNameNode

 NameNode

 JobTracker

 TaskTracker

 DataNode

 Jps

5.把input文件上传到hdfs上

JIAS-MacBook-Pro:hadoop-0.20.2 jia$ bin/hadoop dfs -put input in

6.查看hdfs上的项目

JIAS-MacBook-Pro:hadoop-0.20. jia$ bin/hadoop dfs -ls ./in/*

-rw-r--r--   1 jia supergroup         31 2014-07-17 20:39 /user/jia/in/text1.txt

-rw-r--r--   1 jia supergroup         30 2014-07-17 20:39 /user/jia/in/text2.txt

7.利用自带的wordcount执行，并把结果放在output文件夹上

JIAS-MacBook-Pro:hadoop-0.20. jia$ bin/hadoop jar hadoop-0.20.-examples.jar wordcount in output

// :: INFO input.FileInputFormat: Total input paths to process :

// :: INFO mapred.JobClient: Running job: job_201407172036_0001

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient: Job complete: job_201407172036_0001

// :: INFO mapred.JobClient: Counters:

// :: INFO mapred.JobClient:   Map-Reduce Framework

// :: INFO mapred.JobClient:     Combine output records=

// :: INFO mapred.JobClient:     Spilled Records=

// :: INFO mapred.JobClient:     Reduce input records=

// :: INFO mapred.JobClient:     Reduce output records=

// :: INFO mapred.JobClient:     Map input records=

// :: INFO mapred.JobClient:     Map output records=

// :: INFO mapred.JobClient:     Map output bytes=

// :: INFO mapred.JobClient:     Reduce shuffle bytes=

// :: INFO mapred.JobClient:     Combine input records=

// :: INFO mapred.JobClient:     Reduce input groups=

// :: INFO mapred.JobClient:   FileSystemCounters

// :: INFO mapred.JobClient:     HDFS_BYTES_READ=

// :: INFO mapred.JobClient:     FILE_BYTES_WRITTEN=

// :: INFO mapred.JobClient:     FILE_BYTES_READ=

// :: INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=

// :: INFO mapred.JobClient:   Job Counters

// :: INFO mapred.JobClient:     Launched map tasks=

// :: INFO mapred.JobClient:     Launched reduce tasks=

// :: INFO mapred.JobClient:     Data-local map tasks=

JIAS-MacBook-Pro:hadoop-0.20. jia$

8.查看结果

JIAS-MacBook-Pro:hadoop-0.20. jia$ bin/hadoop dfs -ls

Found  items

drwxr-xr-x   - jia supergroup           -- : /user/jia/in

drwxr-xr-x   - jia supergroup           -- : /user/jia/output

JIAS-MacBook-Pro:hadoop-0.20. jia$ bin/hadoop dfs -ls ./output

Found  items

drwxr-xr-x   - jia supergroup           -- : /user/jia/output/_logs

-rw-r--r--    jia supergroup          -- : /user/jia/output/part-r-

JIAS-MacBook-Pro:hadoop-0.20. jia$ bin/hadoop dfs -cat ./output/*

do    2

excuse    1

fine    1

hello    2

how    1

me    1

thank    2

you    3

cat: Source must be a file.

利用hadoop自带程序运行wordcount的更多相关文章

利用Hadoop自带example实现wordCount
上次虽然把环境搭好了,但是实际运行起来一堆错误,下面简述一下踩的坑. 1.hadoop fs -put上传文件失败,WARN org.apache.hadoop.hdfs.server.datanod ...
利用jdk自带的运行监控工具JConsole观察分析Java程序的运行
利用jdk自带的运行监控工具JConsole观察分析Java程序的运行原文链接一.JConsole是什么从Java 5开始引入了 JConsole.JConsole 是一个内置 Java 性能 ...
IDEA配置Hadoop开发环境&编译运行WordCount程序
有关hadoop及java安装配置请见:https://www.cnblogs.com/lxc1910/p/11734477.html 1.新建Java project: 选择合适的jdk,如图所示: ...
hadoop学习笔记：运行wordcount对文件字符串进行统计案例
文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境,简单模拟了线上上的hadoop真实分布式集群,主要用于业余学习大数据相关体系. 其中,一台服务器作为NameNode,一台 ...
centos6利用cgroup冻结一个程序运行
操作步骤: 安装cgroup服务 yum install libcgroup 配置cgroup vim /etc/cgconfig.conf group stopit{ #添加一个cgroup组 fr ...
Hadoop入门实践之从WordCount程序说起
这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了<Hadoop实战>这本书,对Hadoop编程有了大致的了解.接下来就是多看多写了.以Hado ...
spark运行wordcount程序
首先提一下spark rdd的五大核心特性: 1.rdd由一系列的分片组成,比如说128m一片,类似于hadoop中的split2.每一个分区都有一个函数去迭代/运行/计算3.一系列的依赖,比如:rd ...
Hadoop 2.6.3运行自带WordCount程序笔记
运行平台:Hadoop 2.6.3 模式:完全分布模式 1.准备统计文本,以一段文字为例:eg.txt The Project Gutenberg EBook of War and Peace, by ...
Hadoop_05_运行 Hadoop 自带 MapReduce程序
1. MapReduce使用 MapReduce是Hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序 2. 运行Hadoop自 ...

随机推荐

uml的关联多重度
UML中关联的多重度是指一个类的实例能够与另一个类的多少个实例相关联,这个“多少”被称为关联角色的多重度指定关联一端的多重度.也可以这样理解:在关联另一端的类的每个对象要求在本端的类必须有多少个对象 ...
济南学习 Day2 T2 am
[问题描述]有N个数,随机选择一段区间,如果这段区间的所有数的平均值在[l,r]中则你比较厉害.求你比较厉害的概率.[输入格式]第一行有三个数N,l,r,含义如上描述.接下来一行有
洛谷 P1195 口袋的天空
题目背景小杉坐在教室里,透过口袋一样的窗户看口袋一样的天空. 有很多云飘在那里,看起来很漂亮,小杉想摘下那样美的几朵云,做成棉花糖. 题目描述给你云朵的个数N,再给你M个关系,表示哪些云朵可以连在 ...
【风马一族_xml】xml的两种解析思想
xml的解析思想 dom解析将整个xml使用类似树的结构保存在内存中,再进行对其操作是woc组织推荐的处理xml的一种方式需要等到xml完全加载进内存才可以进行操作耗费内存.当解析超大的xml ...
《linux下sudo服务的使用》RHEL6
/bin/ 下放的二进制文件命令都是普通用户可以使用的 Sbin 下放的二进制文件命令都是超级用户root可以使用的普通用户也想使用Sbin下的文件可以通过sudo来实现: 默认普通用户是不可以 ...
一步一步学ZedBoard & Zynq(四)：基于AXI Lite 总线的从设备IP设计
本帖最后由 xinxincaijq 于 2013-1-9 10:27 编辑一步一步学ZedBoard & Zynq(四):基于AXI Lite 总线的从设备IP设计转自博客:http:// ...
CentOS学习笔记--基本命令--目录的相关操作
Linux基本命令--目录的相关操作常见的处理目录的命令吧: cd:变换目录 pwd:显示目前的目录 mkdir:创建一个新的目录 rmdir:删除一个空的目录 cd (变换目录) cd是Chang ...
align=absMiddle属性设置
AbsBottom 图像的下边缘与同一行中最大元素的下边缘对齐.AbsMiddle 图像的中间与同一行中最大元素的中间对齐.Baseline 图像的下边缘与第一行文本的下边缘对齐.Bottom 图像的 ...
社区发现算法问题&&NetworkX&&Gephi
在做东西的时候用到了社区发现,因此了解了一下有关社区发现的一些问题 1,社区发现算法 (1)SCAN:一种基于密度的社团发现算法 Paper: <SCAN: A Structural Clust ...
grappelli美化django的admin页面
开始用admin时候,觉得它的页面实在...宁愿自己写modules,多费点时间 grappelli可以把admin变得非常美观,配置起来也很简单第一步,先下载grappelli,搜索一下,wind ...

利用hadoop自带程序运行wordcount

利用hadoop自带程序运行wordcount的更多相关文章

随机推荐

热门专题