Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量
1.完成Hadoop2.2.0单机版环境搭建之后需要利用一个例子程序来检验hadoop2 的mapreduce的功能
//启动hdfs和yarn
sbin/start-dfs.sh
sbin/start-yarn.sh
2.首先现在一个文件夹里面建立两个文件file01.txt file02.txt里面加入如下内容,具体方法会linux的都会,我就默认你具有了。
file01.txt
kongxianghe
kong
yctc
Hello World
file02.txt
11
2222
kong
Hello
yctc
3. 将这两个文件放入hadoop的HDFS中,HDFS(Hadoop Distributed File System)就是hadoop的文件系统。
//cd到hadoop/bin目录下
hadoop fs -ls //查看hdfs目录情况
在HDFS中创建文件夹input
hadoop fs -mkdir -p input // -p这个参数是必须加入的hadoop2和之前的版本是不一样的
hadoop fs -put file*.txt input // 将刚才的两个文件放入到hadoop的文件系统之中
查看这些文件是否已经进入到了hadoop的文件系统之中
hadoop fs -cat input/file01.txt //查看命令
删除文件命令
hadoop fs -rm -r xxx
4.利用如命令进行计算,注意input文件夹是刚才手动在HDFS中建立的,output文件夹不需要自己建立。
hadoop jar /kong/hadoop/lib/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
需要等待几分钟的时间,在进行map和reduce的情况下会占用大量的内存,可能超过4GB这时候什么都不要动只需要等待
在浏览器中输入:localhost:8088 然后在左边栏中找到Cluster-->Applications-->FINISHED 刚才的任务就在里。
hadoop fs -ls output
Found 2 items
-rw-r--r-- 1 root supergroup 0 2014-01-17 10:44 output/_SUCCESS
-rw-r--r-- 1 root supergroup 58 2014-01-17 10:44 output/part-r-00000
打开part-r-00000这个文件就是执行结果
hadoop fs -cat output/part-r-0000
结果为
1111 1
2222 1
Hello 2
World 1
kong 2
kongxianghe 1
yctc 2
数据都被统计出来了,成功!
Good Luck!
Reference:http://hi.baidu.com/kongxianghe123/item/731aa74762111ae81381da9b
Hadoop2.2.0 第一步完成MapReduce wordcount计算文本数量的更多相关文章
- Hadoop2.6.0版本MapReudce示例之WordCount(二)
继<Hadoop2.6.0版本MapReudce示例之WordCount(一)>之后,我们继续看MapReduce的WordCount示例,看看如何监控作业运行或查看历史记录,以及作业运行 ...
- 国内最全最详细的hadoop2.2.0集群的MapReduce的最简单配置
简介 hadoop2的中的MapReduce不再是hadoop1中的结构已经没有了JobTracker,而是分解成ResourceManager和ApplicationMaster.这次大变革被称为M ...
- Hadoop2.6.0版本MapReudce示例之WordCount(一)
一.准备测试数据 1.在本地Linux系统/var/lib/Hadoop-hdfs/file/路径下准备两个文件file1.txt和file2.txt,文件列表及各自内容如下图所示: 2.在hdfs中 ...
- Hadoop-2.2.0中文文档——MapReduce 下一代 -——集群配置
目的 这份文档描写叙述了怎样安装.配置和管理从几个节点到有数千个节点的Hadoop集群. 玩的话,你可能想先在单机上安装.(看单节点配置). 准备 从Apache镜像上下载一个Hadoop的稳定版本号 ...
- Hadoop-2.2.0中国文档—— MapReduce 下一代 -- 公平调度
目的 此文档描写叙述了 FairScheduler, Hadoop 的一个可插入式的调度器,同意 YARN 应用在一个大集群中公平地共享资源. 简单介绍 公平调度是一种分配资源给应用的方法.以致到最后 ...
- Hadoop-2.2.0中文文档—— MapReduce下一代- 可插入的 Shuffle 和 Sort
简单介绍 可插入的 shuffle 和 sort 功能,同意在shuffle 和 sort 逻辑中用可选择的实现类替换.这个情况的样例是:用一个不是HTTP的应用协议,如RDMA来 shuffle 从 ...
- Hadoop-2.2.0中文文档—— MapReduce 下一代 - Encrypted Shuffle
简单介绍 Encrypted Shuffle capability (加密洗牌功能? )同意用HTTPS 和 可选的client验证 (也称作双向的 HTTPS, 或有client证书的 HTTPS) ...
- Hadoop-2.2.0中文文档—— MapReduce 下一代--容量调度器
目的 这份文档描写叙述 CapacityScheduler,一个为Hadoop能同意多用户安全地共享一个大集群的插件式调度器,如他们的应用能适时被分配限制的容量. 概述 CapacitySchedul ...
- 【hadoop2.6.0】一句话形容mapreduce
网上看到的: We want to count all the books in the library. You count up shelf #1, I count up shelf #2. Th ...
随机推荐
- vFloppy1.5-虚拟启动软盘
vFloppy1.5为纯绿色免费软件,安装后不需要引导盘即可进入DOS,支持图形化访问NFTS系统格式,还可添加由光盘启动菜单选项,对于没有光驱,软驱的朋友非常实用. 到BIOS设置由光盘启动,或者打 ...
- 基于s5pv210的uboot总结
1.启动过程特征总结 (1)第一阶段为汇编阶段.第二阶段为C阶段 (2)第一阶段在SRAM中.第二阶段在DRAM中 (3)第一阶段注重SoC内部.第二阶段注重SoC外部Board内部 2.uboot的 ...
- C#winform中DataGridView常用的属性
1.AllowUserToAddRows属性:指示是否向用户显示添加行的选项 AllowUserToOrderColumns属性:指示是否允许通过手动对列重新定位 AllowUserToResizeC ...
- HTML: margin詳解
margin:10px; 設置塊元素的上,右,下,左方向的值同爲10px margin:10px 30px; 設置塊元素的上和下爲10px,左和右爲30px; margin:10px 20px 30p ...
- delphi动态数组指针问题
就一个button事件 procedure TForm1.btn7Click(Sender: TObject); Type TMyArr = array of array of array of In ...
- 【php学习】array_map,array_walk,array_filter的区别
array_map(function($v){return $v+1;}, $array); array_walk($array, function($v, $k){...}); array_filt ...
- C语言第一次作业
- Linux下编译静态MinGW环境,编译windows平台Qt程序(使用MXE)
参考链接: MXE.>大多数程序都是在windows平台下开发的程序.windows 在现实中也是绕不过的一个系统平台,做为受过几年VC,MFC”虐待”的程序员,在做为一个程序员之前是一位Lin ...
- net use
net use * \\ipaddr\share "password" /user:"username" /persistent:yes 在运行中输入“\\”+ ...
- Shiro源码分析-初始化-Realm
在上一篇介绍SecurityManager的初始化过程中,也有realm的粗略介绍. realm的概念在安全领域随处可见: 各种中间件的realm.spring security的realm.shir ...