Hadoop运行单词统计

1.创建input文件夹

hadoop fs -mkdir input

2.上传文件到hadoop

hadoop fs -put /root/data/output.txt input

3.运行wordcount（运行前删除旧的output文件夹，可以使用eclipse删除）

hadoop jar ./hadoop-examples-1.2..jar wordcount input output

4.下载文件到本地

hadoop fs -get output /root/data/

运行结果：

[root@VM_238_215_centos hadoop-1.2.]# hadoop jar ./hadoop-examples-1.2..jar wordcount input output

Warning: $HADOOP_HOME is deprecated.

// :: INFO input.FileInputFormat: Total input paths to process :

// :: INFO util.NativeCodeLoader: Loaded the native-hadoop library

// :: WARN snappy.LoadSnappy: Snappy native library not loaded

// :: INFO mapred.JobClient: Running job: job_201705080035_0003

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient: Job complete: job_201705080035_0003

// :: INFO mapred.JobClient: Counters:

// :: INFO mapred.JobClient:   Map-Reduce Framework

// :: INFO mapred.JobClient:     Spilled Records=

// :: INFO mapred.JobClient:     Map output materialized bytes=

// :: INFO mapred.JobClient:     Reduce input records=

// :: INFO mapred.JobClient:     Virtual memory (bytes) snapshot=

// :: INFO mapred.JobClient:     Map input records=

// :: INFO mapred.JobClient:     SPLIT_RAW_BYTES=

// :: INFO mapred.JobClient:     Map output bytes=

// :: INFO mapred.JobClient:     Reduce shuffle bytes=

// :: INFO mapred.JobClient:     Physical memory (bytes) snapshot=

// :: INFO mapred.JobClient:     Reduce input groups=

// :: INFO mapred.JobClient:     Combine output records=

// :: INFO mapred.JobClient:     Reduce output records=

// :: INFO mapred.JobClient:     Map output records=

// :: INFO mapred.JobClient:     Combine input records=

// :: INFO mapred.JobClient:     CPU time spent (ms)=

// :: INFO mapred.JobClient:     Total committed heap usage (bytes)=

// :: INFO mapred.JobClient:   File Input Format Counters

// :: INFO mapred.JobClient:     Bytes Read=

// :: INFO mapred.JobClient:   FileSystemCounters

// :: INFO mapred.JobClient:     HDFS_BYTES_READ=

// :: INFO mapred.JobClient:     FILE_BYTES_WRITTEN=

// :: INFO mapred.JobClient:     FILE_BYTES_READ=

// :: INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=

// :: INFO mapred.JobClient:   Job Counters

// :: INFO mapred.JobClient:     Launched map tasks=

// :: INFO mapred.JobClient:     Launched reduce tasks=

// :: INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=

// :: INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=

// :: INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=

// :: INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=

// :: INFO mapred.JobClient:     Data-local map tasks=

// :: INFO mapred.JobClient:   File Output Format Counters

// :: INFO mapred.JobClient:     Bytes Written=

Hadoop运行单词统计的更多相关文章

MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
Mac下hadoop运行word count的坑
Mac下hadoop运行word count的坑 Word count体现了Map Reduce的经典思想,是分布式计算中中的hello world.然而博主很幸运地遇到了Mac下特有的问题Mkdir ...
Hadoop之词频统计小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实 ...
大数据学习——mapreduce程序单词统计
项目结构 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&q ...
第一个Hadoop程序-单词计数
上一篇配置了Hadoop,本文将测试一个Hadoop的小案例 hadoop的Wordcount程序是hadoop自带的一个小的案例,是一个简单的单词统计程序,可以在hadoop的解压包里找到,如下: ...
Spark入门（三）--Spark经典的单词统计
spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
scala基本语法和单词统计
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...
Storm基础概念与单词统计示例
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...

随机推荐

类名.class和getClass()区别
class叫做“类字面量”,因class是关键字, 所以class编译时确定,getclass()运行时根据实际实例确定.String.class 是能对类名的引用取得在内存中该类型class对象的引 ...
python selenium 使用unittest 示例
python selenium 使用unittest 示例并等待某个元素示例 from selenium.webdriver.support.ui import WebDriverWait from ...
请教Mysql如何删除不包含某些字符的记录
删除包含指定字符的记录 delete from `表` where `字段` like '%指定字符1%' or like '%指定字符2%' or like '%指定字符3%' 删除不包含指定字符的 ...
关于的 recorder robotium 的Eclipse插件（URL:http://recorder.robotium.com/updates/或者说不可用）
最近在学robotium.看到别人说robotium的Eclipse的插件非常好用. 打算安装时.发现死活都无法连接http://recorder.robotium.com/updates/ 过程是 ...
win2016安装postgresql安装不了的问题
我在阿里云的win2016服务器上下载postgresql,结果怎么都装不上. 双击 Exe没有任何反映 .. ... 网上搜索不出..在N个群里问 ,终于碰到有人和我一样的问题了..原来是阿里云 ...
Atitit 个人信息数据文档知识分类
Atitit 个人信息数据文档知识分类 1.1. 知识分类法,参照图书分类法 1 2. Attilax知识分类 2 2.1. 公共文档(一般技术资料,通过标题可以网上搜索到的) 2 2.2. sum ...
IOS 设备备份文件详解 (二)
这篇主要讲解如何解析Manifest.mbdb文件. 使用二进制工具打开这个文件,文件的头6个字节是固定的,相当于是文件的一种标识后面的内容是一个一个的项,可以使用一个循环来读取文件,一个一个解析. ...
android 自己定义视频播放器之2/1
非常久没更新博客,相信大家年后都比較忙. 今天给大家带来了一款视频播放器,首先确认的得有几点. 1.首先得有个播放视频的view. 2.加点额外功能进去左边上下滑动调节亮度,右边上下滑动调节声量: 3 ...
tengine 的优化
查服务器CPU的核数 : [root@c01 conf]# grep processor /proc/cpuinfo |wc -l 4 [root@c01 conf]# grep -c process ...
adaptive query processing
http://www.cs.umd.edu/~amol/talks/VLDB07-AQP-Tutorial.pdf https://www.cis.upenn.edu/~zives/research/ ...

Hadoop运行单词统计

Hadoop运行单词统计的更多相关文章

随机推荐

热门专题