Hadoop运行单词统计

1.创建input文件夹

hadoop fs -mkdir input

2.上传文件到hadoop

hadoop fs -put /root/data/output.txt input

3.运行wordcount（运行前删除旧的output文件夹，可以使用eclipse删除）

hadoop jar ./hadoop-examples-1.2..jar wordcount input output

4.下载文件到本地

hadoop fs -get output /root/data/

运行结果：

[root@VM_238_215_centos hadoop-1.2.]# hadoop jar ./hadoop-examples-1.2..jar wordcount input output

Warning: $HADOOP_HOME is deprecated.

// :: INFO input.FileInputFormat: Total input paths to process :

// :: INFO util.NativeCodeLoader: Loaded the native-hadoop library

// :: WARN snappy.LoadSnappy: Snappy native library not loaded

// :: INFO mapred.JobClient: Running job: job_201705080035_0003

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient:  map % reduce %

// :: INFO mapred.JobClient: Job complete: job_201705080035_0003

// :: INFO mapred.JobClient: Counters:

// :: INFO mapred.JobClient:   Map-Reduce Framework

// :: INFO mapred.JobClient:     Spilled Records=

// :: INFO mapred.JobClient:     Map output materialized bytes=

// :: INFO mapred.JobClient:     Reduce input records=

// :: INFO mapred.JobClient:     Virtual memory (bytes) snapshot=

// :: INFO mapred.JobClient:     Map input records=

// :: INFO mapred.JobClient:     SPLIT_RAW_BYTES=

// :: INFO mapred.JobClient:     Map output bytes=

// :: INFO mapred.JobClient:     Reduce shuffle bytes=

// :: INFO mapred.JobClient:     Physical memory (bytes) snapshot=

// :: INFO mapred.JobClient:     Reduce input groups=

// :: INFO mapred.JobClient:     Combine output records=

// :: INFO mapred.JobClient:     Reduce output records=

// :: INFO mapred.JobClient:     Map output records=

// :: INFO mapred.JobClient:     Combine input records=

// :: INFO mapred.JobClient:     CPU time spent (ms)=

// :: INFO mapred.JobClient:     Total committed heap usage (bytes)=

// :: INFO mapred.JobClient:   File Input Format Counters

// :: INFO mapred.JobClient:     Bytes Read=

// :: INFO mapred.JobClient:   FileSystemCounters

// :: INFO mapred.JobClient:     HDFS_BYTES_READ=

// :: INFO mapred.JobClient:     FILE_BYTES_WRITTEN=

// :: INFO mapred.JobClient:     FILE_BYTES_READ=

// :: INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=

// :: INFO mapred.JobClient:   Job Counters

// :: INFO mapred.JobClient:     Launched map tasks=

// :: INFO mapred.JobClient:     Launched reduce tasks=

// :: INFO mapred.JobClient:     SLOTS_MILLIS_REDUCES=

// :: INFO mapred.JobClient:     Total time spent by all reduces waiting after reserving slots (ms)=

// :: INFO mapred.JobClient:     SLOTS_MILLIS_MAPS=

// :: INFO mapred.JobClient:     Total time spent by all maps waiting after reserving slots (ms)=

// :: INFO mapred.JobClient:     Data-local map tasks=

// :: INFO mapred.JobClient:   File Output Format Counters

// :: INFO mapred.JobClient:     Bytes Written=

Hadoop运行单词统计的更多相关文章

MapReduce 单词统计案例编程
MapReduce 单词统计案例编程一.在Linux环境安装Eclipse软件 1. 解压tar包下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.ta ...
Mac下hadoop运行word count的坑
Mac下hadoop运行word count的坑 Word count体现了Map Reduce的经典思想,是分布式计算中中的hello world.然而博主很幸运地遇到了Mac下特有的问题Mkdir ...
Hadoop之词频统计小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实 ...
大数据学习——mapreduce程序单词统计
项目结构 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&q ...
第一个Hadoop程序-单词计数
上一篇配置了Hadoop,本文将测试一个Hadoop的小案例 hadoop的Wordcount程序是hadoop自带的一个小的案例,是一个简单的单词统计程序,可以在hadoop的解压包里找到,如下: ...
Spark入门（三）--Spark经典的单词统计
spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
scala基本语法和单词统计
scala 基本语法 1.声明变量 (1)val i = 1 使用val声明的变量值是不可变的,相当于java里final修饰的变量,推荐使用. (2)var i = "hello" ...
Storm基础概念与单词统计示例
Storm基本概念 Storm是一个分布式的.可靠地.容错的数据流处理系统.Storm分布式计算结构称为Topology(拓扑)结构,顾名思义,与拓扑图十分类似.该拓扑图主要由数据流Stream.数据 ...

随机推荐

WinRAR破解
新建记事本文件(txt文件),然后将文件另存为以 rarreg.key 为文件名的文件(当然由于设置的不同,可能出现你保存后的文件为 rarreg.key.txt 没关系,将其重命名,删掉.txt 会 ...
浅谈Mysql 表设计规范(转)
本文首先探讨下数据库设计的三大范式,因为范式只是给出了数据库设计的原则,并没有告诉我们实际操作中应该怎样操作,应该注意什么,所以我们还会谈下实际工作中需要注意的具体操作问题. 三大范式首先放出三大范 ...
Linux中用户及用户组
Linux用户只有两个等级:root及非root.Linux中还有一部分用户,如:apache.mysql.nobody.ftp等,这些也都是非root用户,即普通用户.Linux的权限实际是上不同用 ...
批量修改Mysql数据库表Innodb为MyISAN
mysql -uroot -e "SELECT concat('ALTER TABLE ', TABLE_NAME,' ENGINE=MYISAM;') FROM Information_s ...
持续集成（1）gitlab的安装
操作系统:centos 6.5 关闭selinux # 修改/etc/selinux/config 文件将SELINUX=enforcing改为SELINUX=disabled ,然后重启电脑 # ...
Android 开发工具介绍-SDK工具和平台工具
原文链接:http://android.eoe.cn/topic/android_sdk Android的SDK提供各种工具可以帮你为Android平台开发移动应用程序.这些工具被分类成两组:SDK工 ...
腾讯云服务器安装fastdfs文件服务器
上篇安装完nginx后,那么这次咱们就来安装fastdfs文件服务器,为何要使用文件服务器,这里不多说了,以前的文章有写过首先用ftp工具把fastdfs的相关文件上传至腾讯云,如下首先,安装基本 ...
VS2010如何重置开发环境
在利用VS进行软件开发的过程中,我们时不时要因为各种原因,对VS的开发环境进行变动,对于很多初次接触VS这样一个十分好用方便的编程工具的人来说,更改编程环境成了一个难题,今天我们就来讲解一下,如何更改 ...
python中包含UTF-8编码中文的列表或字典的输出
在python 下面一个包含中文字符串的列表(list)或字典,直接使用print会出现以下的结果: >>> dict = {"asdf": "我们的p ...
haproxy 配置https 同时技持443 80端口
确定haproxy支持https [root@c01 sbin]# ldd haproxy |grep ssl libssl.so.10 => /usr/lib64/libssl.so.10 ( ...

Hadoop运行单词统计

Hadoop运行单词统计的更多相关文章

随机推荐

热门专题