Hadoop - hadoop自带MR案例：词频 WordCount

词频 Word Count

1、在浏览器上访问 https://node01:9870

bin/hdfs dfs -mkdir /user

如果未配置环境变量，需要到hadoop安装目录下执行 /opt/module/hadoop-2.5.2（这个是我的安装目录）

3、将文件上传到HDFS上的 /user/input下

bin/hdfs dfs -mkdir -p /user/input

bin/hdfs dfs -put etc/hadoop/*.xml /user/input

上传的文件所在位置：/opt/module/hadoop-2.5.2/etc/hadoop/

4、运行提供的词频案例

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep /user/input output 'dfs[a-z.]+'

可以看到MapReduce过程

5、从HDFS把MR的输出文件get到本地查看或者直接在HDFS查看

# 将输出文件从HDFS文件系统 get到本地查看内容

bin/hdfs dfs -get /user/output output

cat output/*

# 直接执行hdfs客户端命令查看输出文件内容

bin/hdfs dfs -cat /user/output/*

Hadoop - hadoop自带MR案例：词频 WordCount的更多相关文章

MR案例：WordCount改写
请参照wordcount实现一个自己的MapReduce,需求为: a. 输入文件格式: xxx,xxx,xxx,xxx,xxx,xxx,xxx b. 输出文件格式: ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
hive遇到FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误
hive遇到FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误起因 ...
解决hiveserver2报错：java.io.IOException: Job status not available - Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
用户使用的sql: select count( distinct patient_id ) from argus.table_aa000612_641cd8ce_ceff_4ea0_9b27_0a3a ...
hadoop学习第三天-MapReduce介绍&&WordCount示例&&倒排索引示例
一.MapReduce介绍 (最好以下面的两个示例来理解原理) 1. MapReduce的基本思想 Map-reduce的思想就是“分而治之” Map Mapper负责“分”,即把复杂的任务分解为若干 ...
java.sql.SQLException: Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
执行Hive查询: Console是这样报错的 java.sql.SQLException: Error from org.apache.hadoop.hive.ql.exec.mr.MapRedTa ...
Hadoop MapReduce编程 API入门系列之wordcount版本1（五）
这个很简单哈,编程的版本很多种. 代码版本1 package zhouls.bigdata.myMapReduce.wordcount5; import java.io.IOException; im ...
Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
hive运行查询语句时报错: Error: org.apache.hive.service.cli.HiveSQLException: Error while processing statement ...
执行Hive sql 报FAILED:Execution Error，return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
在hive Beeline命令行使用insert into ... select ...向hive表插入数据时,报FAILED:Execution Error,return code 2 from o ...
MR案例：倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...

随机推荐

MeteoInfo-Java解析与绘图教程(九)_JAVA解析天气雷达基数据
MeteoInfo在这两年中也更新了很多,其中对新一代标准格式多普勒天气雷达基数据的解析以及绘制是对Java开发者最好的拓展,其中Java可以做到基本要素绘图,例如基本反射率,基本速度等,还有二次产品 ...
GraphQL Part III: 依赖注入
在 SOLID 设计原则中,D 表示依赖反转原则高层组件不应该依赖于底层组件,双方应该基于抽象抽象不应该依赖于实现,实现应该依赖于抽象使用 new 操作符来创建对象实例会导致不同组件之间的紧耦合 ...
【软件工程与UML】第1章笔记和练习题
基本概念软件 = 程序 + 数据 + 文档软件的特点抽象性:软件是一种逻辑实体可复制性:软件是通过人们智力活动,把知识和技术转化为信息的一种产品. 不会磨损: 依赖性:软件的开发和运行经常收到 ...
rocketMq4.2.0启动broker报错找不到或无法加载主类 Files\Java\jdk1.8.0_101\lib\dt.jar;C:\Program]
假如弹出提示框提示'错误: 找不到或无法加载主类 xxxxxx'.打开runbroker.cmd,然后将'%CLASSPATH%'加上英文双引号.保存并重新执行start语句.做如下图处理但是输出还 ...
IDEA自动导包（全局设置）
选择[File]-->[other settings]-->[settings for new projects](全局设置),然后搜索[Auto Import],勾选以下两个选项即可: ...
maven maven-surefire-plugin的乱码问题
今天项目中出现奇怪问题,在eclipse中直接运行TestNG时,全部都OK,但是执行mvn test时却失败.观察其输出日志,发现有乱码,怀疑是乱码导致. 最终在官网发现蛛丝马迹. maven-su ...
开源数字人直播DH_live web整合包免训练使用教程
资源导航首页项目地址基于开源项目:DH_live做的web交互系统主要实现:免训练数字人视频制作和实时语音数字人可搭配一些直播场控软件的语音驱动数字人进行直播整合包下载「数字人( ...
DDD你真的理解清楚了吗？怎么准确理解“值对象”
这些年,随着软件业的不断发展,软件系统开始变得越来越复杂而难于维护.这时,越来越多的开发团队开始选择实践DDD领域驱动设计.领域驱动设计是一种非常优秀的软件设计思想,它可以非常好地帮助我们梳理复杂业务 ...
Qt音视频开发49-通用截图截屏
一.前言采用了回调方式的视频通道,截图只需要对解析好的QImage对象直接保存即可,而对于句柄的形式,需要调用不同的处理策略,比如vlc需要用它自己提供的api接口函数libvlc_video_ta ...
即时通讯技术文集（第45期）：微信、QQ技术精华合集(Part2) [共14篇]
为了更好地分类阅读 52im.net 总计1000多篇精编文章,我将在每周三推送新的一期技术文集,本次是第45 期. [-1-] QQ音乐团队分享:Android中的图片压缩技术详解(上篇) [链接 ...

Hadoop - hadoop自带MR案例：词频 WordCount

词频 Word Count

Hadoop - hadoop自带MR案例：词频 WordCount的更多相关文章

随机推荐

热门专题