MapReduce 单词统计案例编程
MapReduce
单词统计案例编程
一、在Linux环境安装Eclipse软件
1、 解压tar包
下载安装包eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz到/opt/software目录下。
解压到/opt/tools目录下:
[hadoop@bigdata-senior01 tools]$ tar -zxf
/opt/sofeware/eclipse-jee-kepler-SR1-linux-gtk-x86_64.tar.gz -C /opt/tools/
2、 创建存放源代码的目录
[hadoop@bigdata-senior01 eclipse]$ sudo
mkdir -p /opt/mysource/workspace
修改mysource的所有者为hadoop用户
[hadoop@bigdata-senior01 opt]$ sudo chown
-R hadoop:hadoop /opt/mysource/
3、 启动Eclipse
在XWindow环境中,进入/opt/tools/eclipse目录,执行eclipse打开eclipse界面。
[hadoop@bigdata-senior01 eclipse]$
/opt/tools/eclipse/eclipse
设置Workspace目录为:/opt/mysource/workspace。

二、Hadoop Maven配置
1、 安装Apache Maven
(1) 解压Maven
[hadoop@bigdata-senior01
sofeware]$ tar -zxf apache-maven-3.0.5-bin.tar.gz -C /opt/modules/
(2) 配置/etc/profile文件
export MAVEN_HOME="/opt/modules/apache-maven-3.0.5"
export
PATH=$MAVEN_HOME/bin:$PATH
(3) 生效配置文件
[root@bigdata-senior01
sofeware]# source /etc/profile
(4) 确认Maven配置成功
[root@bigdata-senior01
sofeware]# mvn -version
Apache Maven
3.0.5 (r01de14724cdef164cd33c7c8c2fe155faf9602da; 2013-02-19 21:51:28+0800)
Maven home:
/opt/modules/apache-maven-3.0.5
Java version:
1.7.0_67, vendor: Oracle Corporation
Java home:
/opt/modules/jdk1.7.0_67/jre
Default locale:
en_US, platform encoding: UTF-8
OS name:
"linux", version: "2.6.32-504.el6.x86_64", arch:
"amd64", family: "unix"
2、 设置Eclipse中设置Maven路径
(1) Preferences对话框左侧选择Maven下的Installations,右侧点击Add,添加一个Maven位置。
(2) 选择自己的maven目录:/opt/modules/apache-maven-3.0.5

3、 查看home目录下是否有.m2目录
在Preferences左侧的Maven下的User Setting中,查看右侧是否提示.m2目录不存在,如果不存在,要手动创建。

4、 拷贝maven的settings.xml
[hadoop@bigdata-senior01 ~]$ cp
/opt/modules/apache-maven-3.0.5/conf/settings.xml ~/.m2/
三、创建WordCount程序项目
1、 创建一个Maven项目
(1) File菜单中,新建Maven Project。


2、 添加Source Folder用来存放配置文件


将来core-site.xml、hdfs-site.xml、yarn-site.xml等配置文件存放在这个目录下。
3、 为src/main/resource指定输出路径


4、 编辑pom.xml文件

修改pom.xml后保存后,maven会自动去下载依赖包
四、编写MapReduce方法
1、 添加一个类WordCountMapReduce

WordCountMapReduce类继承org.apache.hadoop.con类并实现org.apache.hadoop.util接口。
|
package com.chybinmy.hadoop.mapreduce; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.Tool; public class WordCountMapReduce extends Configuration } |
2、 Map类
|
public |
3、 Reduce类
public static class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {
|
4、 run方法
public int run(String[] args) throws Exception {
|
5、 main方法
public static void main(String[] args) throws Exception {
|
五、打包JAR,在YARN上运行
1、 将打包好的jar包放在
2、 运行jar
[hadoop@bigdata-senior01 hadoop-2.5.0]$ bin/yarn jar
/opt/mysource/mapreduce.jar com.chybinmy.hadoop.mapreduce.WordCountMapReduce /wordcountdemo/input/wordcount.input
/wordcountdemo/output3

3、 查看结果
|
[hadoop@bigdata-senior01 hadoop 3 hbase 1 hive mapreduce spark 2 sqoop 1 storm 1 |
六、以WordCount为例理解MapReduce并行运行过程
1、 流程图

2、 执行过程描述
(1) 每个分片数据分配一个map任务,任务内容是用户写的map函数,map函数是尽量运行在数据分片的机器上,这样保证了“数据本地优化”。
(2) map任务的结果是各自排好序的,各个map结果进行再次排序合并后,作为reduce任务的输入。
(3) reduce任务执行reduce函数来处理数据,得到最终结果后,存入HDFS。
(4) 会有多个reduce任务,每个reduce任务的输入都来自于许多map任务,map任务和reduce任务之间是需要传输数据的,占用网络资源,影响效率,为了减少数据传输,可以在map()函数后,添加一个combiner函数来对结果做预处理。
附件列表
MapReduce 单词统计案例编程的更多相关文章
- 2.Storm集群部署及单词统计案例
1.集群部署的基本流程 2.集群部署的基础环境准备 3.Storm集群部署 4.Storm集群的进程及日志熟悉 5.Storm集群的常用操作命令 6.Storm源码下载及目录熟悉 7.Storm 单词 ...
- 关于MapReduce单词统计的例子:
要统计的文件的文件名为hello hello中的内容如下 hello you hello me 通过MapReduce程序统计出文件中的各个单词出现了几次.(两个单词之间通过tab键进行的分割) im ...
- hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数 作用: 计算文件中出现每个单词的频数 输入结果 ...
- 大数据学习——mapreduce程序单词统计
项目结构 pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns=&q ...
- 【Cloud Computing】Hadoop环境安装、基本命令及MapReduce字数统计程序
[Cloud Computing]Hadoop环境安装.基本命令及MapReduce字数统计程序 1.虚拟机准备 1.1 模板机器配置 1.1.1 主机配置 IP地址:在学校校园网Wifi下连接下 V ...
- 2、 Spark Streaming方式从socket中获取数据进行简单单词统计
Spark 1.5.2 Spark Streaming 学习笔记和编程练习 Overview 概述 Spark Streaming is an extension of the core Spark ...
- Spark入门(三)--Spark经典的单词统计
spark经典之单词统计 准备数据 既然要统计单词我们就需要一个包含一定数量的文本,我们这里选择了英文原著<GoneWithTheWind>(<飘>)的文本来做一个数据统计,看 ...
- Java实现单词统计
原文链接: https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数,比如下面的数据源 其中,最终出现的次数结果应该是下面的 ...
- ytu 2002:C语言实验——单词统计(水题)
C语言实验——单词统计 Time Limit: 1 Sec Memory Limit: 64 MBSubmit: 61 Solved: 34[Submit][Status][Web Board] ...
随机推荐
- C#如何测试代码运行时间
1.System.Diagnostics.Stopwatch stopwatch = new Stopwatch(); stopwatch.Start(); // 开始监视代码运行时间 // 需要测试 ...
- shell简单用法笔记(shell中数值运算)二
shell中变量值,如果不手动指定类型,默认都是字符串类型: 例如: a= b= c=$a+#b echo $c 结果会输出:123+456 shell中,如果要进行数值运算,可以通过一下方法: 方法 ...
- 基于Mono跨平台移动应用开发框架发布Xamarin 3.0
跨平台移动应用开发框架Xamarin可以让你完全用C#编写你的应用程序,在iOS.Android.Windows Phone 8.Windows8和mac平台上共享相同的代码.你可以重用你最喜欢的.N ...
- 分分钟用上C#中的委托和事件
每一个初学C#的程序猿,在刚刚碰到委托和事件的概念时,估计都是望而却步,茫然摸不到头脑的.百度一搜,关于概念介绍的文章大把大把的,当然也不乏深入浅出的好文章.可看完这些文章,大多数新手,估计也只是信心 ...
- UI控件(UITextView)
@implementation ViewController - (void)viewDidLoad { [super viewDidLoad]; //UITextView与UITextField主要 ...
- ASP.Net WebForm温故知新学习笔记:二、ViewState与UpdatePanel探秘
开篇:经历了上一篇<aspx与服务器控件探秘>后,我们了解了aspx和服务器控件背后的故事.这篇我们开始走进WebForm状态保持的一大法宝—ViewState,对其刨根究底一下.然后,再 ...
- Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:当前页面 网站日志分析项目案例 ...
- 《HiWind企业快速开发框架实战》(1)框架的工作原理
<HiWind企业快速开发框架实战>(1)框架的工作原理 1.HiWind架构 HiWind的基本架构如下: 持久层部分:同时为框架本身的业务服务,也为开发人员的自定义业务服务. 逻辑层: ...
- 玩转Windows服务系列——Windows服务小技巧
伴随着研究Windows服务,逐渐掌握了一些小技巧,现在与大家分享一下. 将Windows服务转变为控制台程序 由于默认的Windows服务程序,编译后为Win32的窗口程序.我们在程序启动或运行过程 ...
- Maven和Gradle对比
Java世界中主要有三大构建工具:Ant.Maven和Gradle.经过几年的发展,Ant几乎销声匿迹.Maven也日薄西山,而Gradle的发展则如日中天.笔者有幸见证了Maven的没落和Gradl ...