hadoop程序MapReduce之WordCount

【hadoop程序MapReduce之WordCount】的更多相关文章

hadoop程序MapReduce之WordCount

需求:统计一个文件中所有单词出现的个数. 样板:word.log文件中有hadoop hive hbase hadoop hive 输出:hadoop 2 hive 2 hbase 1 MapReduce设计方式: 一.Map过程<k,v>键值队的设计: 1.按行将文本文件切割成 <k1,v1>,k1代表:行在文件中的位置,v1代表:一行数据.多少个<k1,v1>就调用多少次map()方法. 2.在map()方法中将一行数据按照空格继续分割成<k2,v2>,…

hadoop程序MapReduce之DataDeduplication

需求:去掉文件中重复的数据. 样板:data.log 2016-3-1 a 2016-3-2 b 2016-3-2 c 2016-3-2 b 输出结果: 2016-3-1 a 2016-3-2 b 2016-3-2 c 解决思路:取出一行数据,经过mapper处理后,利用MapReduce默认的将相同的key合并后交给reduce处理的原则,这样可以达到数据去重解决问题. MapReduce分析设计: Mapper分析设计: 1.<k1,v1>,k1代表:每行数据的行号,v1代…

hadoop程序MapReduce之MaxTemperature

需求:求每年当中最高的温度样本:temp.log 2016080623 2016072330 2015030420 输出结果:2016 30 2015 20 MapReduce分析设计: Mapper分析设计: 1.将文件分割成键值队<k1,v1>,k1代表:行位置,v1代表:一行数据. 2.将这行数据进行分割成<k2,v2>,k2代表:年份,v1代表:温度. Reduce分析设计: 3.将一些列合并后的相同key的一系列温度<k3,v3>,k3代表:年份,v1代表:…

Hadoop实战-MapReduce之WordCount(五)

环境介绍: 主服务器ip:192.168.80.128(master) NameNode SecondaryNameNode ResourceManager 从服务器ip:192.168.80.129(slave1) DataNode NodeManager 从服务器ip: 192.168.80.130(slave2) DataNode NodeManager 1.文件准备 1)在HDFS上创建文件夹 hadoop fs -mkdir /user/joe/wordcount/input…

hadoop程序MapReduce之SingletonTableJoin

需求:单表关联问题.从文件中孩子和父母的关系挖掘出孙子和爷奶关系样板:child-parent.txt xiaoming daxiong daxiong alice daxiong jack 输出:xiaoming alice xiaoming jack 分析设计: mapper部分设计: 1.<k1,k1>k1代表:一行数据的编号位置,v1代表:一行数据. 2.左表:<k2,v2>k2代表:parent名字,v2代表:(1,child名字),此处1:代表左表标志. 3.右表:&…

hadoop程序MapReduce之average

需求:求多门课程的平均值. 样板:math.txt zhangsan 90 lisi 88 wanghua 80 china.txt zhangsan 80lisi 90wanghua 88 输出:zhangsan 85 lisi 89 wanghua 84 分析部分: mapper部分分析: 1.<k1,v1>k1代表:一行数据的编号位置,v1代表:一行数据. 2.<k2,v2>k2代表:名字,v2代表:分数. reduce部分分析: 3.<k3,v3>k3代表:相同…

hadoop程序MapReduce之DataSort

需求:对文件中的数据进行排序. 样本:sort.log 10 13 10 20 输出:1 10 2 10 3 13 4 20 分析部分: mapper分析: 1.<k1,v1>k1代表:行位置编号,v1代表:一行数据 2.<k2,v2>k2代表:一行数据,v2代表:此处为1. reduce分析: 3.<k3,v3>k3代表:相同的key,v3代表:list<int> 4.合并输出:<k4,v4>k4代表:递增编号,v4代表:key值. 程序部分:…

Hadoop实战5:MapReduce编程-WordCount统计单词个数-eclipse-java-windows环境

Hadoop研发在java环境的拓展一背景由于一直使用hadoop streaming形式编写mapreduce程序,所以目前的hadoop程序局限于python语言.下面为了拓展java语言研发,本次实验使用window系统,maven打包,centos系统mapr环境运行. 二步骤 1 查看hadoop版本,命令 Hadoop version,获得版本号hadoop2.7.0 2 编写pow文件,注意hadoop2.7依赖, <dependency> <groupId>…

Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境

之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 1去官网下载linux版本的eclipse安装包(或者在本人为了大家方便下载,上传到了csdn下载,网址: 2下载插件:hadoop-eclipse-plugin-2.6.0.jar 二安装elicpse及hadoop插件 1 把eclipse解压到路径 /user/local/eclipse…

运行第一个Hadoop程序，WordCount

系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. 在hadoop的安装文件夹 /usr/local/hadoop下创建input文件夹 hadoop@hadoopmaster:/usr/local/hadoop$ mkdir ./input 然后copy几个文档到input文件夹中作为WordCount的输入 hadoop@hadoopmaste…