mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段.在要求统计指定文件里的全部单词的出现次数时. map阶段把每一个关键词写到一行上以逗号进行分隔.并初始化数量为1(同样的单词hadoop中的map会自己主动放到一行中) reduce阶段是把每一个单词出现的频率统计出来又一次写回去. 如代码: package com.clq.hadoop2; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.…
hive介绍 什么是hive? hive:由Facebook开源用于解决海量结构化日志的数据统计 hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射为数据库的一张表,并提供类SQL查询功能.本质就是将HQL(hive sql)转化为MapReduce程序 我们使用MapReduce开发会很麻烦,但是程序员很熟悉sql,于是hive就出现了,可以让我们像写sql一样来编写MapReduce程序,会自动将我们写的sql进行转化.但底层使用的肯定还是MapReduce. hive处理…
在单机模式下Hadoop不会使用HDFS,也不会开启任何Hadoop守护进程,所有程序将在一个JVM上运行并且最多只允许拥有一个reducer 在Eclipse中新创建一个hadoop-test的Java工程(特别要注意的是Hadoop需要1.6或1.6以上版本的JDK) 在Hadoop的官网http://www.apache.org/dyn/closer.cgi/hadoop/common/上选择合适的地址下载hadoop-1.2.1.tar.gz 解压hadoop-1.2.1.tar.gz得…
我们平时创建普通的mapreduce项目,在遍代码当你需要导包使用一些工具类的时候, 你需要自己找到对应的架包,再导进项目里面其实这样做非常不方便,我建议我们还是用maven项目来得方便多了 话不多说了,我们就开始吧 首先你在eclipse里把你本地安装的maven导进来 选择你本地安装的maven路径 勾选中你添加进来的maven 把本地安装的maven的setting文件添加进来 接下来创建一个maven项目 可以看到一个maven项目创建成功!! 现在我们来配置pom.xml文件,把map…
1.概述 最近有同学反应,如何在配置了HA的Hadoop平台运行MapReduce程序呢?对于刚步入Hadoop行业的同学,这个疑问却是会存在,其实仔细想想,如果你之前的语言功底不错的,应该会想到自动重连,自动重连也可以帮我我们解决运行MapReduce程序的问题.然后,今天我赘述的是利用Hadoop的Java API 来实现. 2.介绍 下面直接附上代码,代码中我都有注释. 2.1Java操作HDFS HA的API 代码如下: /** * */ package cn.hdfs.mr.examp…
本文的目的是实现在windows环境下实现模拟运行Map/Reduce程序.最终实现效果:MapReduce程序不会被提交到实际集群,但是运算结果会写入到集群的HDFS系统中. 一.环境说明:     操作系统:win7     eclipse:Version: Mars Release (4.5.0)     hadoop:2.5.1 二.预备文档(仅是说明,以第三步为准): System.setProperty("HADOOP_USER_NAME", "root"…
摘要:hadoop安装完成后,像学习其他语言一样,要开始写一个“hello world!” ,看了一些学习资料,模仿写了个程序.对于一个C#程序员来说,写个java程序,并调用hadoop的包,并跑在linux系统下,是一次新的尝试. hadoop ncdc气象数据: http://down.51cto.com/data/1127100 数据说明: 第15-19个字符是year 第45-50位是温度表示,+表示零上 -表示零下,且温度的值不能是9999,9999表示异常数据 第50位值只能是0.…
hadoop的hdfs文件系统中,默认的是utf-8, 故你上传的文件是要设置成utf-8.当输入的是gbk,有该如何? 输入是GBK文件, 输出也是 GBK 文件的示例代码: Hadoop处理GBK文本时,发现输出出现了乱码,原来HADOOP在涉及编码时都是写死的UTF-8,如果文件编码格式是其它类型(如GBK),则会出现乱码. 此时只需在mapper或reducer程序中读取Text时,使用transformTextToUTF8(text, "GBK");进行一下转码,以确保都是以…
我们使用之前搭建好的Hadoop环境,可参见: <[Hadoop环境搭建]Centos6.8搭建hadoop伪分布模式>http://www.cnblogs.com/ssslinppp/p/5923793.html    示例程序为<Hadoop权威指南3>中的获取最高温度的示例程序: 数据准备 输入数据为:sample.txt 0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001C…
1.dirver package com.kangaroo.hadoop.drive; import java.util.Map; import java.util.Properties; import com.kangaroo.hadoop.mapper.AggregateMapper; import com.kangaroo.hadoop.reducer.AggregateReducer; import org.apache.hadoop.conf.Configured; import or…