MapReduce数据连接

对于不同文件里的数据，有时候有相应关系，须要进行连接(join)，获得一个新的文件以便进行分析。比方有两个输入文件a.txt,b.txt，当中的数据格式分别例如以下

1 a

2 b

3 c

4 d

1 good

2 bad

3 ok

4 hello

须要将其连接成一个新的例如以下的文件：

a good

b bad

c ok

d hello

处理步骤能够分成两步：

1.map阶段，将两个输入文件里的数据进行打散，例如以下：

1 a

1 good

2 b

2 bad

3 c

3 ok

4 d

4 hello

2.reduce阶段，进行数据的连接操作，此处数据较简单，仅仅要推断map结果的value的长度是不是1就决定是新的键还是值。

package cn.zhf.hadoop;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class SingleJoin extends Configured implements Tool{

	public static void main(String[] args) throws Exception {

		Tool tool = new SingleJoin();

		ToolRunner.run(tool, args);

		print(tool);

	}

	@Override

	public int run(String[] arg0) throws Exception {

		Configuration conf = getConf();

		Job job = new Job();

		job.setJarByClass(getClass());

		FileSystem fs = FileSystem.get(conf);

		fs.delete(new Path("out"),true);

		FileInputFormat.addInputPath(job, new Path("a.txt"));

		FileInputFormat.addInputPath(job, new Path("b.txt"));

		FileOutputFormat.setOutputPath(job,new Path("out"));

		job.setMapperClass(JoinMapper.class);

		job.setReducerClass(JoinReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.waitForCompletion(true);

		return 0;

	}

	public static class JoinMapper extends Mapper<LongWritable,Text,Text,Text>{

		public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException{

			String[] str = value.toString().split(" ");

			context.write(new Text(str[0]), new Text(str[1]));

		}

	}

	public static class JoinReducer extends Reducer<Text,Text,Text,Text>{

		public void reduce(Text key,Iterable<Text> values,Context context) throws IOException, InterruptedException{

			Iterator<Text> iterator = values.iterator();

			Text keyy = new Text();

			Text valuee = new Text();

			while(iterator.hasNext()){

				Text temp = iterator.next();

				if(temp.toString().length() == 1){

					keyy.set(temp);

					valuee.set(iterator.next());

				}else{

					valuee.set(temp);

					keyy.set(iterator.next());

				}

			}

			context.write(keyy, valuee);

		}

	}

	public static void print(Tool tool) throws IOException{

		FileSystem fs = FileSystem.get(tool.getConf());

		Path path = new Path("out/part-r-00000");

		FSDataInputStream fsin = fs.open(path);

		int length = 0;

		byte[] buff = new byte[128];

		while((length = fsin.read(buff,0,128)) != -1)

			System.out.println(new String(buff,0,length));

	}

}

reference：《MapReduce2.0源代码分析及编程实践》

MapReduce数据连接的更多相关文章

帆软报表FineReport中数据连接之Weblogic配置JNDI连接
1. 制作报表的原理在帆软报表FineReport设计器中先用JDBC连接到数据库,建立数据库连接,然后用SQL或者其他方法创建数据集,使用数据集制作报表,然后把建立的数据库连接从JDBC连接改成J ...
帆软报表FineReport中数据连接之Jboss配置JNDI连接
使用sqlsever 2000数据库数据源来做实例讲解,帆软报表FineReport数据连接中Jboss配置JNDI大概的过程和WEBSPHERE以及WEBLOGIC基本相同,用JDBC连接数据库制作 ...
帆软报表FineReport中数据连接之Websphere配置JNDI连接
以oracle9i数据源制作的模板jndi.cpt为例来说明如何在FineReport中的Websphere配置JNDI连接.由于常用服务器的JNDI驱动过大,帆软报表FineReport中没有自带, ...
帆软报表FineReport中数据连接之Tomcat配置JNDI连接
1. 问题描述在帆软报表FineReport中,通过JNDI方式定义数据连接,首先在Tomcat服务器配置好JNDI,然后在设计器中直接调用JNDI的名字,即可成功使用JNDI连接,连接步骤如下: ...
帆软报表FineReport中数据连接的JDBC连接池属性问题
连接池原理在帆软报表FineReport中,连接池主要由三部分组成:连接池的建立.连接池中连接使用的治理.连接池的关闭.下面就着重讨论这三部分及连接池的配置问题. 1. 连接池原理连接池技术的核心 ...
Netbeans 中创建数据连接池和数据源步骤（及解决无法ping通问题）
1.启动glassfish服务器, 在浏览器的地址栏中输入 http://localhost:4848 2.首先建立JDBC Connection Pools: 3.new 一个Connectio P ...
htc M8 无法自动恢复数据连接(4g)的问题解决
情况如下:htc m8 tdd-lte的双待手机,4g.2g同时在线. 本月出现,在短时间没有信号的情况后,无法恢复数据连接,哪怕是edge,更不论4g了. 尝试各种方法无解.最后咨询10086解决此 ...
Ajax之数据连接信息捕获
connDB.properties: DB_CLASS_NAME=com.mysql.jdbc.Driver DB_URL=jdbc:mysql://127.0.0.1:3306/db_datab ...
数据连接池——JNDI
数据库连接有很多中方式,JDBC数据库的连接方式,前边我们已经介绍过了,而开发中我们经常使用的是DataBaseConnectionPool(数据库连接池,DBCP).数据库连接池到底是什么?它比jd ...

随机推荐

差分信号（Differential Signal）
差分信号(Differential Signal)在高速电路设计中的应用越来越广泛,电路中最关键的信号往往都要采用差分结构设计,什么另它这么倍受青睐呢?在 PCB 设计中又如何能保证其良好的性能呢? ...
LeetCode题解——3Sum Closest
题目: 给定一个数组,和一个指定的值,找出数组中3个数,它的和最接近这个指定值,并返回这个和. 解法: 和上一题找3个数的和为0一样,先排序再遍历,这一次不需要记录路径. 代码: class Solu ...
Intellij IDEA,WebStorm-keymap（转）
1. ctrl + shift + n: 打开工程中的文件2. ctrl + j: 输出模板3. ctrl + b: 跳到变量申明处4. ctrl + alt + T: 围绕包裹代码(包括zencod ...
状压DP uvalive 6560
// 状压DP uvalive 6560 // 题意:相邻格子之间可以合并,合并后的格子的值是之前两个格子的乘积,没有合并的为0,求最大价值 // 思路: // dp[i][j]:第i行j状态下的值 ...
web服务器分析与设计（一）
自己写一个简单的服务器. 面向对象分析与设计第一步:获取需求(基于用例) 功能:1,支持html静态网页,2,支持常用HTTP请求,且容易扩展支持不现请求 3,可以发布站点补充:至于对动态网页等高级 ...
初识JAVA（【面向对象】：pub/fri/pro/pri、封装/继承/多态、接口/抽象类、静态方法和抽象方法；泛型、垃圾回收机制、反射和RTTI）
JAVA特点: 语法简单,学习容易功能强大,适合各种应用开发:J2SE/J2ME/J2EE 面向对象,易扩展,易维护容错机制好,在内存不够时仍能不崩溃.不死机强大的网络应用功能跨平台:JVM, ...
VSim [a Racing-simulator by Vell001]
VSim [a racing-simulator by vell001] This is my first project about Racing. I am a Chinese with bad ...
J2SE7规范_2013.2_类型_命名
3.1 字面量:包括整型,实型,字符,字符串,布尔,null 整形: 除非后面有个l或L,一般总是int类型除非是0x,0,0b开头,一般总是十进制无论什么进制,中间都可以有_,无意义,只是看 ...
Django学习系列之Form基础
Django学习系列之Form基础 2015-05-15 07:14:57 标签:form django 原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追 ...
Excel动态生成JSON
在最近的一个项目中,有大量的数据源来至Excel,转成JSON供前台使用.Excel数据是人工录入的,难免会有错误,所以中间会有逻辑检查.在C#中读取Excel的方式有很多,网上一搜一大堆,这里我也贴 ...

MapReduce数据连接

MapReduce数据连接的更多相关文章

随机推荐

热门专题