MapReduce数据连接

对于不同文件里的数据，有时候有相应关系，须要进行连接(join)，获得一个新的文件以便进行分析。比方有两个输入文件a.txt,b.txt，当中的数据格式分别例如以下

1 a

2 b

3 c

4 d

1 good

2 bad

3 ok

4 hello

须要将其连接成一个新的例如以下的文件：

a good

b bad

c ok

d hello

处理步骤能够分成两步：

1.map阶段，将两个输入文件里的数据进行打散，例如以下：

1 a

1 good

2 b

2 bad

3 c

3 ok

4 d

4 hello

2.reduce阶段，进行数据的连接操作，此处数据较简单，仅仅要推断map结果的value的长度是不是1就决定是新的键还是值。

package cn.zhf.hadoop;

import java.io.IOException;

import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class SingleJoin extends Configured implements Tool{

	public static void main(String[] args) throws Exception {

		Tool tool = new SingleJoin();

		ToolRunner.run(tool, args);

		print(tool);

	}

	@Override

	public int run(String[] arg0) throws Exception {

		Configuration conf = getConf();

		Job job = new Job();

		job.setJarByClass(getClass());

		FileSystem fs = FileSystem.get(conf);

		fs.delete(new Path("out"),true);

		FileInputFormat.addInputPath(job, new Path("a.txt"));

		FileInputFormat.addInputPath(job, new Path("b.txt"));

		FileOutputFormat.setOutputPath(job,new Path("out"));

		job.setMapperClass(JoinMapper.class);

		job.setReducerClass(JoinReducer.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.waitForCompletion(true);

		return 0;

	}

	public static class JoinMapper extends Mapper<LongWritable,Text,Text,Text>{

		public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException{

			String[] str = value.toString().split(" ");

			context.write(new Text(str[0]), new Text(str[1]));

		}

	}

	public static class JoinReducer extends Reducer<Text,Text,Text,Text>{

		public void reduce(Text key,Iterable<Text> values,Context context) throws IOException, InterruptedException{

			Iterator<Text> iterator = values.iterator();

			Text keyy = new Text();

			Text valuee = new Text();

			while(iterator.hasNext()){

				Text temp = iterator.next();

				if(temp.toString().length() == 1){

					keyy.set(temp);

					valuee.set(iterator.next());

				}else{

					valuee.set(temp);

					keyy.set(iterator.next());

				}

			}

			context.write(keyy, valuee);

		}

	}

	public static void print(Tool tool) throws IOException{

		FileSystem fs = FileSystem.get(tool.getConf());

		Path path = new Path("out/part-r-00000");

		FSDataInputStream fsin = fs.open(path);

		int length = 0;

		byte[] buff = new byte[128];

		while((length = fsin.read(buff,0,128)) != -1)

			System.out.println(new String(buff,0,length));

	}

}

reference：《MapReduce2.0源代码分析及编程实践》

MapReduce数据连接的更多相关文章

帆软报表FineReport中数据连接之Weblogic配置JNDI连接
1. 制作报表的原理在帆软报表FineReport设计器中先用JDBC连接到数据库,建立数据库连接,然后用SQL或者其他方法创建数据集,使用数据集制作报表,然后把建立的数据库连接从JDBC连接改成J ...
帆软报表FineReport中数据连接之Jboss配置JNDI连接
使用sqlsever 2000数据库数据源来做实例讲解,帆软报表FineReport数据连接中Jboss配置JNDI大概的过程和WEBSPHERE以及WEBLOGIC基本相同,用JDBC连接数据库制作 ...
帆软报表FineReport中数据连接之Websphere配置JNDI连接
以oracle9i数据源制作的模板jndi.cpt为例来说明如何在FineReport中的Websphere配置JNDI连接.由于常用服务器的JNDI驱动过大,帆软报表FineReport中没有自带, ...
帆软报表FineReport中数据连接之Tomcat配置JNDI连接
1. 问题描述在帆软报表FineReport中,通过JNDI方式定义数据连接,首先在Tomcat服务器配置好JNDI,然后在设计器中直接调用JNDI的名字,即可成功使用JNDI连接,连接步骤如下: ...
帆软报表FineReport中数据连接的JDBC连接池属性问题
连接池原理在帆软报表FineReport中,连接池主要由三部分组成:连接池的建立.连接池中连接使用的治理.连接池的关闭.下面就着重讨论这三部分及连接池的配置问题. 1. 连接池原理连接池技术的核心 ...
Netbeans 中创建数据连接池和数据源步骤（及解决无法ping通问题）
1.启动glassfish服务器, 在浏览器的地址栏中输入 http://localhost:4848 2.首先建立JDBC Connection Pools: 3.new 一个Connectio P ...
htc M8 无法自动恢复数据连接(4g)的问题解决
情况如下:htc m8 tdd-lte的双待手机,4g.2g同时在线. 本月出现,在短时间没有信号的情况后,无法恢复数据连接,哪怕是edge,更不论4g了. 尝试各种方法无解.最后咨询10086解决此 ...
Ajax之数据连接信息捕获
connDB.properties: DB_CLASS_NAME=com.mysql.jdbc.Driver DB_URL=jdbc:mysql://127.0.0.1:3306/db_datab ...
数据连接池——JNDI
数据库连接有很多中方式,JDBC数据库的连接方式,前边我们已经介绍过了,而开发中我们经常使用的是DataBaseConnectionPool(数据库连接池,DBCP).数据库连接池到底是什么?它比jd ...

随机推荐

动态 SQL
MyBatis 的强大特性之一便是它的动态 SQL.如果你有使用 JDBC 或其他类似框架的经验,你就能体会到根据不同条件拼接 SQL 语句有多么痛苦.拼接的时候要确保不能忘了必要的空格,还要注意省掉 ...
自定义TreeList单元格 z
DevExpress Treelist自定义单元格,加注释和行序号.以上一节的列表为例,实现以下效果:预算大于110万的单元格突出显示,加上行序号以及注释,如下图: 添加行序号要用到CustomDra ...
Android应用启动时间及启动日志获取方法
1. Android应用中,可以使用如下方式进行应用启动时间的查看 2. 启动日志获取方法:
ARM指令集----杂项指令
ARM指令集可以分为6类,即是跳转指令,数据处理指令,程序状态传输指令,Load.Store指令,协处理器指令和异常中断指令跳转指令: 在ARM中有两种方式可以实现程序的跳转,一种是跳转指令,另一种 ...
redis集群的搭建
1.首先下载好软件包 #cd /opt/tzr/ #wget http://redis.googlecode.com/files/redis-2.6.11.tar.gz #mkdir /opt/tzr ...
ASP.NET性能优化小结(ASP.NET&C#)
ASP.NET: 一.返回多个数据集检查你的访问数据库的代码,看是否存在着要返回多次的请求.每次往返降低了你的应用程序的每秒能够响应请求的次数.通过在单个数据库请求中返回多个结果集,可以减少与数据库 ...
复制表的sql语句
1.sqlserver 原表存在:insert into a select * from b 原表不存在:select * into a from b 2.mysql.oracle 原表存在:inse ...
js笔记--json
1.什么事json: json是指javascript对象表示法(javascript Object Notation), json是轻量级的文本数据交换格式: json独立于语言: json具有自我 ...
ArrayList、LinkedList、HashMap的遍历及遍历过程中增、删元素
ArrayList.LinkedList.HashMap是Java中常用到的几种集合类型,遍历它们是时常遇到的情况.当然还有一些变态的时候,那就是在遍历的过程中动态增加或者删除其中的元素. 下面的例子 ...
leetcode@ [327] Count of Range Sum (Binary Search)
https://leetcode.com/problems/count-of-range-sum/ Given an integer array nums, return the number of ...

MapReduce数据连接

MapReduce数据连接的更多相关文章

随机推荐

热门专题