MapReduce 多表连接

题目描述：

现在有两个文件，1为存放公司名字和城市ID，2为存放城市ID和城市名

表一：

factoryname,addressed
Beijing Red Star,1
Shenzhen Thunder,3
Guangzhou Honda,2
Beijing Rising,1
Guangzhou Development Bank,2
Tencent,3
Back of Beijing,1

表2：

1,Beijing
2,Guangzhou
3,Shenzhen
4,Xian

现在要求输出公司名和城市名。例如：

Beijing Red Star Beijing

这个类似数据库里的多表连接。整体思路和单表连接差不多。还是利用reduce阶段对城市ID进行归并，我们在map阶段统一输出key=城市ID value=falg+“+”+城市名or公司名。然后通过reduce对flag的解析，分析后者是城市名还是公司名，并放到两个数组中，最后利用笛卡尔积将其输出

具体代码

public class MyMapper extends Mapper<LongWritable, Text, Text, Text> {

public void map(LongWritable ikey, Text ivalue, Context context )

throws IOException, InterruptedException {

String line=ivalue.toString();

StringTokenizer st= new StringTokenizer(line,"," );

String value0=st.nextToken();

String value1=st.nextToken();

if(value0.compareTo("factoryname" )!=0){

if(value0.length()==1){

context.write(new Text(value0), new Text("1" +"+"+value1));

} else{

context.write(new Text(value1), new Text("2" +"+"+value0));

}

public class MyReducer extends Reducer<Text, Text, Text, Text> {

public void reduce(Text _key, Iterable<Text> values, Context context)

throws IOException, InterruptedException {

// process values

ArrayList<String> address= new ArrayList<String>();

ArrayList<String> factory= new ArrayList<String>();

for (Text val : values) {

String line=val.toString();

StringTokenizer st=new StringTokenizer(line,"+" );

int flag=Integer.parseInt(st.nextToken());

if(flag==1){

String addressname=st.nextToken();

address.add(addressname);

} else if (flag==2){

String factoryname=st.nextToken();

factory.add(factoryname);

}

if(address.size()!=0&&factory.size()!=0){

for(int i=0;i<address.size();i++){

for(int j=0;j<factory.size();j++){

context.write( new Text(address.get(i)),new Text(factory.get(j)));

}

MapReduce 多表连接的更多相关文章

MapReduce多表连接
多表关联多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息.下面进入这个实例. 1 实例描述输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列:另一个代表地址 ...
Hadoop阅读笔记（三）——深入MapReduce排序和单表连接
继上篇了解了使用MapReduce计算平均数以及去重后,我们再来一探MapReduce在排序以及单表关联上的处理方法.在MapReduce系列的第一篇就有说过,MapReduce不仅是一种分布式的计算 ...
Hadoop-Map/Reduce之单表连接的实现
MapReduce程序就是根据其特性对数据进行一个简单的逻辑处理,其中最为重要的一个特性就是根据key值将value值进行合并,其次就是在shuffle阶段有排序. 遇到一个MR程序就是要巧妙利用合并 ...
SQL多表连接查询（详细实例）
转载博客:joeleo博客(http://www.xker.com/page/e2012/0708/117368.html) 本文主要列举两张和三张表来讲述多表连接查询. 新建两张表: 表1:stud ...
关于Oracle表连接
表连接注意left join on与where的区别: select * from dept; select * from emp; select * from emp a right outer j ...
SQL多表连接查询
SQL多表连接查询本文主要列举两张和三张表来讲述多表连接查询. 新建两张表: 表1:student 截图如下: 表2:course 截图如下: (此时这样建表只是为了演示连接SQL语句,当然实际 ...
oracle（sql）基础篇系列（二）——多表连接查询、子查询、视图
多表连接查询内连接(inner join) 目的:将多张表中能通过链接谓词或者链接运算符连接起来的数据查询出来. 等值连接(join...on(...=...)) --选出雇员的名字和雇员所 ...
Access数据库多表连接查询
第一次在Access中写多表查询,就按照MS数据库中的写法,结果报语法错,原来Access的多表连接查询是不一样的表A.B.C,A关联B,B关联C,均用ID键关联一般写法:select * fro ...
PostgreSQL-join多表连接查询和子查询
一.多表连接查询 1.连接方式概览 [inner] join 内连接:表A和表B以元组为单位做一个笛卡尔积,记为表C,然后在C中挑选出满足符合on 语句后边的限制条件的内容. left [outer] ...

随机推荐

8633 回文划分（dp）
8633 回文划分该题有题解时间限制:1000MS 内存限制:1000K提交次数:169 通过次数:63 题型: 编程题语言: G++;GCC Description 我们说一个字符串是回 ...
UVALive 2324 Human Gene Functions（动态规划）
题意:求出将两个字符串改成一样长度所能形成最大的相似度. 思路:这个可以说是编辑距离的一个变形,编辑距离最终状态时要两个字符串完全一致,这个就是要求长度一样,而且这个只允许插入“—”这一个字符.模仿编 ...
spark中groupByKey与reducByKey
[译]避免使用GroupByKey Scala Spark 技术 by:leotse 原文:Avoid GroupByKey 译文让我们来看两个wordcount的例子,一个使用了reduceB ...
android 内存优化一
常见内存泄露原因 Context对象泄漏 1.如果一个类持有Context对象的强引用,就需要检查其生存周期是否比Context对象更长.否则就可能发生Context泄漏. 2.View持有其创建所在 ...
OpenCv的Java,C++开发环境配置
1.OpenCV 下载及安装配置 opencv的下载地址:http://opencv.org/downloads.html 最新版本:opencv3.0.0 注意:支持的visual studio20 ...
hdu_2222_Keywords Search(AC自动机板子)
题目连接:hdu_2222_Keywords Search 存个自己写的AC自动机 #include<cstdio> #include<cstring> #define F(i ...
postfix疯狂外发垃圾邮件
分析一.查找main.cf配置文件 localhost# find / -name main.cf /etc/postfix/main.cf 二.打开/etc/postfix/main.cf来看看. ...
C# 经典入门11章，比较
1类型比较所有的类懂从System.Object中继承了GetType()方法,这个方法和typeof()运算符一起使用,可以确定对象的类型.例如: if(myObj.GetType()==type ...
HDU 1203 I NEED A OFFER! 01背包概率运算预处理。
题目大意:中问题就不说了 ^—^~ 题目思路:从题目来看是很明显的01背包问题,被录取的概率记为v[],申请费用记为w[].但是我们可以预先做个处理,使问题解决起来更方便:v[]数组保留不被录取的概率 ...
hrbustoj 2130 一笔画（状态压缩）
基础状态压缩转移方程为 dp[j][i] = min(dp[j][i],dp[k][i^(1<<j)] + dis[k][j]); #include<iostream> #i ...

MapReduce 多表连接

MapReduce 多表连接的更多相关文章

随机推荐

热门专题