Hadoop 多表关联

一、实例描述

　　多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。下面进入这个实例。

　　输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址列，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出工厂名-地址名表。

　　样例输入：

　　factory：

　　factoryname addressed
　　Beijing Red Star 1
　　Shenzhen Thunder 3
　　Guangzhou Honda 2
　　Beijing Rising 1
　　Guangzhou Development Bank 2
　　Tencent 3
　　Bank of Beijing 1

　　address：

　　addressID addressname
　　1 Beijing
　　2 Guangzhou
　　3 Shenzhen
　　4 Xian

　　样例输出：

二、设计思路

　　多表关联和单表关联类似，都类似于数据库中的自然连接。相比单表关联，多表关联的左右表和连接列更清楚，因此可以采用和单表关联相同的处理方式。Map识别出输入的行属于哪个表之后，对其进行分割，将连接的值保存在key中，另一列和左右表标志保存在value中，然后输出。Reduce拿到连接结果后，解析value内容，根据标志将左右表内容分开存放，然后求笛卡尔积，最后直接输出。

　　这个实例的具体分析参考Hadoop 单表关联博客，下面贴出代码。

三、程序代码

　　程序代码如下：

 import java.io.IOException;

 import java.util.Iterator;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.util.GenericOptionsParser;

 public class MTjoin {

     public static int time = 0;

     public static class Map extends Mapper<Object, Text, Text, Text>{

         // 在Map中先区分输入行属于左表还是右表，然后对两列值进行分割，

         // 连接列保存在key值，剩余列和左右表标志保存在value中，最后输出

         @Override

         protected void map(Object key, Text value,Mapper<Object, Text, Text, Text>.Context context)

                 throws IOException, InterruptedException {

             // super.map(key, value, context);

             String line = value.toString();

             int i=0;

             // 输入文件首行，不处理

             if(line.contains("factoryname")==true || line.contains("addressID")==true){

                 return ;

             }

             // 找出数据中的分割点

             while(line.charAt(i)>='9' || line.charAt(i)<='0'){

                 i++;

             }

             if (line.charAt(0)>='9'||line.charAt(0)<='0') {

                 // 左表

                 int j = i-1;

                 while(line.charAt(j)!=' ') j--;

                 String [] values = {line.substring(0,j),line.substring(i)};

                 context.write(new Text(values[1]), new Text("1+"+values[0]));

             }else {

                 // 右表

                 int j = i+1;

                 while(line.charAt(j)!=' ') j++;

                 String[] values = {line.substring(0,i+1),line.substring(j)};

                 context.write(new Text(values[0]), new Text("2"+values[1]));

             }

         }

     }

     public static class Reduce extends Reducer<Text, Text, Text, Text>{

         // Reduce解析Map输出，将value中数据按照左右表分别保存，然后求 // 笛卡尔积，输出

         @Override

         protected void reduce(Text key, Iterable<Text> values,Reducer<Text, Text, Text, Text>.Context context)

                 throws IOException, InterruptedException {

             // super.reduce(arg0, arg1, arg2);

             if (time==0) {

                 //  输出文件第一行

                 context.write(new Text("factoryname"), new Text("addressname"));

                 time++;

             }

             int factorynum = 0;

             String[] factory = new String[10];

             int addressnum = 0;

             String[] address = new String[10];

             Iterator ite = values.iterator();

             while (ite.hasNext()) {

                 String record = ite.next().toString();

                 int len = record.length();

                 int i = 2;

                 char type = record.charAt(0);

                 String factoryname = new String();

                 String addressname = new String();

                 if (type=='1') {

                     // 左表

                     factory[factorynum] = record.substring(2);

                     factorynum++;

                 }else {

                     // 右表

                     address[addressnum] = record.substring(2);

                     addressnum++;

                 }

             }

             if (factorynum != 0 && addressnum !=0) {

                 // 求笛卡尔积

                 for(int m=0;m<factorynum;m++){

                     for(int n=0;n<addressnum;n++){

                         context.write(new Text(factory[m]), new Text(address[n]));

                     }

                 }

             }

         }

     }

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

         Configuration conf = new Configuration();

         String[] otherArgs = new GenericOptionsParser(conf,args).getRemainingArgs();

         if(otherArgs.length!=2){

             System.out.println("Usage:wordcount <in> <out>");

             System.exit(2);

         }

         Job job = new Job(conf,"multiple table join");

         job.setJarByClass(MTjoin.class);

         job.setMapperClass(Map.class);

         job.setReducerClass(Reduce.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(Text.class);

         FileInputFormat.addInputPath(job,new Path(otherArgs[0]));

         FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

         System.exit(job.waitForCompletion(true)?0:1);

     }

 }

Hadoop 多表关联的更多相关文章

Hadoop 单表关联
前面的实例都是在数据上进行一些简单的处理,为进一步的操作打基础.单表关联这个实例要求从给出的数据中寻找到所关心的数据,它是对原始数据所包含信息的挖掘.下面进入这个实例. 1.实例描述实例中给出chi ...
Hadoop on Mac with IntelliJ IDEA - 8 单表关联NullPointerException
简化陆喜恒. Hadoop实战(第2版)5.4单表关联的代码时遇到空指向异常,经分析是逻辑问题,在此做个记录. 环境:Mac OS X 10.9.5, IntelliJ IDEA 13.1.5, Ha ...
hadoop实例---多表关联
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息.如下输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列:另一个代表地址表,包含地址名列和地址编号列.要求从 ...
hadoop 多表join：Map side join及Reduce side join范例
最近在准备抽取数据的工作.有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集.id数据集合中每一个行就是一个id的字符串(Reduce side join要在每 ...
MapReduce应用案例--单表关联
1. 实例描述单表关联这个实例要求从给出的数据中寻找出所关心的数据,它是对原始数据所包含信息的挖掘. 实例中给出child-parent 表, 求出grandchild-grandparent表. ...
MapRedece(多表关联)
多表关联: 准备数据 ******************************************** 工厂表: Factory Addressed BeijingRedStar 1 Shen ...
MapRedece(单表关联)
源数据:Child--Parent表 Tom Lucy Tom Jack Jone Lucy Jone Jack Lucy Marry Lucy Ben Jack Alice Jack Jesse T ...
MR案例：单表关联查询
"单表关联"这个实例要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘. 需求:实例中给出 child-parent(孩子—父母)表,要求输出 grandchild ...
20亿与20亿表关联优化方法(超级大表与超级大表join优化方法)
记得5年前遇到一个SQL.就是一个简单的两表关联.SQL跑了几乎相同一天一夜,这两个表都非常巨大.每一个表都有几十个G.数据量每一个表有20多亿,表的字段也特别多. 相信大家也知道SQL慢在哪里了,单 ...

随机推荐

Spring component-scan 标签的实现
在以前文章Spring自定义标签实现中,曾说过,在sprin g 配置文件中,除了be an beans import 常用的标签意外,其他的标签都是遵循Spring 自定义标签的扩展机制进行实现功能 ...
AFNetworking Delete请求,报参数为空的错误
使用AFNetWorking进行网络请求的时候,AFNetWorking会默认把get head delete这三个方法的请求参数拼到了url的后面,然后造成body为空,一行代码解决: manage ...
探索未知种族之osg类生物---渲染遍历之器官协作
好了,现在我们经过三节的介绍我们已经大体上明确了单线程模型(SingleThreaded)下 OSG 渲染遍历的工作流程.事实上无论是场景的筛选render还是绘制cull工作,最后都要归结到场景视图 ...
windows 上安装冷门python模块
最近在逼乎看到笑虎大大的python 撸代码学知识专栏..就下载他的Pspider 框架安装了一下,准备耍耍. 由于是在Windows下的pycharm 有个 pybloom_live 模块老 ...
服务管理之httpd
目录 1. httpd简介 2. httpd版本 2.2 httpd-2.4新增的模块 3. httpd基础 3.1 httpd自带的工具程序 3.2 rpm包安装的httpd程序环境 3.3 web ...
JAVA实训第二次作业
一维数组的创建和遍历. 声明并创建存放4个人考试成绩的一维数组,并使用for循环遍历数组并打印分数.要求: (1) 首先按"顺序"遍历,即打印顺序为:从第一个人到第四个人: (2) ...
windows2012 raid架构忘记系统管理员密码的解决方法
1. http://bbs.51cto.com/thread-939710-1.html 2. https://wenku.baidu.com/view/115783cd0b4e767f5acfcef ...
Python 列表(list)的使用
文章目录一.创建list 二.访问list中元素三.更新元素四.删除元素五.求list长度六.连接列表七.截取列表八.复制列表一.创建list myList = [2,3,1,5,6, ...
Codeforces 888 简要题解
文章目录 A题 B题 C题 D题 E题 F题 G题传送门 A题传送门题意简述:给一个数列,问有多少个峰值点(同时比两边都大/小的点) 思路:按照题意模拟. 代码: #include<bit ...
贝叶斯公式52张牌猜黑桃A策略
贝叶斯公式52张牌猜黑桃A策略考虑有208平行世界,其中有4个世界(1/52)的黑桃A方在第一张牌的位置,余下204个世界中,有4个世界的黑桃A在第2张牌的位置,4个世界在第3张牌的位置..... ...

Hadoop 多表关联

Hadoop 多表关联的更多相关文章

随机推荐

热门专题