MapReduce Join的使用

mzzcy 2024-09-08 07:06:35 原文

一、Map端Join

　　可连接两个都非常大的数据集之间可使用map端连接，数据在到达map端之前就执行连接操作。

　　需满足：

　　　　两个要连接的数据集都先划分成相同数量的分区，相同的key要保证在同一分区中（每个分区中两个数据集数据量不一定要要相同），并且要按连接key排序；

　利用CompositeInputFormat类，可实现map端连接：

　　代码参考：GitHub上Join示例

　　其它参考：hadoop实现join （CompositeInputFormat）

　　　　　　　参考2　

　　

二、Reduce端连接

　　Reduce端连接更简单易用，以天气连接为例：

　　　　

使用步骤：

　　1、使用MutipleInputs类设定不同输入数据集的InputFormat，以及Mapper；

　　2、辅助排序：通过自定义一个WritableComparable类型的 T，添加一个辅助排序字段，重写compareTo()方法，

　　　　　　　　作为传入Reducer的key，可完成可控的二次排序；

　　3、自定义Partitioner类，保证以自定义WritableComparable类型的T以首字段进行分区；自定一个分组Comparator类；

job.setPartitionerClass(KeyPartitioner.class);

job.setGroupingComparatorClass(TextPair.FirstComparator.class);

　　　　自定义Partitioner类、Comparator：　

public static class KeyPartitioner extends Partitioner<TextPair, Text> {

    @Override

    public int getPartition(TextPair key, Text value, int numPartitions) {

        return (key.getFirst().hashCode() & Integer.MAX_VALUE) % numPartitions;

    }

}

public static class FirstComparator extends WritableComparator {

    private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator();

    public FirstComparator() {

        super(TextPair.class);

    }

    @Override

    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

        try {

            int firstL1 = WritableUtils.decodeVIntSize(b1[s1]) + readVInt(b1, s1);

            int firstL2 = WritableUtils.decodeVIntSize(b2[s2]) + readVInt(b2, s2);

            return TEXT_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);

        } catch (IOException e) {

            throw new IllegalArgumentException(e);

        }

    }

    @Override

    public int compare(WritableComparable a, WritableComparable b) {

        if (a instanceof TextPair && b instanceof TextPair) {

            return ((TextPair) a).first.compareTo(((TextPair) b).first);

        }

        return super.compare(a, b);

    }

}

　　3、在Reducer中把选到达的key提取出来，即可自定义完成Join操作；

三、使用分布式缓存来实现：

　　Hadoop 中的 (side data) 边数据

其它参考：MapReduce 中的两表 join 几种方案简介

MapReduce Join的使用的更多相关文章

mapreduce join
MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接. 如果数据量比较大,在内存进行连接操会发生OOM.mapredu ...
SQL join中级篇--hive中 mapreduce join方法分析
1. 概述. 本文主要介绍了mapreduce框架上如何实现两表JOIN. 2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2. 2.1 reduce side jo ...
MapReduce Join关联
Reduce join 原理 Map端的主要工作:为来自不同表(文件)的key/value对打标签以区别不同来源的记录.然后用连接字段作为key,其余部分和新加的标志作为value,最后进行输出. R ...
mapreduce join操作
上次和朋友讨论到mapreduce,join应该发生在map端,理由太想当然到sql里面的执行过程了 wheremap端 join在map之前(笛卡尔积),但实际上网上看了,mapreduce的笛卡尔 ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...
MapReduce实现的Join
MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接. 如果数据量比较大,在内存进行连接操会发生OOM.mapredu ...
MapReduce中的Join算法
在关系型数据库中Join是非常常见的操作,各种优化手段已经到了极致.在海量数据的环境下,不可避免的也会碰到这种类型的需求,例如在数据分析时需要从不同的数据源中获取数据.不同于传统的单机模式,在分布式存 ...
大数据mapreduce俩表join之python实现
二次排序在Hadoop中,默认情况下是按照key进行排序,如果要按照value进行排序怎么办?即:对于同一个key,reduce函数接收到的value list是按照value排序的.这种应用需求在 ...
Hadoop学习之路（二十一）MapReduce实现Reduce Join（多个文件联合查询）
MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接. 如果数据量比较大,在内存进行连接操会发生OOM.mapredu ...

随机推荐

[USACO5.3]Big Barn (动态规划)
题目描述农夫约翰想要在他的正方形农场上建造一座正方形大牛棚.他讨厌在他的农场中砍树,想找一个能够让他在空旷无树的地方修建牛棚的地方.我们假定,他的农场划分成 N x N 的方格.输入数据中包括有树的 ...
Bzoj2007 [Noi2010]海拔（平面图最短路）
2007: [Noi2010]海拔 Time Limit: 20 Sec Memory Limit: 552 MBSubmit: 2742 Solved: 1318[Submit][Status] ...
Hubtown
Hubtown 时间限制: 10 Sec 内存限制: 256 MB 题目描述 Hubtown is a large Nordic city which is home to n citizens. ...
在线预览Word，Excel
今天在项目中遇到了在线预览word的需求,经过查阅资料与测试发现可以解决问题,特做记录: 方式: http://view.officeapps.live.com/op/view.aspx?src= s ...
laravel 数据库配置
数据库配置文件为项目根目录下的config/database.php //默认数据库为mysql 'default' => env('DB_CONNECTION', 'mysql'), 'mys ...
关于xshell无法连接到centos的问题
1.xshell无法连接到centos:拒绝连接(无线网) 在xshell ping centos出现: 解决方法: 1. 2.重启下网卡: [root@localhost ~]# /etc/init ...
[JSOI2016]反质数序列
我竟然半个小时切了一道JSOI2016,,,,不敢相信. 首先可以发现,如果N个数中1出现的次数<=1的话,我们按不能在一个集合连无向边的话,连出的一定是一个二分图. 接下来我来证明一下: 因为 ...
MySQL的内存表（转）
说明:MySQL内存表可以提升一些临时业务的查询,比如做Session的共享,一些类似缓存的数据等. “内存表”顾名思义创建在内存中的表,真是这样吗?其实不然,MySQL的内存表,表结构创建在磁盘上, ...
vSphere 6.5支持512e，NVMe SSD呢？
原创 2017-01-12 朱朋博金笑雨企事录 2016年底,VMware终于宣布,从vSphere 6.5开始支持512e扇区格式了. 这当然是好事.不过,不黑不舒服斯基说:原来以前的版本连51 ...
Java利用Mybatis进行数据权限控制
权限控制主要分为两块,认证(Authentication)与授权(Authorization).认证之后确认了身份正确,业务系统就会进行授权,现在业界比较流行的模型就是RBAC(Role-Based ...