MR-join连接

package com.bw.mr;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.HashMap;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MapJoin {

    // 两个文件都在内存中 一个机器的内存中

    // 通过集合放入一个机器的内存中

    // 通过map任务放入内存中

    // join连接共有的属性连接

    public static class JMapper extends Mapper<LongWritable, Text, Text, NullWritable> {

        // 将user放入内存中

        private Map<String, String> map = new HashMap<String, String>();

        // 重新setup方法 运行在map前面

        @Override

        protected void setup(Mapper<LongWritable, Text, Text, NullWritable>.Context context)

                throws IOException, InterruptedException {

            // 创建连接

            FileSystem fs = FileSystem.get(context.getConfiguration());

            // user01.txt hdfs 拉取信息 到内存map

            FSDataInputStream in = fs.open(new Path("hdfs://linux04:9000/user.txt"));

            // 读取 BufferedReader 读取器

            BufferedReader bf = new BufferedReader(new InputStreamReader(in));

            // 一行一行读取

            String line = null;

            while ((line = bf.readLine()) != null) {

                String[] split = line.split(" ");

                map.put(split[], split[] + " " + split[] + " " + split[]);

            }

            bf.close();

            in.close();

        }

        @Override

        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, NullWritable>.Context context)

                throws IOException, InterruptedException {

            String[] strs = value.toString().split(" ");

            String orderId = strs[];

            String uid = strs[];

            String money = strs[];

            //join 的uid 关联】

            String productInfo = map.get(uid);

            context.write(new Text(orderId+" "+uid+" "+productInfo), NullWritable.get());

        }

    }

    public static void main(String[] args) throws Exception {

        Configuration conf =new  Configuration();

        Job job = Job.getInstance(conf);

        job.setJarByClass(MapJoin.class);

        job.setMapperClass(JMapper.class);

        job.setMapOutputKeyClass(Text.class);

        job.setMapOutputValueClass(NullWritable.class);

        job.setNumReduceTasks();

        FileInputFormat.addInputPath(job,new Path(args[]));

        FileOutputFormat.setOutputPath(job, new Path(args[]));

        job.waitForCompletion(true);

    }

}

MR-join连接的更多相关文章

CROSS JOIN连接用于生成两张表的笛卡尔集
将两张表的情况全部列举出来结果表: 列= 原表列数相加行= 原表行数相乘 CROSS JOIN连接用于生成两张表的笛卡尔集. 在sql中cross join的使用: 1.返回的记录数为两个 ...
数据库（学习整理）----7--Oracle多表查询，三种join连接
聚合函数:(都会忽略null数据) 常用的有5种:将字段中所有的数据聚合在一条中 .sum(字段名) :求总和 .avg(字段名) :求平均值 .max(字段名) :求最大值 .min(字段名) :求 ...
一起学Hive——总结各种Join连接的用法
Hive支持常用的SQL join语句,例如内连接.左外连接.右外连接以及HiVe独有的map端连接.其中map端连接是用于优化Hive连接查询的一个重要技巧. 在介绍各种连接之前,先准备好表和数据. ...
左连接LEFT JOIN 连接自己时的查询结果测试
#左连接LEFT JOIN 连接自己时的查询结果测试 #左连接LEFT JOIN 连接自己时的查询结果(都会出现两个重复字段),两个表都有as后只能查询相等条件merchant_shop_id非nul ...
【SQL】各取所需 | SQL JOIN连接查询各种用法总结
前面在实际应用中,大多的查询都是需要多表连接查询的,但很多初学SQL的小伙伴总对各种JOIN有些迷糊.回想一下,初期很长一段时间,我常用的似乎也就是等值连接 WHERE 后面加等号,对各种JOIN也 ...
图解 5 种 Join 连接及实战案例！（inner/ left/ right/ full/ cross）
Join 连接在日常开发用得比较多,但大家都搞清楚了它们的使用区别吗??一文带你上车~~ 内连接 inner join 内连接是基于连接谓词将俩张表(如A和B)的列组合到一起产生新的结果表,在表中存在 ...
UNION JOIN 连接表
使用UNION JOIN进行多表连接,与9.3节介绍的各种表的连接类型不同,它并不对表中的数据进行任何匹配处理,而只是把来自一个源表中的行与另一个源表中的行联合起来,生成的结果表中包括第一个表中的所有 ...
MySQL之表、列别名及各种JOIN连接详解
MySQL在SQL中,合理的别名可以让SQL更容易以及可读性更高.别名使用as来表示,可以分为表别名和列别名,别名应该是先定义后使用才对,所以首先要了解sql的执行顺序(1) from(2) on(3 ...
总结的MR中连接操作
1 reduce side join在map端加上标记, 在reduce容器保存,然后作笛卡尔积缺点: 有可能oom 2 map side join 2.1 利用内存和分布式缓存,也有oom风险 2 ...
SQL Join(连接查询)
1.连接查询分为: inner join(自然连接,自连接) Left join(左连接)/Left outer join(左外连接):效果一样 Right join(右连接)/Right outer ...

随机推荐

Python300篇电子书免费送
此电子书集合由猪哥整理,免费发布于微信公众号:裸睡的猪. 此电子书集合将持续更新,获取最新电子书集合请关注微信公众号:裸睡的猪,回复:电子书此电子书集合仅用作个人学习,请勿用于商业获利!!! 获取方式 ...
Python就业指导
一年一度的金三银四招聘旺季又要到了,最近有很多同学希望我能给他们一些关于python的就业指导:之前出过一期关于java的就业指导,但是并不是很完善,所以希望这期关于python的就业指导能够很全面很 ...
javaScript设计模式之面向对象编程（object-oriented programming，OOP）(一)
面试的时候,总会被问到,你对javascript面向对象的理解? 面向对象编程(object-oriented programming,OOP)是一种程序设计范型.它讲对象作为程序的设计基本单元,讲程 ...
Entity Framework 异常： 'OFFSET' 附近有语法错误。\r\n在 FETCH 语句中选项 NEXT 的用法无效。
在使用 EF 的时候,突然发现更新后在服务器中运行出错,异常信息主要包含以下信息: 'OFFSET' 附近有语法错误.\r\n在 FETCH 语句中选项 NEXT 的用法无效.\r\n关键字 'AS' ...
TabBottomFragmentLayout【自定义底部选项卡区域（搭配Fragment）】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言自定义底部选项卡布局LinearLayout类,然后配合Fragment,实现切换Fragment功能. 缺点: 1.底部选项卡区域 ...
GlideNewDemo【Glide4.7.1版本的简单使用以及圆角功能】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言简单记录下Glide4.7.1版本的使用和实现圆角方案. 注意:关于详细使用请仔细阅读<官方指南>. 效果图使用步骤 ...
PhotoPickerNewDemo【PhotoPicker0.9.12的个性化修改以及使用（内部glide版本号是4.1.1）】
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言本Demo使用的是PhotoPicker 0.9.12版本,里面集成的glide版本号是4.1.1.这里就不进行特殊的个性化处理了( ...
ACM：读入优化
两个简单的读入优化 int getin(){ ;; while(!isdigit(tmp=getchar()) && tmp!='-'); ,tmp=getchar(); )+(ans ...
Springboot 系列（十）使用 Spring data jpa 访问数据库
前言 Springboot data jpa 和 Spring jdbc 同属于 Spring开源组织,在 Spring jdbc 之后又开发了持久层框架,很明显 Spring data jpa 相对 ...
还在问跨域？本文记录js跨域的多种实现实例
前言众所周知,受浏览器同源策略的影响,产生了跨域问题,那么我们应该如何实现跨域呢?本文记录几种跨域的简单实现前期准备为了方便测试,我们启动两个服务,10086(就是在这篇博客自动生成的项目,请戳 ...

MR-join连接

MR-join连接的更多相关文章

随机推荐

热门专题