map端join

package my.hadoop.hdfs.mapreduceJoin;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URI;

import java.net.URISyntaxException;

import java.util.HashMap;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  * 当商品表比较小只有几十个(比如小米手机)，但是订单表比较大(一年卖几千万)此时

  * 如果将每个产品用一个reduce处理时那就可能出现小米书包只有几万，数据，但是小米手机就有100万的数据，

  * 出现负载不均衡，数据倾斜的情况。

  * @author lq

  *

  */

public class MapsideJoin {

    public static class FindFriendMapper extends

            Mapper<LongWritable, Text, AllInfoBean, NullWritable> {

        FileSplit fileSplit = null;

        String filename = null;

        Map<String,String> pdinfo = new HashMap<String,String>();

        @Override

        protected void setup(

                Mapper<LongWritable, Text, AllInfoBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            //文件和程序已经在同一个路径（splist。xml。wc，）

        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("product")));

        String line  = null;

        while ((line  = br.readLine())!=null){

            String[] split = line.split(",");

            pdinfo.put(split[0], split[1]);

        }

        // 关闭流

        br.close();

        }

        AllInfoBean bean = new AllInfoBean();

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            // 获取文件名字的方法

            // 判断用的是哪个文件

                String[] cols = value.toString().split(",");

                bean.setOderid(Integer.parseInt(cols[0]));

                bean.setDate(cols[1]);

                bean.setPid(cols[2]);

                bean.setAmount(Integer.parseInt(cols[3]));

                bean.setPname(pdinfo.get(cols[2])==null? "" : pdinfo.get(cols[2]));

                bean.setPrice("");

                bean.setCategory_id("");

            context.write(bean, NullWritable.get());

        }

    }

 //不要reduce

    /*public static class FindFriendReducer extends

            Reducer<Text, AllInfoBean, AllInfoBean, NullWritable> {

        @Override

        protected void reduce(Text Keyin, Iterable<AllInfoBean> values,

                Context context) throws IOException, InterruptedException {

            for(AllInfoBean bean : values){

                context.write(bean, NullWritable.get());

            }

        }

    }*/

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException, URISyntaxException {

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        job.setJarByClass(MapsideJoin.class);

        job.setMapperClass(FindFriendMapper.class);

        //不指定reduce

        //job.setReducerClass(FindFriendReducer.class);

        //指定最终输出的数据kv类型

        //job.setMapOutputKeyClass(Text.class);

        //job.setMapOutputValueClass(AllInfoBean.class);

        job.setNumReduceTasks(0);//设置不运行reduce

        job.setOutputKeyClass(AllInfoBean.class);

        job.setOutputValueClass(NullWritable.class);

        //第三方jar包使用这个路径指定，本地和hdfs都可以

        //job.addArchiveToClassPath(archive);

        //job

        job.addCacheFile(new URI("hdfs://mini2:9000/Rjoin/dat2/product"));//缓存其他节点

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean res = job.waitForCompletion(true);

        System.exit(res ? 0 :1);

    }

}

map端join的更多相关文章

hadoop的压缩解压缩,reduce端join,map端join
hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别 ...
Hadoop_22_MapReduce map端join实现方式解决数据倾斜（DistributedCache）
1.Map端Join解决数据倾斜 1.Mapreduce中会将map输出的kv对,按照相同key分组(调用getPartition),然后分发给不同的reducetask 2.Map输出结果的时候 ...
第2节 mapreduce深入学习：16、17、map端的join算法的实现
map端的join算法,适用于小表join大表的时候,一次性把小表的数据全部装载到内存当中来: 代码: MapJoinMain: package cn.itcast.demo5.mapJoin; im ...
hadoop 多表join：Map side join及Reduce side join范例
最近在准备抽取数据的工作.有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集.id数据集合中每一个行就是一个id的字符串(Reduce side join要在每 ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...
Hadoop的Map侧join
写了关于Hadoop下载地址的Map侧join 和Reduce的join,今天我们就来在看另外一种比较中立的Join. SemiJoin,一般称为半链接,其原理是在Map侧过滤掉了一些不需要join的 ...
Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端内容整理
下午对着源码看陆喜恒. Hadoop实战(第2版)6.4.1 (Shuffle和排序)Map端,发现与Hadoop 1.2.1的源码有些出入.下面作个简单的记录,方便起见,引用自书本的语句都用斜体表 ...
MapReduce在Map端的Combiner和在Reduce端的Partitioner
1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: /** * 以文本 * hello you * he ...
Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重
package com.bank.service; import java.io.IOException; import org.apache.hadoop.conf.Configuration;im ...

随机推荐

Linq 连接运算符：Concat,Union
//Concat()方法附加两个相同类型的序列,并返回一个新序列(集合)IList<string> strList = new List<string>() { "O ...
LA 3026 Period
这只是蓝书上的一道KMP水题...然后对于最长前缀的循环证明我就不说了... #include<iostream> #include<cstring> #include< ...
图床plus演示 | 图床及在线分享演示文稿工具
文章目录关于图床什么是图床? 墙内墙外关于在线分享演示文稿在线分享演示文稿工具分享待补充关于图床什么是图床? 这并不是一个多么高大上的名词概念!用比较通俗的话来说,当你在撰写新文章时 ...
C语言基础之scanf函数的使用
0.自己实际遇到的坑 Mac下如果用标准键盘,使用scanf输入时不能用小键盘上的回车,否则系统不能很好的识别. 1.scanf函数的基本使用 1: // 定义一个变量,用来保存用户输入的整数 2: ...
DEDECMS首页和列表页调用单个图片集里的多张图片
/**DEDECMS首页和列表页调用单个图片集里的多张图片 function Getimg($aid,$imgwith=110,$imgheight=110,$num=0) { global $dsq ...
让用VS2012/VS2013编写的程序在XP中顺利执行
微软为了推销自家平台,默认配置下VS2012和VS2013编写的应用程序仅仅能在Vista/Win7/Win8上执行.但幸好还保留了生成XP程序的设置项.XP和Win2003的用户还是大量存在的,我们 ...
Delphi之过程与函数
过程以保留字procedure开始,没有返回值:函数以保留字function开始,有返回值. 参数位于括号里面,多个参数之间以分号分隔,例如: procedure SetDate(Year: Inte ...
Vue表单和组件
一.表单 v-model 指令在表单控件元素上创建双向数据绑定,v-model 会根据控件类型自动选取正确的方法来更新元素. <input v-model="message" ...
ElasticSearch5.5.2：Windows下ElasticSearch安装配置
环境 1.Windows10企业版X64 2.JDK-1.8 3.ElasticSearch-5.5.2 4.elasticsearch-head插件 5.node-v6.11.2-x64.msi 1 ...
Java程序猿修炼之道之 Logging(3/3) - 怎么分析Log
1. 说明作为一个程序猿我们常常要做一件事情:获取某个Log文件,从当中找出自己想要的信息. 本文总结了我在工作中使用了哪些工具来分析Log文件获取我想要的信息,我近期几年的工作环境都是server ...

map端join

map端join的更多相关文章

随机推荐

热门专题