map端join

package my.hadoop.hdfs.mapreduceJoin;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URI;

import java.net.URISyntaxException;

import java.util.HashMap;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  * 当商品表比较小只有几十个(比如小米手机)，但是订单表比较大(一年卖几千万)此时

  * 如果将每个产品用一个reduce处理时那就可能出现小米书包只有几万，数据，但是小米手机就有100万的数据，

  * 出现负载不均衡，数据倾斜的情况。

  * @author lq

  *

  */

public class MapsideJoin {

    public static class FindFriendMapper extends

            Mapper<LongWritable, Text, AllInfoBean, NullWritable> {

        FileSplit fileSplit = null;

        String filename = null;

        Map<String,String> pdinfo = new HashMap<String,String>();

        @Override

        protected void setup(

                Mapper<LongWritable, Text, AllInfoBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            //文件和程序已经在同一个路径（splist。xml。wc，）

        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("product")));

        String line  = null;

        while ((line  = br.readLine())!=null){

            String[] split = line.split(",");

            pdinfo.put(split[0], split[1]);

        }

        // 关闭流

        br.close();

        }

        AllInfoBean bean = new AllInfoBean();

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            // 获取文件名字的方法

            // 判断用的是哪个文件

                String[] cols = value.toString().split(",");

                bean.setOderid(Integer.parseInt(cols[0]));

                bean.setDate(cols[1]);

                bean.setPid(cols[2]);

                bean.setAmount(Integer.parseInt(cols[3]));

                bean.setPname(pdinfo.get(cols[2])==null? "" : pdinfo.get(cols[2]));

                bean.setPrice("");

                bean.setCategory_id("");

            context.write(bean, NullWritable.get());

        }

    }

 //不要reduce

    /*public static class FindFriendReducer extends

            Reducer<Text, AllInfoBean, AllInfoBean, NullWritable> {

        @Override

        protected void reduce(Text Keyin, Iterable<AllInfoBean> values,

                Context context) throws IOException, InterruptedException {

            for(AllInfoBean bean : values){

                context.write(bean, NullWritable.get());

            }

        }

    }*/

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException, URISyntaxException {

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        job.setJarByClass(MapsideJoin.class);

        job.setMapperClass(FindFriendMapper.class);

        //不指定reduce

        //job.setReducerClass(FindFriendReducer.class);

        //指定最终输出的数据kv类型

        //job.setMapOutputKeyClass(Text.class);

        //job.setMapOutputValueClass(AllInfoBean.class);

        job.setNumReduceTasks(0);//设置不运行reduce

        job.setOutputKeyClass(AllInfoBean.class);

        job.setOutputValueClass(NullWritable.class);

        //第三方jar包使用这个路径指定，本地和hdfs都可以

        //job.addArchiveToClassPath(archive);

        //job

        job.addCacheFile(new URI("hdfs://mini2:9000/Rjoin/dat2/product"));//缓存其他节点

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean res = job.waitForCompletion(true);

        System.exit(res ? 0 :1);

    }

}

map端join的更多相关文章

hadoop的压缩解压缩,reduce端join,map端join
hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别 ...
Hadoop_22_MapReduce map端join实现方式解决数据倾斜（DistributedCache）
1.Map端Join解决数据倾斜 1.Mapreduce中会将map输出的kv对,按照相同key分组(调用getPartition),然后分发给不同的reducetask 2.Map输出结果的时候 ...
第2节 mapreduce深入学习：16、17、map端的join算法的实现
map端的join算法,适用于小表join大表的时候,一次性把小表的数据全部装载到内存当中来: 代码: MapJoinMain: package cn.itcast.demo5.mapJoin; im ...
hadoop 多表join：Map side join及Reduce side join范例
最近在准备抽取数据的工作.有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集.id数据集合中每一个行就是一个id的字符串(Reduce side join要在每 ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...
Hadoop的Map侧join
写了关于Hadoop下载地址的Map侧join 和Reduce的join,今天我们就来在看另外一种比较中立的Join. SemiJoin,一般称为半链接,其原理是在Map侧过滤掉了一些不需要join的 ...
Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端内容整理
下午对着源码看陆喜恒. Hadoop实战(第2版)6.4.1 (Shuffle和排序)Map端,发现与Hadoop 1.2.1的源码有些出入.下面作个简单的记录,方便起见,引用自书本的语句都用斜体表 ...
MapReduce在Map端的Combiner和在Reduce端的Partitioner
1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: /** * 以文本 * hello you * he ...
Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重
package com.bank.service; import java.io.IOException; import org.apache.hadoop.conf.Configuration;im ...

随机推荐

数学【p2613】【模板】有理数取余(费马小定理)
题目描述给出一个有理数 c=a/b ,求 c mod 19260817的值. 说明对于所有数据, 0≤a,b≤10^10001 分析: 一看题这么短哇简单!况且19260817还是个素数!(美 ...
[51Nod1487]占领资源
题目大意: 有一个$n\times m(x,m\leq 100)$的网格图,每个格子有一个权值$w_{i,j}(1\leq w_{i,j}\leq 9)$.你可以在图中选两个格子,每个格子$(x,y ...
十. 图形界面(GUI)设计1.图形界面设计基础
早先程序使用最简单的输入输出方式,用户在键盘输入数据,程序将信息输出在屏幕上.现代程序要求使用图形用户界面(Graphical User Interface,GUI),界面中有菜单.按钮等,用户通过鼠 ...
kaptcha验证码
@Action("/validimg") public String validimg() throws Exception { genernateCaptchaImage(); ...
delphi怎样编译LINUX程序
delphi编译LINUX程序 DELPHI XE 10.2(TOKYO)开始可以开发LINUX控制台程序. 1)上传PASERVER到LINUX,并且运行PASERVER. 2)开始编译,PROFI ...
重要的ui组件——Behavior
v7包下的组件类似CoordinatorLayout推出也有一段时间了,大家使用的时候应该会体会到其中很多的便利,今天这篇文章带大家来了解一个比较重要的ui组件——Behavior.从字面意思上就可以 ...
kubernetes社区项目生态概览
原文 http://dockone.io/article/2075 作为容器集群管理技术的最流行的技术,kubernetes,自从2014在github上开源后,已经通过多个项目形成了一个生态,以下 ...
[置顶] kubernetes资源类型--PetSets/StatefulSet
PetSet首次在K8S1.4版本中,在1.5更名为StatefulSet.除了改了名字之外,这一API对象并没有太大变化. 注意:以下内容的验证环境为CentOS7.K8S版本1.5.2,并部署Sk ...
数据库读写锁的实现（C++）
一.基本概念在数据库中,对某数据的两个基本操作为写和读.分布有两种锁控制:排它锁(X锁).共享锁(S锁). 排它锁(x锁):若事务T对数据D加X锁,则其他不论什么事务都不能再对D加不论什么类型的锁. ...
ylb：事务处理
ylbtech_sqlserver --1.定义三个变量分别保存你的姓名,年龄和身高,然后赋值并且输出 --DECLARE @name varchar(10) , @age int , @height ...

map端join

map端join的更多相关文章

随机推荐

热门专题