关于MapReduce中自定义分区类(四)
MapTask类
if(useNewApi){runNewMapper(job, splitMetaInfo, umbilical, reporter);}
@SuppressWarnings("unchecked")private<INKEY,INVALUE,OUTKEY,OUTVALUE>void runNewMapper(final JobConf job,final TaskSplitIndex splitIndex,final TaskUmbilicalProtocol umbilical,TaskReporter reporter) throws IOException,ClassNotFoundException,InterruptedException{// make a task context so we can get the classesorg.apache.hadoop.mapreduce.TaskAttemptContext taskContext =new org.apache.hadoop.mapreduce.task.TaskAttemptContextImpl(job,getTaskID(),reporter);// make a mapperorg.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE> mapper =(org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>)ReflectionUtils.newInstance(taskContext.getMapperClass(), job);// make the input formatorg.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat =(org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)ReflectionUtils.newInstance(taskContext.getInputFormatClass(), job);// rebuild the input splitorg.apache.hadoop.mapreduce.InputSplit split = null;split = getSplitDetails(newPath(splitIndex.getSplitLocation()),splitIndex.getStartOffset());LOG.info("Processing split: "+ split);org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =newNewTrackingRecordReader<INKEY,INVALUE>(split, inputFormat, reporter, taskContext);job.setBoolean(JobContext.SKIP_RECORDS, isSkipping());org.apache.hadoop.mapreduce.RecordWriter output = null;// get an output objectif(job.getNumReduceTasks()==0){output = 如果jreduce个数等于0.则执行该方法newNewDirectOutputCollector(taskContext, job, umbilical, reporter);}else{如果reduce个数大于0.则执行该方法output =newNewOutputCollector(taskContext, job, umbilical, reporter);}org.apache.hadoop.mapreduce.MapContext<INKEY, INVALUE, OUTKEY, OUTVALUE>mapContext =newMapContextImpl<INKEY, INVALUE, OUTKEY, OUTVALUE>(job, getTaskID(),input, output,committer,reporter, split);org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.ContextmapperContext =newWrappedMapper<INKEY, INVALUE, OUTKEY, OUTVALUE>().getMapContext(mapContext);try{input.initialize(split, mapperContext);mapper.run(mapperContext);mapPhase.complete();setPhase(TaskStatus.Phase.SORT);statusUpdate(umbilical);input.close();input = null;output.close(mapperContext);output = null;} finally {closeQuietly(input);closeQuietly(output, mapperContext);}}
// get an output objectif(job.getNumReduceTasks()==0){output = 如果jreduce个数等于0.则执行该方法newNewDirectOutputCollector(taskContext, job, umbilical, reporter);}else{如果reduce个数大于0.则执行该方法output =newNewOutputCollector(taskContext, job, umbilical, reporter);}
NewOutputCollector(org.apache.hadoop.mapreduce.JobContext jobContext,JobConf job,TaskUmbilicalProtocol umbilical,TaskReporter reporter) throws IOException,ClassNotFoundException{collector = createSortingCollector(job, reporter);partitions = jobContext.getNumReduceTasks();if(partitions >1){partitioner =(org.apache.hadoop.mapreduce.Partitioner<K,V>)ReflectionUtils.newInstance(jobContext.getPartitionerClass(), job);}else{partitioner =new org.apache.hadoop.mapreduce.Partitioner<K,V>(){@Overridepublicint getPartition(K key, V value,int numPartitions){return partitions -1;}};}}
/*** Get the {@link Partitioner} class for the job.** @return the {@link Partitioner} class for the job.*/publicClass<? extends Partitioner<?,?>> getPartitionerClass()throws ClassNotFoundException;
/*** Get the {@link Partitioner} class for the job.** @return the {@link Partitioner} class for the job.*/@SuppressWarnings("unchecked")publicClass<? extends Partitioner<?,?>> getPartitionerClass()throws ClassNotFoundException{return(Class<? extends Partitioner<?,?>>)conf.getClass(PARTITIONER_CLASS_ATTR,HashPartitioner.class);}
publicclassHashPartitioner<K, V>extendsPartitioner<K, V>{/** Use {@link Object#hashCode()} to partition. */publicint getPartition(K key, V value,int numReduceTasks){return(key.hashCode()&Integer.MAX_VALUE)% numReduceTasks;}}
@Overridepublicint hashCode(){final int prime =31;int result =1;result = prime * result +((account == null)?0: account.hashCode());// result = prime * result + ((amount == null) ? 0 : amount.hashCode());return result;}
publicstaticclassKeyPartitioner extends Partitioner<SelfKey,DoubleWritable>{@Overridepublicint getPartition(SelfKey key,DoubleWritable value,int numPartitions){/*** 如何保证数据整体输出上的有序,需要我们自定义业务逻辑* 必须提示前知道num reduce task 个数?* \w 单词字符[a-zA-Z_0-9]**/String account =key.getAccount();//0xxaaabbb 0-9//[0-2][3-6][7-9]if(account.matches("\\w*[0-2]")){return0;}elseif(account.matches("\\w*[3-6]")){return1;}elseif(account.matches("\\w*[7-9]")){return2;}return0;}}
关于MapReduce中自定义分区类(四)的更多相关文章
- 关于MapReduce中自定义分组类(三)
Job类 /** * Define the comparator that controls which keys are grouped together * for a single ...
- 关于MapReduce中自定义Combine类(一)
MRJobConfig public static fina COMBINE_CLASS_ATTR 属性COMBINE_CLASS_ATTR = "mapreduce.j ...
- 在hadoop作业中自定义分区和归约
当遇到有特殊的业务需求时,需要对hadoop的作业进行分区处理 那么我们可以通过自定义的分区类来实现 还是通过单词计数的例子,JMapper和JReducer的代码不变,只是在JSubmit中改变了设 ...
- 关于MapReduce中自定义带比较key类、比较器类(二)——初学者从源码查看其原理
Job类 /** * Define the comparator that controls * how the keys are sorted before they * are pa ...
- MapReduce之自定义分区器Partitioner
@ 目录 问题引出 默认Partitioner分区 自定义Partitioner步骤 Partition分区案例实操 分区总结 问题引出 要求将统计结果按照条件输出到不同文件中(分区). 比如:将统计 ...
- python3.4中自定义数组类(即重写数组类)
'''自定义数组类,实现数组中数字之间的四则运算,内积运算,大小比较,数组元素访问修改及成员测试等功能''' class MyArray: '''保证输入值为数字元素(整型,浮点型,复数)''' de ...
- flask中自定义日志类
一:项目架构 二:自定义日志类 1. 建立log.conf的配置文件 log.conf [log] LOG_PATH = /log/ LOG_NAME = info.log 2. 定义日志类 LogC ...
- 读取SequenceFile中自定义Writable类型值
1)hadoop允许程序员创建自定义的数据类型,如果是key则必须要继承WritableComparable,因为key要参与排序,而value只需要继承Writable就可以了.以下定义一个Doub ...
- Java中自定义注解类,并加以运用
在Java框架中,经常会使用注解,而且还可以省很多事,来了解下自定义注解. 注解是一种能被添加到java代码中的元数据,类.方法.变量.参数和包都可以用注解来修饰.注解对于它所修饰的代码并没有直接的影 ...
随机推荐
- 2、实现不同子网之间的信息交流(互相可以PING通)
一.环境: 二个不同的虚拟子网 VMnet1: 192.168.155.0/24 VMnet8: 192.168.170.0/24 编辑 --> 虚拟网络编辑器 (查看自己的子网,相应修改就行) ...
- 添加WoSign根证书到JDK
由于某些“众所周知”的原因,Azure中国版使用了国内的WoSign证书——和臭名昭著的CNNIC有的一拼.Apple是不信任WoSign证书的,这也是为什么用Mac OS中访问www.azure.c ...
- Linux 内核版本命名
Linux 内核版本命名在不同的时期有其不同的规范,我们熟悉的也许是 2.x 版本奇数表示开发版.偶数表示稳定版,但到 2.6.x 以及 3.x 甚至将来的 4.x ,内核版本命名都不遵守这样的约定. ...
- 完整部署CentOS7.2+OpenStack+kvm 云平台环境(3)--为虚拟机指定固定ip
之前在测试环境(centos7.2)上部署了openstack云平台(完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建),openstack在neutron组网 ...
- DrawerLayout 和 NavigationView 的使用
参考: 1.NavigationView 的使用 2.NavigationView更改菜单icon和title颜色变化效果 3.Android 自己实现 NavigationView 转了第一篇 ...
- 用上了ReSharper
用上了ReSharper,发现很爽1.使用var2.去掉无用的using3.将foreach改为linq let4.字符串为cost5.作用域与变量名适配6.文件夹与namespace不匹配7.去掉为 ...
- python基础补漏-06-其他常用模块
JSON/Pickle: 首先我们要明白 什么事序列化--> 就是进行不同程序之间的数据交换 那JSON 和Pickle是什么鬼... 就是不同的方式而已 import json name = ...
- c风格字符串
1.字符数组截取 有当然有了,应均包含在<string.h>中. 有strncpy,strncat.可以帮你从任何位置,取得任意合法长度的字符串. 用法基本同strcpy,strcat. ...
- the user operation is waiting
eclipse在编辑完代码保存的时候,弹出一个进度框,等N长时间,标题是"user operation is waiting",里面显示的是building workspace的进 ...
- 微博轻量级RPC框架Motan
Motan 是微博技术团队研发的基于 Java 的轻量级 RPC 框架,已在微博内部大规模应用多年,每天稳定支撑微博上亿次的内部调用.Motan 基于微博的高并发和高负载场景优化,成为一套简单.易用. ...