数据类型的选择

自定义数据类型

参考:Hadoop提交作业自定义排序和分组

MapWritable/SortedMapWritable

Hadoop中可传输的Map集合,和Java中的Map用法差不多,但是可以用与mapper和reducer之间的数据传输

Map输出不同类型的Value

使用自定义的数据类型继承自GenericWritable可以实现在mapper中输出多个不同类型的value

//使用这个数据类型将可以输出IntWritable和Text两种类型的value
public class MultiValueWritable extends GenericWritable{
private static Class[] CLASSES = new Class{
IntWritable.class,
Text.class
} public MultiValueWritable(){
} public MultiValueWritable(Writable value){
set(value);
} protected Class[] getTypes(){
return CLASSES;
}
}

mapper中context.write的时候可以使用如下的格式:

context.write(key,new MultiValueWritable(new Text("1")));
context.write(key,new MultiValueWritable(IntWritable Text(1)));

reducer的Values迭代器中可以通过这种方式来判断value是那种数据类型:

Writable value = value.get();
if(value instanceof Text){
...
}

选择合适的InputFormat/OutputFormat

基本上每个InputFormat都会有一个对应的OutputFormat

TextInputFormat

默认的输入格式,按行读取,key为每行偏移量,value为行的内容

NLineInputFormat

可以指定一次数据文件多少行的内容:

//设置一次读取50行的内容
NLineInputFormat.setNumLinesPerSplit(job,50);

SequenceFileInputFormat

输入的格式为keylen,key,valuelen,value,适合用于多个job之间的数据连接

DBInputFormat

处理数据库输入,待使用测试

自定义的InputFormat

参考:自定义分片策略解决大量小文件问题

同时处理不同类型的输入

参考:多个Mapper和Reducer处理多个输入

Partitioner的选择

TotalOrderPartitioner

对所有reducer中的结果进行排序,默认情况下每个reducer中的内容都是各自排序互不影响的

自定义partitioner

参考:Hadoop作业中自定义分区和归约

KeyFieldBasedPartitioner

在分区的时候mapper的key部分会参与计算

配合参数

map.output.key.field.separator
num.key.fields.for.partition

指定分隔符和要参与分区的字符索引

例如:key=”name-price”,指定map.output.key.field.separator=”-“,num.key.fields.for.partition=1表示key的price部分参与分区计算

二次排序

setSortComparatorClass

map中每个分区调用进行排序,reduce中shuffle之后再次调用

setGroupingComparatorClass

第二次排序,属于同一组的顺序记录并放入同一个value迭代器

分布式缓存的使用

参考:MapReduce中的DistributedCache

作者:@小黑

MapReduce开发技巧的更多相关文章

  1. SQL开发技巧(二)

    本系列文章旨在收集在开发过程中遇到的一些常用的SQL语句,然后整理归档,本系列文章基于SQLServer系列,且版本为SQLServer2005及以上-- 文章系列目录 SQL开发技巧(一) SQL开 ...

  2. 基于 Eclipse 的 MapReduce 开发环境搭建

    文 / vincentzh 原文连接:http://www.cnblogs.com/vincentzh/p/6055850.html 上周末本来要写这篇的,结果没想到上周末自己环境都没有搭起来,运行起 ...

  3. DelphiXE2 DataSnap开发技巧收集

    DelphiXE2 DataSnap开发技巧收集 作者:  2012-08-07 09:12:52     分类:Delphi     标签: 作为DelphiXE2 DataSnap开发的私家锦囊, ...

  4. delphi XE5下安卓开发技巧

    delphi XE5下安卓开发技巧 一.手机快捷方式显示中文名称 project->options->Version Info-label(改成需要显示的中文名即可),但是需要安装到安卓手 ...

  5. 经典收藏 50个jQuery Mobile开发技巧集萃

    http://www.cnblogs.com/chu888chu888/archive/2011/11/10/2244181.html 1.Backbone移动实例 这是在Safari中运行的一款Ba ...

  6. 移动 Web 开发技巧之(后续)

    昨天的<移动 Web 开发技巧>的这篇文章,大家反响不错,因为这些问题在大家日常写移动端的页面时经常遇到的.所以那个文章还是超级实用的,那么我们今天继续来分享一下移动端的web开发技巧吧, ...

  7. Maven 安装以及一些开发技巧

    解压 apache-maven-3.2.5 在conf ->sites中配置repository 的路径. Eclipse 配置 maven 2. 3. 一些小BUG 或开发技巧 eclipse ...

  8. thinkphp开发技巧经验分享

    thinkphp开发技巧经验分享 www.111cn.net 编辑:flyfox 来源:转载 这里我给大家总结一个朋友学习thinkphp时的一些笔记了,从变量到内置模板引擎及系统变量等等的笔记了,同 ...

  9. Java 8的五大开发技巧

    转载:http://geek.csdn.net/news/detail/94219 在Java 9发布之前,我们来分享一些Java 8开发技巧,本文翻译自JetBrains高级开发主管Trisha G ...

随机推荐

  1. 自定义mvc验证特性,手机号号段老增加,给自定义一个RegularExpress

    public class PhoneExpressionAttribute: RegularExpressionAttribute, IClientValidatable { public Phone ...

  2. 【WPF】生成二维码

    第一步,下载Google的ZXing类库,以便引用: BitMatrix bitMatrix; private void Button_Click_1(object sender, RoutedEve ...

  3. 【C#】日期格式转换

    C#里内置的DateTime基本上都可以实现这些功能,巧用DateTime会使你处理这些事来变轻松多了今天DateTime.Now.Date.ToShortDateString();昨天,就是今天的日 ...

  4. Java throw throws try...catch区别

    java里的异常多种多样,这是一种非常有用的机制,它能帮助我们处理那些我们未知的错误,在java里,关于异常的有throw throws,还有一个try catch 程序块.接下来我们挨个看看这几个的 ...

  5. Django+Nginx+uwsgi搭建自己的博客(二)

    在上一篇博客中,为大家介绍了Django的一些基本概念以及建立了第一个App——Users,并且在数据库中建立了对应的表. 在这篇博客中,将为大家继续介绍数据库模型的定义和相关操作,以及Users A ...

  6. Python的环境搭建——万丈高楼平地起

    Python的环境搭建,远程连接,端口映射,虚拟机 写在正文之前 python语言的开发环境还是相对比较简单的,但是也是有很多需要注意的地方,对于初次接触python或者以前很少用到虚拟环境的朋友来说 ...

  7. bash shell 关系

    linux的bash和shell关系 shell通俗理解:把用户输入的命令翻译给操作系统. shell 是一个交互性命令解释器.shell独立于操作系统,这种设计让用户可以灵活选择适合自己的shell ...

  8. Unity Shader基础

    Unity Shader基础 先上代码,代码一般是这样的. void Initialization(){ //先从硬盘加载代码再加载到GPU中 string vertexShaderCode = Lo ...

  9. Divisible by Seven CodeForces - 376C (数论)

    You have number a, whose decimal representation quite luckily contains digits 1, 6, 8, 9. Rearrange ...

  10. 单点登录 SSO, 自动登录 , java 加密,ssl原理, Tomcat配置SSL

    韩梦飞沙  韩亚飞  313134555@qq.com  yue31313  han_meng_fei_sha 单点登录的英文简称为SSO(single sign on),单点登录功能使得用户只要登录 ...