hadoop传递参数方法总结

转自：http://blog.csdn.net/xichenguan/article/details/22162813

写MapReduce程序通常要传递各种各样的参数，选择合适的方式来传递参数既能提高工作效率，也可以避免bug的产生。根据参数的大小，可以粗略的分为以下几种。

最直接的方式就是使用Configuration的各种set方法，对于基本数据类型都有很好的支持，比如传递kmeans聚类算法的中心点个数。

如何传递一个对象型参数？话说所有的对象都是由基本类型构建的，所以我们可以覆盖这个对象的toString()方法，将它的所有元素表示成字符串，然后使用Configuration.set(name, value)传递这个字符串。然后在Mapper端获得这个字符串，做析构。这种朴素的方法有两个缺点。首先，将对象变成字符串会有精度上的损失，比如 double类型转换成字符串，不仅精度有损失，而且8字节的空间用字符串来表示可能会变成几十字节。其次，由于字符串化和反字符串化分散在不同的地方，很容易产生bug，如果修改了这个对象的结构，这种bug产生的几率非常大。既然有这种需求存在，难道hadoop没有提供nice点的方法吗？有，不过在api文档中没有直接说明。

正确的方法是，让这个对象实现Writable接口，使它具有序列化的能力，然后使用org.apache.hadoop.io.DefaultStringifier的store(conf, obj, keyname)和load(conf, keyname, itemclass)静态方法设置和获取这个对象。他的主要思想就是将这个对象序列化成一个字节数组后，用Base64编码成一个字符串，然后传递给 conf, 解析的时候与之类似。

如何传递更大的参数，比如分词用的语料库等等？可以使用hadoop的缓存文件DistributedCache。

1、使用configuration的set()和get()方法，这里的name和value都是String型

Configuration.set(name, value)

Configuration.get(name)

这种方法适合基本数据类型的传递。

2、使用Stringifier 接口。

DefaultStringifier.store(conf, object ,"key");

将object以序列化后以指定的key存在conf中。

object = DefaultStringifier.load(conf, "key", variableClass );

从conf中取出object。

需要指出的是使用第二种方法的对象必须是可序列化的。Hadoop的序列化是通过Writable接口来实现的，在org.apache.hadoop.io包下包含了大量的可序列化的组件，它们都实现了Writable接口，Writable接口提供了两个方法，write和readFields，分别用来序列化和反序列化，实现该接口的典型例子如下：

package com.sanyuan.resource.xml.Entity;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
public class PublishUrl implements Writable {
private static final long serialVersionUID = 1L;
private Text url;
private Text title;
public PublishUrl(){
this.url = new Text();
this.title = new Text();
}
public Text getUrl() {
return url;
}
public void setUrl(Text url) {
this.url = url;
}
public Text getTitle() {
return title;
}
public void setTitle(Text title) {
this.title = title;
}
@Override
public void readFields(DataInput in) throws IOException {
url.readFields(in);
title.readFields(in);
}
@Override
public void write(DataOutput out) throws IOException {
url.write(out);
title.write(out);
}
}
3、如果是一些更大的object，是不能放在conf中传递的，这就需要用到DistributedCache或者Hdfs文件系统。

hadoop传递参数方法总结的更多相关文章

C++中三种传递参数方法的效率分析
众所周知,在C++中有三种参数传递的方式: 按值传递(pass by value) #include <iostream> using namespace std; void swap(i ...
JavaScript传递参数方法
1.SetTimer传递参数 setTimeout(function (obj) { obj.myScroll = new IScroll('#wrapper', { click: true }); ...
JSF拦截ajax请求并传递参数方法
我们可以利用f:ajax做一些简单的ajax操作,但是遇到复杂的逻辑,它不能简单的去实现,jsf提供了一种方法,可以调用它内部的js方法去实现复杂的逻辑. 首先要在页面引入jsf的js文件: < ...
ASP.NET 页面之间传递参数方法
1.通过URL链接地址传递 (1) send.aspx代码 protected void Button1_Click(object sender, EventArgs e) { Request.Red ...
js的click事件传递参数方法
参考链接:http://www.cnblogs.com/shytong/p/5005704.html 由于是回调函数,事先就需要先把数据储存在event上,否则只能用全局变量做为参数传递,建议用bin ...
转：Web页面通过URL地址传递参数常见问题及检测方法
Web页面即我们在浏览器中所看到的网页,在Web应用程序中,其页面往往需要进行动态切换和数据交互,页面间的数据常规传递方法有多种,本文主要介绍Web页面处理程序中常见的URL地址参数传递方法,包括概述 ...
ios页面间传递参数四种方式
ios页面间传递参数四种方式 1.使用SharedApplication,定义一个变量来传递. 2.使用文件,或者NSUserdefault来传递 3.通过一个单例的class来传递 4.通过Dele ...
Net线程足迹传递参数至线程
方法一:应用ParameterizedThreadStart这个委托来传递输入参数,这种方法适用于传递单个参数的情况. using System; using System.Collections.G ...
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map.reduce函数传递参数. 2 使用Streaming编写MapReduce程序(C/C++ ...

随机推荐

hdu 3264 Open-air shopping malls（圆相交面积+二分）
Open-air shopping malls Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/ ...
神经网络入门——8XOR感知器
XOR 感知器 XOR 感知器就是一个这样的逻辑门:输入相同返回 0 ,输入不同返回 1.与之前的感知器不同,这里并不是线性可分的.要处理这类较为复杂的问题,我们需要把感知器连接起来. 我们用 ...
jsp获取后端java路由返回值
html: <input type="hidden" id="tableName" value="${id}"> javascr ...
mybatis 嵌套查询与懒加载
懒加载:对于页面有很多静态资源的情况下(比如网商购物页面),为了节省用户流量和提高页面性能,可以在用户浏览到当前资源的时候,再对资源进行请求和加载. fetchType="lazy" ...
vue 生成二维码 qrCode 插件使用方法
首先安装方法:(--save 参数会改变package.json 推荐使用下次直接install就行了) npm install --save qrcode 然后项目使用: import QRCod ...
H3C 在网络中的正确位置配置ACL包过滤
uni-app 常用框架内置方法更新中 .....
获取登录信息,getStorage 初始化页面数据请求下拉刷新页面加载更多点击跳转个人中心 uni.request(OBJECT) success=成功 fail=失 ...
UVA 11996 Jewel Magic —— splay、序列的分裂与合并、LCP的哈希算法
#include <cstdio> #include <cstdlib> #include <iostream> #include <algorithm> ...
linux主次编号
字符设备通过文件系统中的名子来存取. 那些名子称为文件系统的特殊文件, 或者设备文件, 或者文件系统的简单结点; 惯例上它们位于 /dev 目录. 字符驱动的特殊文件由使用 ls -l 的输出的第一 ...
linux内核符号表
我们已经看到 insmod 如何对应共用的内核符号来解决未定义的符号. 表中包含了全局内核项的地址 -- 函数和变量 -- 需要来完成模块化的驱动. 当加载一个模块, 如何由模块输出的符号成为内核 ...

hadoop传递参数方法总结

hadoop传递参数方法总结的更多相关文章

随机推荐

热门专题