hadoop 指定 key value分隔符

OnTheWay_duking 2024-07-27 07:23:52 原文

原文：http://wingmzy.iteye.com/blog/1260570

hadoop中的map-reduce是处理<key,value>这样的键值对，故指定<key,value>的分割符等参数可以分成三类：

map输出时分割符

分桶时的分隔符

reduce输出时的分割符

下面分别叙述：

1. map输出时分割符

参数：

stream.map.output.field.separator

作用：

指定map输出时的分割符

stream.num.map.output.key.fields

指定输出按照分隔符切割后，key所占有的列数

举例：

input数据：

2,2,c,c,c,c

参数配置：

-mapper "cat" # map 为分布式的cat命令

-reducer "" #reduce为空 /

-jobconf stream.map.output.field.separator=',' /

-jobconf stream.num.map.output.key.fields=2 /

即按照','逗号分隔后，去前2列作为key

output数据：

2,2 c,c,c,c #其中key为2,2 value为c,c,c,c

2. 分桶时的分隔符

map.output.key.field.separator

指定map输出<key,value>对之后，其中key内部的分割符

num.key.fields.for.partition

指定分桶时，按照分隔符切割后，用于分桶key所占的列数

举例：

map的output数据：

2,2 c,c,c,c

参数配置：
-jobconf map.output.key.field.separator=',' /
-jobconf num.key.fields.for.partition='1' /
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

output数据：

这样用于partition分桶的key就为：2

注意，这里分桶不应该用默认的HashPartitioner

3. reduce输出时的分割符

这个与map类似，分别用于reduce输出时分隔符以及key占有的列数

stream.reduce.output.field.separator

stream.num.reduce.output.key.fields

也可以通过代码实现，如下

mapreduce 默认情况下 key/value 分隔符为：“\t”
测试的输出如下：

我们可以在代码中进行设置来自定义 key/value 输出分隔符：在代码中添加如下一行代码：

conf.set("mapred.textoutputformat.separator", ";"); //此处以”；“作为分割符，后边介绍为什么这么修改

修改代码后，测试修改结果：

修改原因：
我们checkout hadoop-1.2.1版本
打开文件：TextOutputFormat.java

我们可以看到如下一行代码：
String keyValueSeparator= conf.get("mapred.textoutputformat.separator",
"\t");
代码的意思是：读取设置的key/value输出分隔符，如果没有读取到，默认使用 "\t"
所以我们就在任务执行前设置名称为：mapred.textoutputformat.separator 的自定义值即可

hadoop 指定 key value分隔符的更多相关文章

高效率遍历Map以及在循环过程中移除 remove指定key
//高效率遍历Map以及在循环过程中移除 remove指定key //使用iter循环的时候可以在循环中移除key,for在循环的过程中移除会报错哦 //本方法效率高 Iterator iter = ...
如何从二维数组中的多个key中获取指定key的值？
精华 LOVEME96 2016-10-21 10:40:19 浏览(1512) 回答(3) 赞(0) 新手求教:二维数组中一般会有多个key,如果我们要获得指定key的值,应该怎么做? 问题标签: ...
C++ map修改指定key的value
对于修改C++指定key的value,网上查了很多,都说直接insert就会覆盖原来的值,是否是这样的呢? C++ Code 12345678910111213141516171819202122 ...
Flink 自定义source和sink，获取kafka的key，输出指定key
--------20190905更新------- 沙雕了,可以用 JSONKeyValueDeserializationSchema,接收ObjectNode的数据,如果有key,会放在Objec ...
使用python同时替换json多个指定key的value
1.如何同时替换json多个指定key的value import json from jsonpath_ng import parse def join_paths(regx_path,new_val ...
Redis【知识点】批量删除指定Key
Redis中有删除单条数据的命令DEL但是他没有批量删除多条数据的方法,那我们怎么去批量删除多条数据呢! 第一种方式 /work/app/redis/bin/redis-cli -a youpassw ...
JDK8 HashMap--getTreeNode()获取红黑树指定key的节点
/*获取红黑树的指定节点*/ final TreeNode<K,V> getTreeNode(int h, Object k) { return ((parent != null) ? r ...
Hbase rest方式获取指定key范围内的值
代码如下: <?php class Monitor_Hbase{ private $rest_host = "http://10.99.90.39:8130/";//rest ...
PHP递归获取二维数组中指定key的值
$data = [ "resulterrorCode" => 0, "resultraw" => [ "result" => ...

随机推荐

unison+inotify 同步web代码并排除指定目录不同步
unison + inotify 实现web 数据双向同步 unison 是一款跨平台的文件同步对象,不仅支撑本地对本地同步,也支持通过SSH,RSH和Socket 等网络协议进行同步.unis ...
基于Boost无锁队列实现的内存池
【BZOJ2384】[Ceoi2011]Match KMP
[BZOJ2384][Ceoi2011]Match Description 作为新一轮广告大战的一部分,格丁尼亚的一家大公司准备在城市的某处设置公司的标志(logo).公司经理决定用一些整栋的建筑来构 ...
二、docker入门
docker入门使用场景: 面向产品.面向开发.面向测试.面向运维.面向自动化.面向微服务.面向大规模的分布式架构(微信红包) 虚拟化解决方案: 商业解决方案: VMware vSphere,VMw ...
dfs-求连通块
状态:若为W则继续搜索 import java.util.Scanner; public class Main { static int n,m; static char[][] field; sta ...
Nginx敏感信息泄露漏洞（CVE-2017-7529）
2017年7月11日,为了修复整数溢出漏洞(CVE-2017-7529), Nginx官方发布了nginx-1.12.1 stable和nginx-1.13.3 mainline版本,并且提供了官方p ...
java设计模式学习 ----- 工厂方法模式（Factory Method）
工厂方法模式(Factory Method) 工厂方法模式分为三种:普通工厂模式.多个工厂方法模式.静态工厂方法模式普通工厂模式,就是建立一个工厂类,对实现了同一接口的一些类进行实例的创建. 关系图 ...
获取JDBC响应做接口关联
1:从sql表中将需要取的数据查出来 2:我们需要把这个id为4451的数据从sql里面取出来,传到下一个sql里面,执行删除 3:写一个接口的传参有些不同,变成了var_id_1.var_id是之前 ...
Python多进程multiprocessing
import multiprocessing import time # 具体的处理函数,负责处理单个任务 def func(msg): # for i in range(3): print (msg ...
试着利用BAPI 寻找F-59创建凭证的函数
功能块代码 F-59开发类 FIBP事务说明支付请求事物:FBP1Screen 0BKPF-BLART = AB________________________________________从程 ...