hadoop streaming怎么设置key

充分利用hadoop的map输出自动排序功能，能够有效提高计算效率。
Hadoop streaming框架默认情况下会以'/t’作为分隔符，将每行第一个'/t’之前的部分作为key，其余内容作为value，如果没有'/t’分隔符，则整行作为key；这个key/tvalue对又作为该map对应的reduce的输入。
实际上，通过设置参数，可以根据需要将约定满足要求的数据分布到同一个reducer，又可以通过设置map执行参数将数据内容进行一定的排序，从而提高在reducer中的计算效率。

hadoop 中可以提供配置供用户自主设置的分隔符：
-D stream.map.output.field.separator ：设置map输出中key和value的分隔符
-D stream.num.map.output.key.fields ：设置map程序分隔符的位置，该位置之前的部分作为key，之后的部分作为value
-D map.output.key.field.separator : 设置map输出中key内部的分割符——备注：基于该分隔符，shuffle对key数值进行排序
-D num.key.fields.for.partition : 指定分桶时，key按照分隔符切割后，其中用于分桶key所占的列数（配合-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 使用）
-D stream.reduce.output.field.separator：设置reduce输出中key和value的分隔符
-D stream.num.reduce.output.key.fields：设置reduce程序分隔符的位置

比如下面的输入数据例子，想要基于前两个数值进行hash分桶，将数据分布到同一个reducer，另一方面又想将前四个数字进行排序。需要这样设置：
-D stream.map.output.field.separator=,
-D stream.num.map.output.key.fields=4
-D map.output.key.field.separator=,
-D num.key.fields.for.partition=2

 1,2,1,1,1

 1,2,2,1,1

 1,3,1,1,1

 1,3,2,1,1

 1,3,3,1,1

 1,2,3,1,1

 1,3,1,1,1

 1,3,2,1,1

 1,3,3,1,1

hadoop streaming怎么设置key的更多相关文章

Hadoop Streaming框架使用（一）
Streaming简介 link:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html Streaming框架允许任何程 ...
hadoop streaming 编程
概况 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程.一个最简单的程序 $HADOOP_HOME/bin/hadoop jar ...
Hadoop Streaming框架学习2
Hadoop Streaming框架学习(二) 1.常用Streaming命令介绍使用下面的命令运行Streaming MapReduce程序: 1: $HADOOP_HOME/bin/hadoop ...
hadoop streaming编程小demo(python版)
大数据团队搞数据质量评测.自动化质检和监控平台是用django,MR也是通过python实现的.(后来发现有orc压缩问题,python不知道怎么解决,正在改成java版本) 这里展示一个python ...
Hadoop Streaming详解
一: Hadoop Streaming详解 1.Streaming的作用 Hadoop Streaming框架,最大的好处是,让任何语言编写的map, reduce程序能够在hadoop集群上运行:m ...
用python + hadoop streaming 编写分布式程序（三） -- 自定义功能
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍 ...
Hadoop Streaming
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/streaming.html Hadoop Streaming Streaming工作原理将文件打包到提交的 ...
hadoop streaming 文档
Hadoop Streaming框架使用(一) Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植.因 ...
Hadoop Streaming框架学习（二）
1.常用Streaming命令介绍使用下面的命令运行Streaming MapReduce程序: 1: $HADOOP_HOME/bin/hadoop/hadoop streaming args 其 ...

随机推荐

让人一看就懂的excel相对引用和绝对引用案例解析
http://www.ittribalwo.com/article/2831.html 内容提要:本文的excel相对引用和绝对引用.混合引用的使用方法案例截选自<Excel效率手册早做完,不 ...
斐讯K2刷不死breed与第三方固件教程
本文主要就是简单的斐讯 K2 刷机教程,方便大家了解一下 K2 怎样刷固件.斐讯 K2 是一款 1200M AC 双频无线路由器,支持 5G 和 2.4G WiFi 信号,虽然缺少 USB 且只有百兆 ...
storm事务
1. storm 事务对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一 ...
父窗口和 iframe 互相访问
在父窗口中获取iframe中的元素 1. 格式:window.frames["iframe的name值"].document.getElementByIdx_x("ifr ...
3944: Sum[杜教筛]
3944: Sum Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 3471 Solved: 946[Submit][Status][Discuss] ...
Minix中的字符判定ctype.c
minix中关于如何判定一个字符的类型,如大写.小写.数字…… 如果采用传统的方法,如判断一个字母大写的方法: if(c>='A' && c<'Z') return tru ...
Altium Designer 输出 gerber 光绘文件的详细说明
Altium Designer 输出 gerber 光绘文件的详细说明 PCB画好后,我们需要输出光绘文件交给制版厂家.由此,输出光绘文件的重要性就显出来了. 先复习一下介绍各层的定义吧,哈哈 (1) ...
一个简单web系统的接口性能分析及调优过程
在测试一个简单系统接口性能压力时,压到一定数量,程序总是崩溃,查看相关机器相关数据时,CPU.内存.IO占用均不高,问题自然出现在其它地方先介绍下系统部件架构 Resin版本为:[root@local ...
jsp页面获取参数的方法（url解析、el表达式赋值、session取值）【原创】
最近使用myEclispse做网站,使用jsp+js+css做页面,网站中常用到从列表进入详情页面的跳转,下面对详情页面的值填充方式做一个简单总结: 1.url中使用request获取参数 jsp上方 ...
AJAX之三种数据传输格式详解
一.HTML HTML由一些普通文本组成.如果服务器通过XMLHTTPRequest发送HTML,文本将存储在responseText属性中. 从服务器端发送的HTML的代码在浏览器端不需要用Java ...

hadoop streaming怎么设置key

hadoop streaming怎么设置key的更多相关文章

随机推荐

热门专题