hadoop streaming字段排序介绍

我们在使用hadoop streaming的时候默认streaming的map和reduce的separator不指定的话，map和reduce会根据它们默认的分隔符来进行排序

map、reduce：默认的分隔符是\t（读入数据）

得到的结果都是按第一个分隔符排序去重后的结果

假设我们的有这么一列数据：USER IP DIR

我们想得到某一个用户的某一个ip的一系列dir，那我们应该怎么办呢？

这里我们就会用到streaming map和reduce的separator来指定key来进行排序和去重

1.默认情况

在hadoop streaming的默认情况下，是以”\t”作为分隔符的。对于标准输入来说，每行的第一个”\t” 以前的部分为key，其他部分为对应的value。如果一个”\t”字符没有，则整行都被当做key。这个

2.map阶段的sort与partition

map阶段很重要的阶段包括sort与partition。排序是按照key来进行的。咱们之前讲了默认的key是由”\t”分隔得到的。我们能不能自己控制相关的sort与partition呢？答案是可以的。

先看以下几个参数：

map.output.key.field.separator： map中key内部的分隔符

num.key.fields.for.partition：分桶时，key按前面指定的分隔符分隔之后，用于分桶的key占的列数。通俗地讲，就是partition时候按照key中的前几列进行划分，相同的key会被打到同一个reduce里。

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 前两个参数，要配合partitioner选项使用！

stream.map.output.field.separator： map中的key与value分隔符

stream.num.map.output.key.fields： map中分隔符的位置

stream.reduce.output.field.separator： reduce中key与value的分隔符

stream.num.reduce.output.key.fields： reduce中分隔符的位置

3.分桶测试实例

准备数据：

$ cat tmp

1,2,1,1,1

1,2,2,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

1,2,3,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

上传到hdfs中。

cat mapper.sh

#!/bin/bash

cat

$ cat reducer.sh

#!/bin/bash

sort

#!/bin/bash

streaming=/usr/lib/hadoop-mapreduce/hadoop-streaming-2.5.0-cdh5.2.0.jar

output=/tmp/wanglei/part_out

if hadoop fs -test -d $output

then

hadoop fs -rm -r $output

hadoop jar $streaming \

-D map.output.key.field.separator=, \

-D num.key.fields.for.partition=2 \

-D stream.reduce.output.field.separator=, \

-D stream.num.reduce.output.key.fields=4 \

-D mapred.reduce.tasks=2 \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

-input /tmp/wanglei/partition \

-output $output \

-mapper "sh mapper.sh" \

-reducer "sh reducer.sh" \

-file mapper.sh \

-file reducer.sh

代码最后的运行结果：

$ hadoop fs -cat /tmp/wanglei/part_out/part-00000

1,3,1,1 1

1,3,2,1 1

1,3,3,1 1

$ hadoop fs -cat /tmp/wanglei/part_out/part-00001

1,2,1,1 1

1,2,2,1 1

1,2,3,1 1

稍微解释一下输出：

1.map阶段，key是按逗号分隔的，partition的阶段取前两个字段，所以前两个字段相同的key都被打到同一个reduce里。这一点从reduce的两个文件结果中就能看出来。

2.reduce阶段通过stream.reduce.output.field.separator指定分隔符为”,”，通过stream.num.reduce.output.key.fields指定前4个字段为key，所以才会有最终的结果。

需要注意的几个小点：

1.之前写的代码，当分发的文件有多个的时候，可以用-files指定。但是加了上面的参数以后，再用-files会报错。具体原因未知。

2.-file 参数必须写在最后面。如果写在-input前面，代码也会报错。具体原因暂时也未知。

3.-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner参数必须指定，否则代码没法输出预期结果。

4.map阶段输出测试实例

stream.map.output.field.separator与stream.num.map.output.key.fields与上面partition一组参数指定map输出格式是一致的。不一样的地方在stream这组参数是真正用于map端的输出，而partition那组参数是用于分桶！

看下测试代码就清楚了：

#!/bin/bash

streaming=/usr/lib/hadoop-mapreduce/hadoop-streaming-2.5.0-cdh5.2.0.jar

output=/tmp/wanglei/part_out_map

if hadoop fs -test -d $output

then

hadoop fs -rm -r $output

hadoop jar $streaming \

-D stream.map.output.field.separator=, \

-D stream.num.map.output.key.fields=2 \

-input /tmp/wanglei/partition \

-output $output \

-mapper "sh mapper.sh" \

-file mapper.sh

$ hadoop fs -cat /tmp/wanglei/part_out_map/*

1,2 3,1,1

1,2 2,1,1

1,2 1,1,1

1,3 3,1,1

1,3 2,1,1

1,3 1,1,1

1,3 3,1,1

1,3 2,1,1

1,3 1,1,1

将reducer部分去掉，只输出mapper的结果。可以看出：

1.mapper阶段输出的k,v以”\t”分隔（框架默认)

2.mapper阶段以”,”分隔，key占了两个字段。

3.mapper阶段按key排序，所以1,2开头的数据在前，1,3开头的数据在后！

hadoop streaming字段排序介绍的更多相关文章

Hadoop streaming 排序、分桶参数设置
编写hadoop任务经常需要用到partition和排序.这里记录一下几个参数. 1. 概念 Partition:分桶过程,用户输出的key经过partition分发到不同的reduce里,因而par ...
用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试
相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streami ...
hadoop streaming 编程
概况 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程.一个最简单的程序 $HADOOP_HOME/bin/hadoop jar ...
hadoop streaming编程小demo(python版)
大数据团队搞数据质量评测.自动化质检和监控平台是用django,MR也是通过python实现的.(后来发现有orc压缩问题,python不知道怎么解决,正在改成java版本) 这里展示一个python ...
Hadoop Streaming详解
一: Hadoop Streaming详解 1.Streaming的作用 Hadoop Streaming框架,最大的好处是,让任何语言编写的map, reduce程序能够在hadoop集群上运行:m ...
用python + hadoop streaming 编写分布式程序（三） -- 自定义功能
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍 ...
Hadoop Streaming框架使用（二）
上一篇文章介绍了Streaming的各种参数,本文具体介绍使用方法. 提交hadoop任务示例: $HADOOP_HOME/bin/hadoop streaming \ -input /user/te ...
Hadoop Streaming
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/streaming.html Hadoop Streaming Streaming工作原理将文件打包到提交的 ...
Hadoop Streaming框架使用（一）
Streaming简介 link:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html Streaming框架允许任何程 ...

随机推荐

他山之石，calling by share——python中既不是传址也不是传值
事情是这样的,Python里是传址还是传值令人疑惑,限于本人没有C基础,所以对大家的各类水平层次不一的解答难以确信. 第一个阶段: 在读<python基础教程第二版>的时候感到疑惑,然后群 ...
Python3环境搭建
Python3环境搭建 Windows系统下安装Python3 Python3 下载 Python3 最新源码,二进制文档,新闻资讯等可以在 Python 的官网查看到: Python 官网:ht ...
Struts 2 概念介绍
概念引入 Web层通常使用Servlet+jsp,现在使用Struts2来处理访问服务器请求 Service层目前使用JavaBean Dao层目前使用Hibernate Spring是一个大的管家 ...
Halcon 标定与准确测量
java 获取微信公众号code为空
失败的原因是没将回调方法encode转换 /** * URL编码(utf-8) * * @param source * @return */ public static String urlEncod ...
JVM调优之JMeter使用（三）
JMeter是Apache 下基于Java 的一款性能测试和压力测试工具.它基于Java 开发,可对HTTP 服务器和FTP服务器,甚至是数据库进行压力测试. 下载地址:http://jmeter.a ...
登录获取token，token参数关联至所有请求的请求体内
问题描述: 有些系统接口判断用户是否登录,是校验登录接口成功后传的token值,也就是请求系统所有接口时,前端传参必带登录成功后接口返回的token,后台以此检验是否过期或是否有登录.所有接口都依赖登 ...
正向代理or反向代理
正向代理我访问不了某网站比如www.google.com,但是我能访问一个代理服务器这个代理服务器呢,它能访问那个我不能访问的网站,于是我先连上代理服务器,告诉它我需要那个无法访问网站的内容,代理 ...
BUAA_OO第一单元作业总结
BUAA_OO第一单元作业总结单元任务第一单元的任务为实现表达式的求导,其中第一次作业是对简单多项式的求导,第二次作业是对包含简单幂函数和简单正余弦函数的多项式的求导,第三次作业是对包含简单幂函数 ...
sql获取当前月份的前一月，当前天的前一天，当前年的前一年
当前年份加减: SELECT CONVERT(varchar(12),DATEADD(year,1,GETDATE()),23) as year SELECT CONVERT(varchar(12), ...

hadoop streaming字段排序介绍

hadoop streaming字段排序介绍的更多相关文章

随机推荐

热门专题