python 实现Hadoop的partitioner和二次排序

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Partition->Reduce->Output。

Partition负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。

Hadoop 提供了一个很有用的partitioner类KeyFieldBasedPartitioner，通过配置对应的參数就能够使用。通过 KeyFieldBasedPartitioner能够方便地实现二次排序。

用法：

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

一般配合：

-D map.output.key.field.separator

-D num.key.fields.for.partition使用。

map.output.key.field.separator指定key内部的分隔符

num.key.fields.for.partition指定对key分出来的前几部分做partition而不是整个key

演示样例：

1. 编写map程序mapper.sh；reduce程序reducer.sh; 測试数据test.txt

view plain

mapper.sh:

#!/bin/sh cat

reducer.sh:

#!/bin/sh sort

test.txt内容：

1,2,1,1,1

1,2,2,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

1,2,3,1,1

1,3,1,1,1

1,3,2,1,1

1,3,3,1,1

2. 測试数据test.txt放入hdfs，执行map-reduce程序

view plain

$ hadoop streaming /

-D stream.map.output.field.separator=, /

-D stream.num.map.output.key.fields=4 /

-D map.output.key.field.separator=, /

-D num.key.fields.for.partition=2 /

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner /

-input /app/test/test.txt /

-output /app/test/test_result /

-mapper ./mapper.sh /

-reducer ./reducer.sh /

-file mapper.sh /

-file reducer.sh /

-jobconf mapre.job.name="sep_test"

$ hadoop fs –cat /app/test/test_result/part-00003

1,2,1,1 1

1,2,2,1 1

1,2,3,1 1

$ hadoop fs –cat /app/test/test_result/part-00004

1,3,1,1 1

1,3,2,1 1

1,3,3,1 1

通过这样的方式，就做到前4个字段是key，可是通过前两个字段进行partition的目的

注意：

-D map.output.key.field.separator=, /

这个分隔符使用TAB键貌似无论用

Hadoop Streaming 是一个工具，取代编写Java的实现类，而利用可运行程序来完毕map-reduce过程

工作流程　：　

InputFile --> mappers --> [Partitioner] --> reducers -->
outputFiles

理解 :　

1 输入文件，能够是指定远程文件系统内的目录下的 *

2 通过集群自己分解到各个PC上，每一个mapper是一个可运行文件，对应的启动一个进程，来实现你的逻辑

3 mapper　的输入为标准输入，所以，不论什么可以支持标准输入的可运行的东西，c,c++(编译出来的可运行文件),python,......都可以作
为mapper 和 reducer　mapper的输出为标准输出，假设有Partitioner,就给它，假设没有，它的输出将作为reducer的输入

4 Partitioner 为可选的项，二次排序，能够对结果进行分类打到结果文件中面,它的输入是mapper的标准输出，它的输出，将作为reducer的标准输入

5 reducer 同 mapper

6 输出目录，在远端文件不能重名

Hadoop Streaming

1 ： hadoop-streaming.jar 的位置： $HADOOP_HOME/contrib/streaming
内

官方上面关于hadoop-streaming 的介绍已经非常具体了，并且也有了关于python的样例，我就不说了,这里总结下自己的经验

1 指定 mapper or reducer 的 task 官方上说要用 -jobconf　可是这个參数已经过时，不能够用了，官方说要用
-D, 注意这个-D是要作为最開始的配置出现的，由于是在maper 和 reducer　运行之前，就须要硬性指定好的，所以要出如今參数的最前面 ./bin/hadoop jar hadoop-0.19.2-streaming.jar -D .........-input ........　类似这样，这样，即使你程序最后仅仅指定了一个输出管道，可是还是会有你指定的task数量的结果文件，仅仅只是多余的就是空的　实验下面就知道了

2 关于二次排序，因为是用的streaming 所以，在可运行文件内，仅仅可以处理逻辑，还有就是输出，当然我们也可以指定二次排序，可是因为是所有參数化，不是非常灵活。比方:

10.2.3.40    1

11.22.33.33    1

www.renren.com 1

www.baidu.com    1

10.2.3.40    1

这样一个非常规整的输入文件，需求是要把记录独立的ip和url的count　可是输出文件要分切割出来。

官方站点的样例，是指定 key　然后对key 指定主-key　和 key　用来排序，而主-key 用来二次排序，这样会输出你想要的东西，　可是对于上面最简单的需求，对于传递參数，我们怎样做呢?

事实上我们还是能够利用这一点，在我们mapper　里面，还是依照/t来切割key value　可是我们要给key指定一个主-key　用来给Partitioner
来实现二次排序，所以我们能够略微处理下这个KEY,我们能够简单的推断出来ip　和 url　的差别，这样，我们就人为的加上一个主-key　我们在mapper里面，给每一个key人为的加上一个"标签"，用来给partitioner做二次排序用，比方我们的mapper的输出是这样

D&10.2.3.40    1

D&11.22.33.33    1

W&www.renren.com 1

W&www.baidu.com    1

D&10.2.3.40    1

然后通过传递命令參数

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner //指定要求二次排序

-jobconf map.output.key.field.separator='&'　//这里假设不加两个单引號的话我的命令会死掉

-jobconf num.key.fields.for.partition=1　//这里指第一个 &　符号来切割，保证不会出错

这样我们就能够通过 partitioner　来实现二次排序了

在reducer里面，我们再把"标签"摘掉(不费吹灰之力)就能够做到悄无声息的完毕二次排序了。

3:　关于模块化

(强调　：　没有在集群上測试，仅仅在单机上做測试)

程序猿最悲剧的就是不能代码复用，做这个也一样，用hadoop-streaming　也一样，要做到代码重用，是我第一个考虑的问题

当我看到 -file(具体能够看官方站点上的解说)　的时候，我就想到利用这个东西，果然，我的在本机上建立了一个py模块，简单的一个函数

然后在我的mapper里面import 它，本地測试通过后，利用-file　把模块所在的问价夹用 -file moudle/*　这个參数，传入streaming

运行的结果毫无错误，这样，我们就能够抽象出来一些模块的东西，来实现我们模块化的需求

注 : 不要忘记 chmod +x *.py 　将py　变成可运行的，不然不能够运行

代码 :　

1: 模块代码 mg.py 用来给 mapper　贴标签

def mgFunction(line):

        if(line[0] >= '0' and line[0] <= '9'):

                return "D&" + line

        return "W&" + line

2: mapper.py

#!/usr/bin/env python

import sys

sys.path.append('/home/liuguoqing/Desktop/hadoop-0.19.2/moudle')

import mg

for line in sys.stdin:

        line = mg.mgFunction(line)

        line = line.strip()

#       print line

        words = line.split()

        print '%s\t%s' % (words[0], words[1])

3: reducer.py

#!/usr/bin/env python

import sys

user_login_day = {}

for line in sys.stdin:

        line = line[2:]//去掉帽子

        line = line.strip()

        userid, day = line.split('\t', 1)

        user_login_day[userid] = user_login_day.get(userid, 0) + 1

for uid in user_login_day.keys():

        print '%s\t%d' % (uid, user_login_day[uid])

这样就实现了模块化的能够二次排序的hadoop-streaming

命令　

./bin/hadoop jar hadoop-0.19.2-streaming.jar \

#streaming jar

-D mapred.reduce.tasks=2  \

#指定2个reduce来处理

-input user_login_day-input2/*  \

#指定输入文件　能够用 dir/*　方式

-output user_login_day-output102

#指定输出目录

-mapper ~/Desktop/hadoop-0.19.2/python/mapper/get_user_login_day_back.py  \

#指定mapper　可运行文件我用全路径，好像用相对路径会出错...

-reducer ~/Desktop/hadoop-0.19.2/python/reducer/get_user_login_day_back.py
\

#指定reducer 可运行文件　

-file ~/Desktop/hadoop-0.19.2/moudle/* \

#指定模块化的库文件 dir/*　模式

-partitioner
org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \此处报错-partitioner:
command not found

#指定 partitioner　參数为class

-jobconf map.output.key.field.separator='&' \

#指定　主-key　的切割符号为 '&'

-jobconf num.key.fields.for.partition=1

#指定为第一个‘&’

liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$
./bin/hadoop jar hadoop-0.19.2-streaming.jar -D mapred.reduce.tasks=2 -input user_login_day-input2/* -output user_login_day-output102 -mapper ~/Desktop/hadoop-0.19.2/python/mapper/get_user_login_day_back.py -reducer ~/Desktop/hadoop-0.19.2/python/reducer/get_user_login_day_back.py
-file ~/Desktop/hadoop-0.19.2/moudle/* -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner -jobconf map.output.key.field.separator='&' -jobconf num.key.fields.for.partition=1

10/01/24 03:19:15 WARN streaming.StreamJob: -jobconf option
is deprecated, please use -D instead.

packageJobJar: [/home/liuguoqing/Desktop/hadoop-0.19.2/moudle/mg.py,
/home/liuguoqing/Desktop/hadoop-0.19.2/moudle/mg.pyc, /tmp/hadoop-liuguoqing/hadoop-unjar6780057097425964518/] [] /tmp/streamjob3100401358387519950.jar tmpDir=null

10/01/24 03:19:15 INFO mapred.FileInputFormat: Total input
paths to process : 2

10/01/24 03:19:15 INFO streaming.StreamJob: getLocalDirs():
[/tmp/hadoop-liuguoqing/mapred/local]

10/01/24 03:19:15 INFO streaming.StreamJob: Running job:
job_201001221008_0065

10/01/24 03:19:15 INFO streaming.StreamJob: To kill this
job, run:

10/01/24 03:19:15 INFO streaming.StreamJob: /home/liuguoqing/Desktop/hadoop-0.19.2/bin/../bin/hadoop
job  -Dmapred.job.tracker=hdfs://localhost:9881 -kill job_201001221008_0065

10/01/24 03:19:15 INFO streaming.StreamJob: Tracking URL:
http://localhost:50030/jobdetails.jsp?jobid=job_201001221008_0065

10/01/24 03:19:16 INFO streaming.StreamJob:  map 0%  reduce
0%

10/01/24 03:19:17 INFO streaming.StreamJob:  map 33%  reduce
0%

10/01/24 03:19:18 INFO streaming.StreamJob:  map 67%  reduce
0%

10/01/24 03:19:19 INFO streaming.StreamJob:  map 100%  reduce
0%

10/01/24 03:19:27 INFO streaming.StreamJob:  map 100%  reduce
50%

10/01/24 03:19:32 INFO streaming.StreamJob:  map 100%  reduce
100%

10/01/24 03:19:32 INFO streaming.StreamJob: Job complete:
job_201001221008_0065

10/01/24 03:19:32 INFO streaming.StreamJob: Output: user_login_day-output102

liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$
./bin/hadoop dfs -ls user_login_day-output102

Found 3 items

drwxr-xr-x   - liuguoqing supergroup          0
2010-01-24 03:19 /user/liuguoqing/user_login_day-output102/_logs

-rw-r--r--   1 liuguoqing supergroup         25
2010-01-24 03:19 /user/liuguoqing/user_login_day-output102/part-00000

-rw-r--r--   1 liuguoqing supergroup         47
2010-01-24 03:19 /user/liuguoqing/user_login_day-output102/part-00001

liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$
./bin/hadoop dfs -cat user_login_day-output102/part-00000

54321    2

99999    1

12345    12

liuguoqing@liuguoqing-desktop:~/Desktop/hadoop-0.19.2$
./bin/hadoop dfs -cat user_login_day-output102/part-00001

http://www.renren.com    3

http://www.baidu.com    3

以上为操作结果显示

python 实现Hadoop的partitioner和二次排序的更多相关文章

Hadoop学习之自定义二次排序
一.概述 MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的.在我们实际的需求当中,往往有要对reduce输出结果进行二次排 ...
分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
Hadoop Mapreduce分区、分组、二次排序过程详解[转]
原文地址:Hadoop Mapreduce分区.分组.二次排序过程详解[转]作者: 徐海蛟教学用途 1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2) ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...
Hadoop MapReduce 二次排序原理及其应用
关于二次排序主要涉及到这么几个东西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputValueGrou ...
Hadoop Mapreduce分区、分组、二次排序
1.MapReduce中数据流动 (1)最简单的过程: map - reduce (2)定制了partitioner以将map的结果送往指定reducer的过程: map - partiti ...
一起学Hadoop——二次排序算法的实现
二次排序,从字面上可以理解为在对key排序的基础上对key所对应的值value排序,也叫辅助排序.一般情况下,MapReduce框架只对key排序,而不对key所对应的值排序,因此value的排序经常 ...
Hadoop案例（八）辅助排序和二次排序案例（GroupingComparator）
辅助排序和二次排序案例(GroupingComparator) 1.需求有如下订单数据订单id 商品id 成交金额 0000001 Pdt_01 222.8 0000001 Pdt_05 25.8 ...
如何使用Hadoop的Partitioner
如何使用Hadoop的Partitioner 博客分类: Hadoop hadooppartition Hadoop里面的MapReduce编程模型,非常灵活,大部分环节我们都可以重写它的API,来灵 ...

随机推荐

spring源码分析---IOC(1)
我们都知道spring有2个最重要的概念,IOC(控制反转)和AOP(依赖注入).今天我就分享一下spring源码的IOC. IOC的定义:直观的来说,就是由spring来负责控制对象的生命周期和对象 ...
Single Image Haze Removal(图像去雾)-CVPR’09 Best Paper
公式推导 paper闪光点找到了一个很简洁的假设. paper不足代码跑起来很慢.据说2010年的ECCV那篇是改进的.
解决类似 /usr/lib64/libstdc++.so.6: version `GLIBCXX_3.4.21' not found 的问题
https://itbilu.com/linux/management/NymXRUieg.html
Web前端开发最佳实践（6）：过时的块状元素和行内元素
前言前端程序员在学习HTML的过程中,肯定接触过页面元素的两个基本类型:块状元素和行内元素,也有大量的技术文章或者教程在介绍这两个概念.但这两个HTML元素相关的概念从字面上却和CSS样式有着很深的 ...
Robot Framework Selenium(RFS ：web自动化测试神器)
Robot Framework 目录 1简介 2特性 3RIDE 1.简介: Robot Framework是一款python编写的功能自动化测试框架.具备良好的可扩展性,支持关键字驱动,可以同时测试 ...
bzoj 1101 莫比乌斯反演
最裸的莫比乌斯 #include<bits/stdc++.h> #define LL long long #define fi first #define se second #defin ...
洛谷P1221 最多因子数 [搜索，数学]
题目传送门最多因子数目描述数学家们喜欢各种类型的有奇怪特性的数.例如,他们认为945是一个有趣的数,因为它是第一个所有约数之和大于本身的奇数. 为了帮助他们寻找有趣的数,你将写一个程序扫描一定范 ...
Python并发编程-一个简单的爬虫
一个简单的爬虫 #网页状态码 #200 正常 #404 网页找不到 #502 504 import requests from multiprocessing import Pool def get( ...
`__pycache__` 是什么
为了提高模块加载的速度,每个模块都会在 __pycache__ 文件夹中放置该模块的预编译模块,命名为 module.version.pyc, version 是模块的预编译版本编码,一般都包含 Py ...
Git 无法拉取，Unlink of file '.git/objects/pack/pack-***.pack' failed. Should I try again? (y/n)
现象 Git 无法拉取,提示: Unlink of file '.git/objects/pack/pack-***.pack' failed. Should I try again? (y/n) 原 ...

python 实现Hadoop的partitioner和二次排序

python 实现Hadoop的partitioner和二次排序的更多相关文章

随机推荐

热门专题