python + Streaming框架的MR实践与优化

Streaming是Hadoop提供的一个可以使用其他编程语言来进行MR编程的API，它使用Unix标准输入输出作为Hadoop和其他编程语言的开发接口，非常轻便。而开发者可以选择自己擅长的编程语言，并且只需要在MR程序中实现计算逻辑后，指定输出即可。

Python可以通过Streaming非常高效地实现MR编程，执行效率也非常快，且基于Python本身的简洁美，特别适合MR的快速开发。

另外，对于Python MR编程，Dumbo, Happy 与 mrjob 也是很好的选择，只是则性能上要逊于Streaming。其中，Dumbo为MR应用提供了更加灵活易用的Python API，它支持将mapper.py与reduce.py封装在一起使用，而Happy则为Jython开发者使用Hadoop框架提供了便利，另外，mrjob则允许用户写多步骤的MapReduce的工作流程。

对于Streaming的实现原理，数据流程，参数设置以及任务执行等方面的介绍，社区有很详细的介绍，本文不再赘述。http://hadoop.apache.org/docs/stable/streaming.html

（一）Map + Reduce

Map阶段按流读入数据，进行字段的拆分以及格式化等操作。

Reduce阶段实现PV, UV的计算

注意：日志文件以不可见字符chr(05)作为分隔符

1. Mapper.py

#!/usr/bin/env python

import sys

for line in sys.stdin:

    line = line.strip()

    word = line.split('\005')

    print '%s\005%s' % (word[9],word[5])   # url + cookie_id

2. Reduce.py #注意：计算UV时, 如果不指定partitioner, 只能设置一个reduce!!!

#!/usr/bin/env python

from operator import itemgetter

import sys

word2count = {}

cookies = set()

for line in sys.stdin:

    url,cookie = line.strip().split('\005')

    coo = '\006'.join([url,str(cookie)])

    try:

        act = word2count.get(url)

        flg = coo in cookies

        if not flg:

            cookies.add(coo)

        if act is None:

            word2count[url] = [1, 1]

        else:

            uv = not flg and 1 or 0

            word2count[url] = [act[0] + 1, act[1] + uv]

    except ValueError:

        sys.exit(1)

#recordsort = sorted(word2count.items(), key=itemgetter(1,0),reverse=True)

recordsort = sorted(word2count.items(), key=lambda word2count:(int(word2count[1][1]),word2count[0]), reverse=True)

for real_url, val in recordsort:

    print '%s\t%s\t%s'% (real_url, val[0], val[1])

（二）执行Streaming：

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-0.19.1-dc-streaming.jar \

    -input /group/alidw/dhwdata1/alilog/CnLog/20130603/23 \

    -output /group/alidw/ali-log/wfs/log \

    -mapper  mapper.py \

    -reducer reduce.py \

    -file /home/dwapp/fusen.wangfs/MR/wfs/mapper.py \

    -file /home/dwapp/fusen.wangfs/MR/wfs/reduce.py \

    -jobconf mapred.reduce.tasks=1 \

    -jobconf mapred.job.name="sum_test"

----可能会报错：java.io.IOException: Task process exit with nonzero status of 137. !!!

---原因：只有一个Reduce，计算节点资源不足(比如：磁盘配额不够)

（三）优化

Streaming保证每个map的输出都是有序的，然而，map与map之间的输出却是局部有序的。而为了计算单页面的PV与UV，就必须设置全局变量，因而强制指定一个reduce进行计算，但这是极其粗鲁的，这显然违背了MR框架的优越性。

优化一：充分利用机器资源，让多个reduce完成计算。

优化二：利用python生成器提升运行效率，节省内存消耗。

1. Mapper.py

#!/usr/bin/env python

"""A more advanced Mapper, using Python iterators and generators."""

import sys

def read_input(file):

    for line in file:

        # split the line into words

        fields = line.split('\005')

        yield (fields[9],fields[5])

def main():

    data = read_input(sys.stdin)

    for field in data:

        print '%s|||%s' % (field[0], field[1])

if __name__ == "__main__":

    main()

2. Reduce.py

#!/usr/bin/env python

"""A more advanced Reducer, using Python iterators and generators."""

import sys

word2count = {}

cookies = set()

def read_mapper_output(file):

    for line in file:

        yield line.rstrip().split('|||')  # url + cookie_id 

def main():

    # input comes from STDIN (standard input)

    data = read_mapper_output(sys.stdin)

    for url,cookie in data:

        coo = '|'.join((url,str(cookie)))

        try:

            act = word2count.get(url)

            flg = coo in cookies

            if not flg:

                cookies.add(coo)

            if act is None:

                word2count[url] = [1, 1]

            else:

                uv = not flg and 1 or 0

                word2count[url] = [act[0] + 1, act[1] + uv]

        except ValueError:

            pass

    recordsort = sorted(word2count.items(), key=lambda word2count:(int(word2count[1][1]),word2count[0]), reverse=True)

    for real_url, val in recordsort:

        print '%s\t%s\t%s'% (real_url, val[0], val[1])

if __name__ == "__main__":

    main()

3. 执行Streaming (优化) ---分组后指定多个Reduce计算

$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-0.19.1-dc-streaming.jar \

-Dstream.map.output.field.separator='+++' \

-D map.output.key.field.separator='|||' \

-D num.key.fields.for.partition=1 \

-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \

-input /group/alidw/dhwdata1/alilog/CnLog/20130607/23 \

-output /group/alibaba-dw-cbu/output/ipage/test/log \

-mapper mapper.py \

-reducer reduce.py \

-file /home/dwapp/fusen.wangfs/MR/wfs/mapper.py \

-file /home/dwapp/fusen.wangfs/MR/wfs/reduce.py \

-jobconf mapred.reduce.tasks=100 \

-jobconf mapred.job.name="sum_test"

python + Streaming框架的MR实践与优化的更多相关文章

Django,Flask,Tornado三大框架对比，Python几种主流框架，13个Python web框架比较，2018年Python web五大主流框架
Django 与 Tornado 各自的优缺点Django优点: 大和全(重量级框架)自带orm,template,view 需要的功能也可以去找第三方的app注重高效开发全自动化的管理后台(只需要使 ...
python三大web框架Django,Flask,Flask，Python几种主流框架，13个Python web框架比较，2018年Python web五大主流框架
Python几种主流框架从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python We ...
Python玩转人工智能最火框架 TensorFlow应用实践 ☝☝☝
Python玩转人工智能最火框架 TensorFlow应用实践 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 全民人工智能时代,不甘心只做一个旁观者,那就现在 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践✍✍✍
基于Python玩转人工智能最火框架 TensorFlow应用实践随着 TensorFlow 在研究及产品中的应用日益广泛,很多开发者及研究者都希望能深入学习这一深度学习框架.而在昨天机器之心发起 ...
基于Python玩转人工智能最火框架 TensorFlow应用实践
慕K网-299元-基于Python玩转人工智能最火框架 TensorFlow应用实践需要联系我,QQ:1844912514
Python玩转人工智能最火框架 TensorFlow应用实践
Python玩转人工智能最火框架 TensorFlow应用实践整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课 ...
Python开源框架
info:更多Django信息url:https://www.oschina.net/p/djangodetail: Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC) ...
Hadoop Streaming框架学习（一）
Hadoop Streaming框架学习(一) Hadoop Streaming框架学习(一) 2013-08-19 12:32 by ATP_, 473 阅读, 3 评论, 收藏, 编辑 1.Had ...
Awesome Python，Python的框架集合
Awesome Python A curated list of awesome Python frameworks, libraries and software. Inspired by awes ...

随机推荐

jxta 2.8x启动了
http://chaupal.github.io/ ———————————————————————————————————————————————————————————————————— 至少两个月 ...
ORA-06519: 检测到活动的自治事务处理，已经回退
写了一个函数,由于在定义时加入了 create or replace function F_计算结果(In_参数 varchar2) return number is --使用自治事务PRAGMA A ...
Spring MVC控制器类名称处理映射
以下示例显示如何使用Spring Web MVC框架使用控制器类名称处理程序映射. ControllerClassNameHandlerMapping类是基于约定的处理程序映射类,它将URL请求映射到 ...
eclipse + pydev 创建django项目
前提条件机器装好python,并装好django插件.(http://blog.csdn.net/lilongjiu/article/details/51405340) 1. 下载eclise Ver ...
C2 CompilerThread0 如果抓到的java线程dump里占用CPU最高的线程是这个，99%可能是因为服务重启了
"C2 CompilerThread0" #5 daemon prio=9 os_prio=0 tid=0x00007f20c80b3800 nid=0x57c0 runnable ...
Carrot2 in action 初步印象
RawCluster:聚类中的类别单位 RawCluster.getDocuments():获得该类的文档列表 RawDocument:每个类的文档单位 STC:后缀树表示法 2008-11-13 C ...
X明X源面试题《二》
一.解释5种访问修饰符答:public-访问不受限制.private-访问范围为它所属的类.protected-访问范围为它所属的类或从该类派生的类.internal-访问范围为当前程序集.prote ...
Kettle 7启动 Spoon.bat 时报错“A Java Exception has occurred.”的解决方法
最近在研究Kettle 时出现启动时报错“A Java Exception has occurred.”的问题.刚开始没搞明白是什么原因,后来发现是jdk版本的问题.出现这个错误原因是 Kettle ...
TP系统常量信息
[系统常量信息] 获取系统常量信息: 如果加参数true,会分组显示: 显示如下: [跨控制器调用] 一个控制器在执行的时候,可以实例化另外一个控制,并通过对象访问其指定方法. 跨控制器调用可以节省我 ...
【BZOJ1811】[Ioi2005]mea 乱搞
[BZOJ1811][Ioi2005]mea Description 考虑一个非递减的整数序列 S1,....Sn+1(Si<=Si+1 1<=i<=n). 序列M1...Mn是定义 ...

python + Streaming框架的MR实践与优化

python + Streaming框架的MR实践与优化的更多相关文章

随机推荐

热门专题