python + Streaming框架的MR实践与优化
Streaming是Hadoop提供的一个可以使用其他编程语言来进行MR编程的API,它使用Unix标准输入输出作为Hadoop和其他编程语言的开发接口,非常轻便。而开发者可以选择自己擅长的编程语言,并且只需要在MR程序中实现计算逻辑后,指定输出即可。
Python可以通过Streaming非常高效地实现MR编程,执行效率也非常快,且基于Python本身的简洁美,特别适合MR的快速开发。
另外,对于Python MR编程,Dumbo, Happy 与 mrjob 也是很好的选择,只是则性能上要逊于Streaming。其中,Dumbo为MR应用提供了更加灵活易用的Python API,它支持将mapper.py与reduce.py封装在一起使用,而Happy则为Jython开发者使用Hadoop框架提供了便利,另外,mrjob则允许用户写多步骤的MapReduce的工作流程。
对于Streaming的实现原理,数据流程,参数设置以及任务执行等方面的介绍,社区有很详细的介绍,本文不再赘述。http://hadoop.apache.org/docs/stable/streaming.html
(一)Map + Reduce
Map阶段按流读入数据,进行字段的拆分以及格式化等操作。
Reduce阶段实现PV, UV的计算
注意:日志文件以不可见字符chr(05)作为分隔符
#!/usr/bin/env python
import sys for line in sys.stdin:
line = line.strip()
word = line.split('\005')
print '%s\005%s' % (word[9],word[5]) # url + cookie_id
#!/usr/bin/env python
from operator import itemgetter
import sys word2count = {}
cookies = set()
for line in sys.stdin:
url,cookie = line.strip().split('\005')
coo = '\006'.join([url,str(cookie)])
try:
act = word2count.get(url)
flg = coo in cookies
if not flg:
cookies.add(coo)
if act is None:
word2count[url] = [1, 1]
else:
uv = not flg and 1 or 0
word2count[url] = [act[0] + 1, act[1] + uv]
except ValueError:
sys.exit(1) #recordsort = sorted(word2count.items(), key=itemgetter(1,0),reverse=True)
recordsort = sorted(word2count.items(), key=lambda word2count:(int(word2count[1][1]),word2count[0]), reverse=True) for real_url, val in recordsort:
print '%s\t%s\t%s'% (real_url, val[0], val[1])
(二)执行Streaming:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-0.19.1-dc-streaming.jar \
-input /group/alidw/dhwdata1/alilog/CnLog/20130603/23 \
-output /group/alidw/ali-log/wfs/log \
-mapper mapper.py \
-reducer reduce.py \
-file /home/dwapp/fusen.wangfs/MR/wfs/mapper.py \
-file /home/dwapp/fusen.wangfs/MR/wfs/reduce.py \
-jobconf mapred.reduce.tasks=1 \
-jobconf mapred.job.name="sum_test"
----可能会报错:java.io.IOException: Task process exit with nonzero status of 137. !!!
---原因:只有一个Reduce,计算节点资源不足(比如:磁盘配额不够)
#!/usr/bin/env python
"""A more advanced Mapper, using Python iterators and generators."""
import sys def read_input(file):
for line in file:
# split the line into words
fields = line.split('\005')
yield (fields[9],fields[5]) def main():
data = read_input(sys.stdin)
for field in data:
print '%s|||%s' % (field[0], field[1]) if __name__ == "__main__":
main()
2. Reduce.py
#!/usr/bin/env python
"""A more advanced Reducer, using Python iterators and generators.""" import sys word2count = {}
cookies = set() def read_mapper_output(file):
for line in file:
yield line.rstrip().split('|||') # url + cookie_id def main():
# input comes from STDIN (standard input)
data = read_mapper_output(sys.stdin)
for url,cookie in data:
coo = '|'.join((url,str(cookie)))
try:
act = word2count.get(url)
flg = coo in cookies
if not flg:
cookies.add(coo)
if act is None:
word2count[url] = [1, 1]
else:
uv = not flg and 1 or 0
word2count[url] = [act[0] + 1, act[1] + uv]
except ValueError:
pass
recordsort = sorted(word2count.items(), key=lambda word2count:(int(word2count[1][1]),word2count[0]), reverse=True) for real_url, val in recordsort:
print '%s\t%s\t%s'% (real_url, val[0], val[1]) if __name__ == "__main__":
main()
python + Streaming框架的MR实践与优化的更多相关文章
- Django,Flask,Tornado三大框架对比,Python几种主流框架,13个Python web框架比较,2018年Python web五大主流框架
Django 与 Tornado 各自的优缺点Django优点: 大和全(重量级框架)自带orm,template,view 需要的功能也可以去找第三方的app注重高效开发全自动化的管理后台(只需要使 ...
- python三大web框架Django,Flask,Flask,Python几种主流框架,13个Python web框架比较,2018年Python web五大主流框架
Python几种主流框架 从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python We ...
- Python玩转人工智能最火框架 TensorFlow应用实践 ☝☝☝
Python玩转人工智能最火框架 TensorFlow应用实践 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 全民人工智能时代,不甘心只做一个旁观者,那就现在 ...
- 基于Python玩转人工智能最火框架 TensorFlow应用实践✍✍✍
基于Python玩转人工智能最火框架 TensorFlow应用实践 随着 TensorFlow 在研究及产品中的应用日益广泛,很多开发者及研究者都希望能深入学习这一深度学习框架.而在昨天机器之心发起 ...
- 基于Python玩转人工智能最火框架 TensorFlow应用实践
慕K网-299元-基于Python玩转人工智能最火框架 TensorFlow应用实践 需要联系我,QQ:1844912514
- Python玩转人工智能最火框架 TensorFlow应用实践
Python玩转人工智能最火框架 TensorFlow应用实践 整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课 ...
- Python开源框架
info:更多Django信息url:https://www.oschina.net/p/djangodetail: Django 是 Python 编程语言驱动的一个开源模型-视图-控制器(MVC) ...
- Hadoop Streaming框架学习(一)
Hadoop Streaming框架学习(一) Hadoop Streaming框架学习(一) 2013-08-19 12:32 by ATP_, 473 阅读, 3 评论, 收藏, 编辑 1.Had ...
- Awesome Python,Python的框架集合
Awesome Python A curated list of awesome Python frameworks, libraries and software. Inspired by awes ...
随机推荐
- 关于LNMP服务器 Thinkphp5验证码不显示问题
关于LNMP服务器 Thinkphp5验证码不显示问题 浏览:246 发布日期:2017/09/20 分类:ThinkPHP5专区 关键字: thinkphp验证码不显示 nginx下验证码不显示 ...
- Java中String的split()方法的一些疑问和试验
http://tjuking.iteye.com/blog/1507855 和我想的还是不大一样,因为不知道源码也不知道具体是怎么实现的,我的理解如下: 当字符串只包含分隔符时,返回数组没有元素:当字 ...
- python django -3 视图
视图 视图接受Web请求并且返回Web响应 视图就是一个python函数,被定义在views.py中 响应可以是一张网页的HTML内容,一个重定向,一个404错误等等 响应处理过程如下图: URLco ...
- python django -1
VT Django是一款python的web开发框架 与MVC有所不同,属于MVT框架 m表示model,负责与数据库交互 v表示view,是核心,负责接收请求.获取数据.返回结果 t表示templa ...
- python greenlet背景介绍与实现机制
并发处理的技术背景 并行化处理目前很受重视, 因为在很多时候,并行计算能大大的提高系统吞吐量,尤其在现在多核多处理器的时代, 所以像lisp这种古老的语言又被人们重新拿了起来, 函数式编程也越来越流行 ...
- eclipse 4.3 汉化
打开浏览器,浏览“参考资料”内给出的“eclipse语言包下载”地址,在博客新页面找到地址链接,如图所示.“Babel Language...”开头的一栏下面就是各个eclise版本的语言包,此处以I ...
- IO-Polling的代码分析
在前一篇文章<IO-Polling实现分析与性能评測>中提到了IO-Polling与中断的原理差别,并通过两种模式下NVMe SSD的性能測试对两者进行了对照. 这篇文章将深入到IO-Po ...
- 【BZOJ3158】千钧一发 最小割
[BZOJ3158]千钧一发 Description Input 第一行一个正整数N. 第二行共包括N个正整数,第 个正整数表示Ai. 第三行共包括N个正整数,第 个正整数表示Bi. Output 共 ...
- ubuntu14.0 hadoop2.4.0 64位基于jdk1.7搭建
注意:hadoop有两种运行模式,安全模式和非安全模式.安装模式是以指定在健壮的,基于身份验证上运行的,本文无需运行在非安全模式下,可以直接使用root用户. 本文用户是基于root用户来运行的 一. ...
- php自定义函数: 文件大小转换成智能形式
function format_byte($filesize) { if($filesize >= 1073741824) { $filesize = round($filesize / 107 ...