Hadoop Streaming例子(python)

　　以前总是用java写一些MapReduce程序现举一个例子使用Python通过Hadoop Streaming来实现Mapreduce。

　　任务描述：

　　HDFS上有两个目录/a和/b，里面数据均有3列，第一列都是id，第二列是各自的业务类型(这里假设/a对应a，/b对应b)，第三列是一个json串。各举一例：

　　/a的一行：1234567　　a　　{"name":"jiufeng","age":"27","sex":"male","school":"","status":["111","000","001"],...}

　　/b的一行：12345　　b　　{"a":"abc","b":"adr","xxoo":"e",...}

　　要查找在/a中出现"status"且有"111"状态，而且要再/b中有这个id的所有id列表。

　　那么来吧，首先需要mapper来提取/a中满足"status"有"111"状态的id和第二列"a"、/b中所有行的前两列，python代码如下，mapper.py：

 #!/usr/bin/env python

 #coding = utf-8

 import json

 import sys

 import traceback

 import datetime,time

 def mapper():

     for line in sys.stdin:

         line = line.strip()

         id,tag,content = line.split('\t')

         if tag == 'a':

             jstr = json.loads(content)

             active = jstr.get('status',[])

             if "" in active:

                 print '%s\t%s' %(id,tag)

         if tag == 'b':

             print '%s\t%s' % ( id,tag)

 if __name__ == '__main__':

     mapper()

　　这个mapper是从表中输入中提取数据，然后将满足条件的数据通过标准输出。然后是reducer.py：

 #!/usr/bin/env python

 #coding = utf-8

 import sys

 import json

 def reducer():

     tag_a = 0

     tag_b = 0

     pre_id = ''

     for line in sys.stdin:

         line = line.strip()

         current_id,tag = line.split('\t')

         if current_id != pre_id:

             if tag_a==1 and tag_b==1:

                 tag_a = 0

                 tag_b = 0

                 print '%s' % pre_id

             else :

                 tag_a = 0

                 tag_b = 0

         pre_id = current_id

         if tag == 'a':

             if tag_a == 0:

                 tag_a = 1

         if tag == 'b':

             if tag_b == 0:

                 tag_b = 1

     if tag_b==1 and tag_b==1:

         print '%s' % pre_id

 if __name__ == '__main__':

     reducer()

　　一个reducer可以接受N多行数据，不像java那样的一行对应一个key然后多个value，而是一个key对应一个value，但好在相同key的行都是连续的，只要在key变化的时候做一下处理就行。

　　然后安排让hadoop执行，schedule.py：

 #!/usr/bin/env python

 #coding = utf-8

 import subprocess, os

 import datetime

 def mr_job():

     mypath = os.path.dirname(os.path.abspath(__file__))

     inputpath1 = '/b/*'

     inputpath2 = '/a/*'

     outputpath = '/out/'

     mapper = mypath + '/mapper.py'

     reducer = mypath + '/reducer.py'

     cmds = ['$HADOOP_HOME/bin/hadoop', 'jar', '$HADOOP_HOME/contrib/streaming/hadoop-streaming-1.2.1.jar',

             '-numReduceTasks', '',

             '-input', inputpath1,

             '-input', inputpath2,

             '-output', outputpath,

             '-mapper', mapper,

             '-reducer', reducer,

             '-file', mapper,

             '-file', reducer,]

     for f in os.listdir(mypath):

         cmds.append(mypath + '/' + f)

     cmd = ['$HADOOP_HOME/bin/hadoop', 'fs', '-rmr', outputpath]

     subprocess.call(cmd)

     subprocess.call(cmds)

 def main():

     mr_job()

 if __name__ == '__main__':

     main()

　　schedule.py就是执行MapReduce的地方通过调用hadoop-streamingXXX.jar会通过调用shell命令来提交job，另外可以配置一下参数，shell命令会将制定的文件上传到hdfs然后分发到各个节点执行。。。$HADOOP_HOME就是hadoop的安装目录。。。mapper和reducer的python脚本的名字无所谓，方法名无所谓因为在配置shell执行命令时已经指定了

　　上述是一个很简单的python_hadoop-streamingXXX例子。。。。

Hadoop Streaming例子(python)的更多相关文章

hadoop streaming anaconda python 计算平均值
原始Liunx 的python版本不带numpy ,安装了anaconda 之后,使用hadoop streaming 时无法调用anaconda python , 后来发现是参数没设置好... 进 ...
用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试
相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streami ...
用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控
写在前面相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hado ...
hadoop streaming 编程
概况 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程.一个最简单的程序 $HADOOP_HOME/bin/hadoop jar ...
hadoop streaming编程小demo(python版)
大数据团队搞数据质量评测.自动化质检和监控平台是用django,MR也是通过python实现的.(后来发现有orc压缩问题,python不知道怎么解决,正在改成java版本) 这里展示一个python ...
用python + hadoop streaming 编写分布式程序（三） -- 自定义功能
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍 ...
Hadoop Streaming
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/streaming.html Hadoop Streaming Streaming工作原理将文件打包到提交的 ...
Hadoop Streaming框架学习（一）
Hadoop Streaming框架学习(一) Hadoop Streaming框架学习(一) 2013-08-19 12:32 by ATP_, 473 阅读, 3 评论, 收藏, 编辑 1.Had ...
Hadoop Streaming Command Details and Q&A
Hadoop Streaming Hadoopstreaming is a utility that comes with the Hadoop distribution. The utilityal ...

随机推荐

HTML5 中canvas支持触摸屏的签名面板
1.前言最近实在是太忙了,从国庆之后的辞职,在慢慢的找工作,到今天在现在的这家公司上班大半个月了,太多的心酸泪无以言表,面试过程中,见到的坑货公司是一家又一家,好几家公司自己都只是上一天班就走了,其 ...
远程办公《Remote》读书笔记：中国程序员在家上班月入过六万不是梦
这不是一本新书,这是一本很值得中国程序员看的老书,所以我不是来做卖新书广告的:) 但它的确是一本好书,这本书在Amazon上3个business categories排第一.作者Jason Fried ...
分布式人工智能标记语言（DAIML）示例
DAIML(Distributed Artificial Intelligence Markup Language)是用于分布式人工智能系统中智能语言的标记库.DAIML主要分为Patte ...
【niubi-job——一个分布式的任务调度框架】----安装教程
niubi-job是什么 niubi-job是LZ耗时三个星期,费尽心血打造的一个具备高可靠性以及水平扩展能力的分布式任务调度框架,采用quartz作为底层的任务调度管理器,zookeeper做集群的 ...
jdbc基础 (二) 通过properties配置文件连接数据库
csdn博文地址:jdbc基础 (二) 通过properties配置文件连接数据库上一篇描述了对mysql数据库的简单操作,下面来看一下开发中应该如何灵活应用. 因为jdbc对数据库的驱动加载.连接 ...
Git.Framework 框架随手记--ORM新增操作
本篇主要记录具体如何新增数据,废话不多说,开始进入正文. 一. 生成工程结构上一篇已经说到了如何生成工程结构,这里在累述一次. 1. 新建项目总体结构使用VS新建项目结构,分层结构可以随意.我们使 ...
从数据包谈如何封杀P2SP类软件
概述 1.1背景介绍我们经常在用户的网络中发现大量的P2P应用,占用了网络中大量的宝贵带宽资源,用户的网络管理者也知道内网中存在这些应用,也采取了一些限制措施,但是效果并不一定理想.本文试着以数据包 ...
Enum扩展及MVC中DropDownListFor扩展方法的使用
public enum SearchState { /// <summary> /// 全部 /// </summary> [Description("全部" ...
jquery 插件之点赞“+1” 特效
一般用户点个赞后,都会有个 +1 的特效飘过,用户已经点过赞了,会有“已点过赞”的特效提示在这里,我们写了一个点赞的插件 //扩展对象点赞插件.点赞特效 //用法:jQuery('.praisebt ...
【Matplotlib】图例分开显示
作图时图例往往都会出现一个图例框内,如果需要不同类型的图例分别显示,比如显示两个图例. 基本上,出现两个图例的话,需要调用两次 legend .第一次调用,你需要将图例保存到一个变量中,然后保存下来. ...

Hadoop Streaming例子(python)

Hadoop Streaming例子(python)的更多相关文章

随机推荐

热门专题