用Python实现基于Hadoop Stream的mapreduce任务

因为Hadoop Stream的存在，使得任何支持读写标准数据流的编程语言实现map和reduce操作成为了可能。

为了方便测试map代码和reduce代码，下面给出一个Linux环境下的shell 命令：

cat inputFileName | python map.py | sort | python map.py > outputFileName

可以轻松的在没有hadoop 环境的机器上进行测试。

下面介绍，在Hadoop环境中的，如何用Python完成Map和Reduce两个任务的代码编写。

任务示例

这里依然采用大部分讲述MapReduce文章中所采用的WordCount任务作为示例。改任务需要统计给的海量文档中，各种单词出现的次数，其实就是统计词频（tf)。

map.py

import sys

for line in sys.stdin:

    words = line.strip().split()

    for word in words:

        print("{}\t{}".format(word, 1))

reduce.py

import sys

word, curWord, wordCount = None, None, 0

for line in sys.stdin:

    word, count = line.strip().split('\t')

    count = int(count)

    if word == curWord: wordCount += count

    else:

        print("{}\t{}".format(word, wordCount))

        curWord, wordCount = curWord, count

if word and word == curWord:

    print("{}\t{}".format(word, wordCount))

可以在单机上执行前面所述的命令没有问题后，然后执行下面的shell命令

hadoop jar $HADOOP_STREAMING \

-D mapred.job.name="自定义的job名字" \

-D mapred.map.tasks=1024 \

-D mapred.reduce.tasks=1024

-files map.py \

-files reduce.py \

-mapper "python map.py" \

-reducer "python reduce.py" \

-input /user/rte/hdfs_in/* \

-output /user/rte/hdfs_out

用Python实现基于Hadoop Stream的mapreduce任务的更多相关文章

用Python语言写Hadoop MapReduce程序Writing an Hadoop MapReduce Program in Python
In this tutorial I will describe how to write a simple MapReduce program for Hadoop in the Python pr ...
Hadoop实战2:MapReduce编程-WordCount实例-streaming-python环境
这是搭建hadoop环境后的第一个MapReduce程序: 基于hadoop streaming的python的脚本: 1 map.py文件,把文本的内容划分成单词: #!/usr/bin/pytho ...
基于Hadoop的大数据平台实施记——整体架构设计[转]
http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...
基于Hadoop的大数据平台实施记——整体架构设计
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰.好像一夜之间我们就从互联网时代跳跃进了大 ...
Python API 操作Hadoop hdfs详解
1:安装由于是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的 >pip install hdfs 2:Client——创建集群连接 ...
一、基于hadoop的nginx访问日志分析---解析日志篇
前一阵子,搭建了ELK日志分析平台,用着挺爽的,再也不用给开发拉各种日志,节省了很多时间. 这篇博文是介绍用python代码实现日志分析的,用MRJob实现hadoop上的mapreduce,可以直接 ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
[转] X-RIME: 基于Hadoop的开源大规模社交网络分析工具
转自http://www.dataguru.cn/forum.php?mod=viewthread&tid=286174 随着互联网的快速发展,涌现出了一大批以Facebook,Twitter ...
Hive -- 基于Hadoop的数据仓库分析工具
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...

随机推荐

vue 中$index $key 已经移除了
https://cn.vuejs.org/v2/guide/migration.html#index-and-key-移除之前可以这样: 1 2 3 4 5 6 <ul id="ex ...
xrdp 安装后 WINDOWS远程登录出错
xrdp需要vnc作为基础服务, sudo apt-get install tightvncserver 树莓派上这个命令运行下再连就好了
C语言中volatile关键字的作用[转]
一.前言 1.编译器优化介绍: 由于内存访问速度远不及CPU处理速度,为提高机器整体性能,在硬件上引入硬件高速缓存Cache,加速对内存的访问.另外在现代CPU中指令的执行并不一定严格按照顺序执行,没 ...
Java 类加载体系之 ClassLoader 双亲委托机制
Java 类加载体系之 ClassLoader 双亲委托机制 java 是一种类型安全的语言,它有四类称为安全沙箱机制的安全机制来保证语言的安全性,这四类安全沙箱分别是: 类加载体系 .class文件 ...
C# break语句
一.C# break语句 break语句用于终止它后面的所有循环语句,使控制流程跳转到break语句所在层的外面,以便结束本层的所有循环.如果有多个循环语句进行嵌套,break语句则会跳到它所在层的外 ...
C#流程控制语句
C#流程控制语句一.选择语句当程序中需要进行两个或两个以上的选择时,可以根据条件的判断来选择将要执行的一组语句. ?if语句 ?switch语句二.循环语句循环语句是对一个程序模块进行的重复操 ...
c++谭浩强教材教学练习例题1.2 求两数之和为什么sum=a+b;sum的值为65538
第一章 #include <iostream>using namespace std; int main(){ int a,b,sum; sum=a+b; cin>>a> ...
微信小程序清除默认样式
1.清除button的默认样式 button::after{border:none;}input{outline:none;border:none;list-style: none;}
centos7编译安装lamp实现wordpress
准备安装包,并解压 mariadb-10.3.13.tar.gz ,php-7.3.2.tar.bz2 ,httpd-2.4.38.tar.bz2 php-7.3.2 , phpMyAdmin ...
搞定 mybatis generator 三步走
基于idea 编辑器下maven项目使用mybatis generator快速生成持久层添加插件:插件网址:http://www.mybatis.org/generator/running/runn ...

用Python实现基于Hadoop Stream的mapreduce任务

用Python实现基于Hadoop Stream的mapreduce任务

任务示例

map.py

reduce.py

用Python实现基于Hadoop Stream的mapreduce任务的更多相关文章

随机推荐

热门专题