hadoop 流streaming跑python程序

先放上命令：

hadoop jar /usr/hadoop-1.2./contrib/streaming/hadoop-streaming-1.2..jar -mapper mapper.py -file mapper.py -reduce reduce.py -file reduce.py -file params.txt -file params2.txt -input /data/* -output /output

其中output不存在才可以。

mapper.py的输出直接传给reduce.py

比如在hadoop的集群中，/data/目录下有如下几个文件：

[root@master program]# hadoop fs -ls /data/

Found  items

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

-rw-r--r--    root supergroup       -- : /data/cars-

对于任何一个文件，如果在本地可以这样完成操作即可：

cat cars- | ./mapper.py | ./reduce.py

hadoop 流streaming跑python程序的更多相关文章

hadoop streaming 中跑python程序，自定义模块的导入
今天在做代码重构,以前将所有python文件放到一个文件夹下,上传到hadoop上跑,没有问题:不过随着任务的复杂性增加,感觉这样甚是不合理,于是做了个重构,建了好几个包存放不同功能的python文件 ...
在云服务器跑Python程序
最近在鼓弄这TensorFlow的模型,有些模型实在是太大了,CPU占用率100%不说,还一跑起来就跑个大半天,严重影响了学习的进度,所以由于手里刚有一个不大使用的云服务器,配置虽然不咋地,至少还能跑 ...
用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试
相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streami ...
用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控
写在前面相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍,样例程序与本地调试用python + hado ...
用python + hadoop streaming 编写分布式程序（三） -- 自定义功能
又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(一) -- 原理介绍 ...
教程｜要想Hadoop能够运行Python程序，就要会MRJob
首先要想Hadoop能够很流畅的Python程序,学习mrjob可能是最直接.最简单的方法了你甚至都不要按安装部署Hadoop集群. mrjob拥有很多优秀的特性比如: 支持多步骤的MapRedu ...
在Hadoop平台跑python脚本
1.开发IDE,我使用的是PyCharm. 2.运行原理使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入).STDOUT(标准输出)在 ...
hadoop streaming anaconda python 计算平均值
原始Liunx 的python版本不带numpy ,安装了anaconda 之后,使用hadoop streaming 时无法调用anaconda python , 后来发现是参数没设置好... 进 ...
eclipse提交hadoop集群跑程序
在eclipse下搭建hadoop后,测试wordcount程序,右击 Run on hadoop 程序跑成功后,发现“INFO - Job job_local401325246_0001 compl ...

随机推荐

LNMP平台搭建---Nginx安装篇
在上一篇博文<LNMP平台搭建---Linux系统安装篇>中,我们安装了CentOS版本的Linux操作系统,现在,我们来安装一个Web服务器,大标题写着LNMP,其中的N就是Nginx, ...
三、jQuery--jQuery基础--jQuery基础课程--第2章 jQuery 基础选择器
1.#id选择器 jquery能使用CSS选择器来操作网页中的标签元素.如果你想要通过一个id号去查找一个元素,就可以使用如下格式的选择器:$("#my_id") 其中#my_id ...
Python 实现发送、抄送邮件功能
发送邮件问题在web.py中,如何发送邮件? 解法在web.py中使用web.sendmail()发送邮件. web.sendmail('cookbook@webpy.org', 'user@e ...
SQL Server 2014 BI新特性（二）结合Data Explorer和GeoFlow进行数据分析
Data Explorer和GeoFlow作为Excel的新功能被写入到即将发布的SQL Server 2014当中.Data Explorer为业务分析人员提供了一种数据获取,整理以及组织的方式,通 ...
Fiddler Tips
使用代理服务器点击 Tools -> Fiddler Options -> Gateway Fiddler 默认将使用刚打开Fiddler窗口时IE 设置的代理服务器,当然你也可以手动修 ...
WCF学习笔记之消息交换模式
在WCF通信中,有三种消息交换模式,OneWay(单向模式), Request/Reponse(请求回复模式), Duplex(双工通信模式)这三种通信方式.下面对这三种消息交换模式进行讲解. 1. ...
阿里云（ECS）Centos服务器LNMP环境搭建
阿里云( ECS ) Centos7 服务器 LNMP 环境搭建前言第一次接触阿里云是大四的时候,当时在校外公司做兼职,关于智能家居项目的,话说当时俺就只有一个月左右的 php 后台开发经验(还是 ...
linux网络协议
网络协议本章节主要介绍linxu网络模型.以及常用的网络协议分析以太网协议.IP协议.TCP协议.UDP协议一.网络模型 TCP/IP分层模型的四个协议层分别完成以下的功能: 第一层网络接口层 ...
第十一篇：SOUI系统资源管理
SOUI资源管理模块从前篇已经讲到在SOUI中所有资源文件通过一个uires.idx文件进行索引. 这里将介绍在程序中如何引用这些资源文件. 在SOUI系统中,资源文件通过一个统一的接口对象读取: ...
注解：【无连接表的】Hibernate单向N->1关联
Person与Address关联:单向N->1,[无连接表的] Person.java package org.crazyit.app.domain; import javax.persiste ...

hadoop 流streaming跑python程序

hadoop 流streaming跑python程序的更多相关文章

随机推荐

热门专题