在之前的文章曾提到Hadoop不仅支持用Java编写的job,也支持其他语言编写的作业,比方Hadoop Streaming(shell、python)和Hadoop Pipes(c++),本篇文章将学习Hadoop Streaming编程。

Streaming是hadoop自带的工具,封装在hadoop-streaming-版本.jar中,能够使用hadoop jar hadoop-streaming-版本.jar命令启动,在该命令中还须要指定mapper或/和reducer。当中mapper和reducer任务既能够是java类,也能够是可运行文件(如cat)或脚本文件(如python)。

该工具将创建MapReduce作业。将作业提交给集群处理并监控作业的运行进度等,以下分析一下Streaming的运行过程。

当可运行文件做为mapper或者reducer时,每一个mapper任务或者reducer任务在mapper或者reducer初始化后将可运行文件做为独立的进程载入运行。

当mapper任务运行时。它将输入转换为行然后把这些行传递给该进程的标准输入stdin,同一时候mapper收集从该进程的标准输出stdout产生的行并将每行转换为键值对。这些键值对将做为该mapper的输出。默认的情况下,一行的開始部分到第一个tab符为键,剩余的部分(不包括tab符)为值。假设某行不存在tab符,则整个行将做为键,而值为null。

但可通过使用-inputformat命令行选项自己定义键值分隔符。当reducer任务运行时,它将输入的键值对转换为行,然后传递给该进程的标准输入stdin,同一时候reducer任务收集该进程标准输出stdout的输出。并转换为键值对,这些键值对将做为reducer任务的输出。同mapper任务一样,默认使用tab符分隔键值对,用户能够使用-outputformat自己定义分隔符。

通过上面的描写叙述可知,mapper和reducer的的输出都为键值对。输入都为从对应进程的stdin输入的行,不同的是mapper是将输入数据转换为行,reducer是将mapper输出的键值对转换为行。

能够通过指定stream.non.zero.exit.is.failure的值为true或false表示streaming任务退出时状态码的含义,假设为true则非0值表示失败。若为false则非0表示成功,默认情况下。streaming任务退出时的状态码非0表示任务失败。接下来看看streaming工具的语法格式。用户能够通过在命令行输入hadoop jar hadoop-streaming-2.4.1.jar –help获取该工具的具体使用方法,例如以下表所看到的:

參数

可选/必选

说明

-input

必选

Map阶段输入文件的路径

-output

必选

Reduce阶段的输出文件夹

-mapper

可选

可运行文件或者Java类,做为mapper。默觉得PipeMapper

-reducer

可选

可运行文件或者Java类,做为reducer。

默觉得PipeReducer

-combiner

可选

可运行文件或者Java类,做为combiner。默觉得PipeCombiner

-partitioner

可选

做为partitioner的Java类

-inputformat

可选

指定输入格式的Java类,默觉得TextInputFormat,还能够为SequenceFileAsTextInputFormat或者自己定义输入格式的Java类

-outputformat

可选

指定输出格式的Java类,默觉得TextOutputFormat,也能够为自己定义输出格式的Java类

-file

可选

指定了作业使用的文件,将被复制到集群中。推荐使用通用选项-files选线替代该选项

-numnumReduceTasks

可选

指定reducer的数量

-inputreader

可选

指定读取记录的reader类

-cmdenv

可选

<n>=<v>,像streaming传递环境变量

-mapdebug

可选

指定了map任务失败时运行的脚本

-reducedebug

可选

指定了reduce任务失败时运行的脚本

-lazyOutput

可选

延迟创建输出,比如假设输出为TextOutputFormat。输出文件仅在第一次调用Context.write时创建

-background

可选

提交作业后马上返回,不等待作业完毕

-verbose

可选

打印作业的运行情况

-info

可选

打印具体的使用方式

除了上表所述的专门用于streaming的选项外,在使用streaming工具时还能够指定通用选项。但须要确保通用选项位于streaming选项之前。否则将导致失败。

通用选项例如以下表所看到的:

參数

可选/必选

说明

-conf configuration_file

可选

指定应用程序的配置文件

-D property=value

可选

为指定属性设置特定值

-fs host:port or local

可选

指定NameNode

-files

可选

指定用逗号分隔的传递到MapReduce集群的文件

-libjars

可选

指定要被包括在类路径中的用逗号分隔的jar文件

-archives

可选

指定了用逗号分隔的归档文件,这些归档文件将在计算节点上解压缩

前面以前提到,默认使用tab符分隔键值对,而且依照第一个tab符来分隔,而在非常多情况下。数据不是使用tab符分隔字段,而且希望某几个字段做为键,默认情况将不满足这种需求。此时用户能够通过使用对应的參数来改动默认设置,这几个參数为:

參数

说明

stream.map.input.field.separator

Map输入的字段分隔符,默觉得\t

stream.map.output.field.separator

Map输出的字段分隔符,默觉得\t

stream.num.map.output.key.fields

第几个分隔符用于分隔键值对。默觉得1

stream.reduce.input.field.separator

Reduce输入的字段分隔符,默觉得\t

stream.reduce.output.field.separator

Reduce输出的字段分隔符,默觉得\t

stream.num.reduce.output.key.fields

第几个分隔符用于分隔键值对,默觉得1

通过一个具体的演示样例代码来具体描写叙述上述參数的含义,在该段代码中使用点号(.)做为分隔符,而且第四个点号之前的字段为键,第四个点号(不包括该点号)后面的字段做为值。假设某行中的点号少于四个,则正行将做为键,值为空的Text对象。代码例如以下:

hadoop jar hadoop-streaming-2.4.1.jar \
-D stream.map.output.field.separator=. \
-D stream.num.map.output.key.fields=4 \
-input input \
-output output \
-mapper /bin/cat \
-reducer /bin/cat

最后通过以下的演示样例代码结束Streaming编程的学习。在该代码中通过-files通用选项将两个python脚本上传到集群中,并分别做为mapper和reducer:

hadoop jar hadoop-streaming-2.4.1.jar \
-files mapperPythonScript.py, reducerPythonScript.py
-input myInputDirs \
-output myOutputDir \
-mapper mapperPythonScript.py \
-reducer reducerPythonScript.py

本篇文章学习Hadoop Streaming编程,具体介绍了作业流程和參数的使用方式,至于怎样编写Streaming中的mapper和reducer,则须要依据用户使用的脚本语言(如python、shell)而定。

Hadoop-2.4.1学习之Streaming编程的更多相关文章

  1. hadoop streaming 编程

    概况 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程.一个最简单的程序 $HADOOP_HOME/bin/hadoop jar ...

  2. 零基础学习hadoop到上手工作线路指导(编程篇)

    问题导读: 1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如 ...

  3. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  4. Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南

    Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...

  5. Spark Streaming编程示例

    近期也有开始研究使用spark streaming来实现流式处理.本文以流式计算word count为例,简单描述如何进行spark streaming编程. 1. 依赖的jar包 参考<分别用 ...

  6. Apache Spark 2.2.0 中文文档 - Structured Streaming 编程指南 | ApacheCN

    Structured Streaming 编程指南 概述 快速示例 Programming Model (编程模型) 基本概念 处理 Event-time 和延迟数据 容错语义 API 使用 Data ...

  7. Structured Streaming编程 Programming Guide

    Structured Streaming编程 Programming Guide Overview Quick Example Programming Model Basic Concepts Han ...

  8. 学习linux/unix编程方法的建议(转)

    假设你是计算机科班出身,计算机系的基本课程如数据结构.操作系统.体系结构.编译原理.计算机网络你全修过 我想大概可以分为4个阶段,水平从低到高从安装使用=>linux常用命令=>linux ...

  9. Learning ROS for Robotics Programming - Second Edition(《学习ROS机器人编程-第二版》)

    Learning ROS for Robotics Programming - Second Edition <学习ROS机器人编程-第二版> ----Your one-stop guid ...

随机推荐

  1. Beaglebone Black教程Beaglebone Black的引脚分配

    Beaglebone Black教程Beaglebone Black的引脚分配 Beaglebone Black的引脚分配 绝大多数的微型开发平台都提供了一些称为GPIO的输入输出端口.这些端口可以让 ...

  2. JavaScript中的Array数组详解

    ECMAScript中的数组与其他多数语言中的数组有着相当大的区别,虽然数组都是数据的有序列表,但是与其他语言不同的是,ECMAScript数组的每一项可以保存任何类型的数据.也就是说,可以用数组的第 ...

  3. vijos p1777 引水入城(bfs+贪心)

    引水入城   描述 在一个遥远的国度,一侧是风景秀美的湖泊,另一侧则是漫无边际的沙漠.该国的行政区划十分特殊,刚好构成一个N行M列的矩形,其中每个格子都代表一座城市,每座城市都有一个海拔高度. 为了使 ...

  4. [Lydsy1806月赛] 最长公共子序列

    首先可以证明,只由一种字符构成的串总会是最优解中的一种... 考虑随便一个T与S的LIS都至少是出现次数最少的字符个数(考虑反证法,如果要更短,那么T中每种字符的个数都至多是 S 中最少的字符个数-1 ...

  5. 【分块】【暴力】XVII Open Cup named after E.V. Pankratiev Grand Prix of Moscow Workshops, Sunday, April 23, 2017 Problem I. Rage Minimum Query

    1000w的数组,一开始都是2^31-1,然后经过5*10^7次随机位置的随机修改,问你每次的全局最小值. 有效的随机修改的期望次数很少,只有当修改到的位置恰好是当前最小值的位置时才需要扫一下更新最小 ...

  6. 4425: [Nwerc2015]Assigning Workstations分配工作站

    4425: [Nwerc2015]Assigning Workstations分配工作站 Description Penelope is part of the admin team of the n ...

  7. trim()函数 mysql中的强大字符串过滤函数

    mysql中功能强大的trim()函数. 去除两边空格: mysql> select trim(' hello world '); +-----------------------+ | tri ...

  8. Maven:程序包org.apache.log4j不存在问题处理

    <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> & ...

  9. 为DbContextScope添加数据库事务提交完成事件

    使用EF开发应用程序的一个难点就在于对其DbContext的生命周期管理,你的管理策略是否能很好的支持上层服务 使用独立事务,使用嵌套事务,并行执行,异步执行等需求? Mehdi El Gueddar ...

  10. 8.8.8.8和8.8.4.4 DNS域名解析服务器

    而Google表示推出免费DNS服务的主要目的就是为了改进网络浏览速度.改善网络用户的浏览体验,为此Google自行开发的软件对DNS服务器技术进行了改进,通过采用预获取技术提升性能,同时保证了DNS ...