(转载)Hadoop map reduce 过程获取环境变量

来源：http://www.linuxidc.com/Linux/2012-07/66337.htm 作者： lmc_wy

Hadoop任务执行过程中，在每一个map节点或者reduce节点能获取一下环境变量，利用这些变量可以为特殊的需求服务，例如：获取当前map节点处理的数据文件的路径。

hadoop是java实现的，利用java可以很方便的获取相关环境变量，其内部包含在Context和MRJobConfig中（hadoop版本不一样，可能会有区别，我的hadoop是0.21）。

举例：

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.MRJobConfig;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

public class MergeDaysMapper extends Mapper<LongWritable, Text, Text, Text> {

private String inputFile = null;

public void setup(Context context)
{
System.err.println("[STARTS TO GET PARAMETERS OF THIS JOB]");
Path input = ((FileSplit)context.getInputSplit()).getPath();
inputFile = input.toString();
System.err.println("Input: "+ input.toString());
System.out.println("Input: "+ input.getName());
System.out.println("MAP_INPUT_FILE: " + MRJobConfig.MAP_INPUT_FILE);
System.out.println("MAP_INPUT_PATH:"+ MRJobConfig.MAP_INPUT_PATH);
System.out.println("MAP_INPUT_START:"+ MRJobConfig.MAP_INPUT_START);
System.err.println("JOB_NAME" + MRJobConfig.JOB_NAME);
System.out.println("[FINISHED GETTING PARAMETERS OF THIS JOB]");
}

public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
{
if (null == inputFile)
context.write(new Text("key"), new Text("inputFile"));
else
context.write(new Text("key"), new Text(inputFile));
}
}

同时，在streaming任务中也有同样的需求，需要获取相关环境变量，查过别人的资料，如下：

{{

streaming框架通过设置环境变量的方式给mapper、reducer程序传递配置信息。常用的环境变量如下：

HADOOP_HOME	计算节点上配置的Hadoop路径
LD_LIBRARY_PATH	计算节点上加载库文件的路径列表
PWD	当前工作目录
dfs_block_size	当前设置的HDFS文件块大小
map_input_file	mapper正在处理的输入文件路径
mapred_job_id	作业ID
mapred_job_name	作业名
mapred_tip_id	当前任务的第几次重试
mapred_task_id	任务ID
mapred_task_is_map	当前任务是否为map
mapred_output_dir	计算输出路径
mapred_map_tasks	计算的map任务数
mapred_reduce_tasks	计算的reduce任务数

}}

自己测试了一下，不对，又是版本问题，查了http://hadoop.apache.org/mapreduce/docs/r0.21.0/streaming.html#How+do+I+get+the+JobConf+variables+in+a+streaming+job%27s+mapper%2Freducer%3F

解决如下：

Name	Type	Description
mapreduce.job.id	String	The job id
mapreduce.job.jar	String	job.jar location in job directory
mapreduce.job.local.dir	String	The job specific shared scratch space
mapreduce.task.id	String	The task id
mapreduce.task.attempt.id	String	The task attempt id
mapreduce.task.ismap	boolean	Is this a map task
mapreduce.task.partition	int	The id of the task within the job
mapreduce.map.input.file	String	The filename that the map is reading from
mapreduce.map.input.start	long	The offset of the start of the map input split
mapreduce.map.input.length	long	The number of bytes in the map input split
mapreduce.task.output.dir	String	The task's temporary output directory

相关参数在streaming中“."用”_"代替即可。

例子：

#!/bin/sh

while read line
do
echo "$line"
echo $mapreduce_map_input_file
done

测试通过

(转载)Hadoop map reduce 过程获取环境变量的更多相关文章

Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
一步一步跟我学习hadoop(5)----hadoop Map/Reduce教程（2）
Map/Reduce用户界面本节为用户採用框架要面对的各个环节提供了具体的描写叙述,旨在与帮助用户对实现.配置和调优进行具体的设置.然而,开发时候还是要相应着API进行相关操作. 首先我们须要了解M ...
Java获取环境变量
Java 获取环境变量Java 获取环境变量的方式很简单: System.getEnv() 得到所有的环境变量System.getEnv(key) 得到某个环境变量的值 Map map = Syst ...
Hadoop Map/Reduce的工作流
问题描述我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存.因此越来越顶不住压力了,当前内存问 ...
Java 获取环境变量
Java 获取环境变量Java 获取环境变量的方式很简单: System.getEnv() 得到所有的环境变量System.getEnv(key) 得到某个环境变量的值由于某些需要,可能要下载某些 ...
learning java 获取环境变量及系统属性
通过System.getenv( ) 获取环境变量通过System.getProperties() 获取系统属情通过System.currentTimeMillis() System.nanoT ...
Hadoop Map/Reduce
Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集.一个Map/Reduce ...
java调用python的惨痛史(无法获取环境变量)
环境:java,was,python2.6,红帽linux,oracle,python用cx_Oracle 事情是这样的,有个需求,需要对数据库进行处理,简单说就是把数据取出来,用pyt ...
python 获取环境变量
python 获取环境变量参考 https://docs.python.org/2/library/os.html 使用os.environ获取环境变量字典 import os env_dist = ...

随机推荐

cmd命令行中的errorlevel和延迟赋值
最近用到了命令行,一点心得: 1.errorlevel返回的确实是上一条命令的返回值,但不同命令的表现完全不同.比如: dir echo %errorlevel% //显示0 dir aldkalf ...
py零散知识点
变量之间的赋值是公用一个地址比如 a = 3 b = a b和a用的是一个地址在Python中 b = a.copy() a和b就不是一个地址了 -------------------------- ...
Android双击返回按钮退出程序
//双击退出事件 @Override public boolean onKeyDown(int keyCode, KeyEvent event) { if(keyCode == KeyEvent.KE ...
VS2010下配置OCI编程
OCI是Oracle官方出品的用于C/C++语言连接.操作Oracle数据库的API.在windows操作系统下使用VS等IDE编写.编译C++程序十分方便.简单,不需要使用Makefile.使用OC ...
MapReduce数据流（二）
输入块(InputSplit):一个输入块描述了构成MapReduce程序中单个map任务的一个单元.把一个MapReduce程序应用到一个数据集上,即是指一个作业,会由几个(也可能几百个)任务组成. ...
同是url参数传进来的值，String类型就用getAttribute获取不到，只能用getParameter获取，而int就两个都可以这是为什么？
这是因为int的属性是id,这是在被放到modeldriver中的user所具有的属性,传递过来的参数如果和user的属性重名,struts2的有类似beanutil之类的工具会自动封装参数,这时候用 ...
CSS 3D旋转 hover 后设置transform 是相对于正常位置
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
lightoj1085 线段树+dp
//Accepted 7552 KB 844 ms //dp[i]=sum(dp[j])+1 j<i && a[j]<a[i] //可以用线段树求所用小于a[i]的dp[j ...
SyntaxError: missing ; before statement 错误的解决
今天jsp页面中报错:SyntaxError: missing ; before statement 简单的理解是语法错误,F12调试之后发现原来是我定义的一个js中的全局变量的问题. <scr ...
Linux怎么使用添加的新硬盘
一.磁盘分区装过系统后第一块磁盘的设备号是/dev/sda,在你添加一个新的磁盘后一般情况下是/dev/sdb *******进入fdisk界面***** # fdisk /dev/sdbDevic ...

(转载)Hadoop map reduce 过程获取环境变量

(转载)Hadoop map reduce 过程获取环境变量的更多相关文章

随机推荐

热门专题