MR进阶实践1： -file 分发多个文件

【-file 适合场景】分发文件在本地，小文件

-file分发原理

run.sh文件：通过多个-file, 将多个本地文件分发到Hadoop集群中的compute node

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file to distribute  local file to cluster

# these  files will bestored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "python red.pyreducer_func" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

修改reducer个数为三个 (第一种 -jobconf)

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file todistribute  files

# these  files will be stored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "pythonred.py reducer_func" \

    -jobconf “mapred.reduce.tasks=” \  # deprecated option, not suggested

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

修改reducer为3个（第二种 -D）

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file todistribute  files

# these  files will bestored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -D mapred.reduce.tasks= \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "pythonred.py reducer_func" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

datanode上观察分发的文件

1、作业专属目录

作业开始后，会创建专属目录， taskTracker/root/jobcache/job_xxxxxxxx

2、分发给作业的文件

被放置在同一目录，taskTracker/root/jobcache/job_xxxx/jars

3、每一个正在运行的mapper, reducer构建attempt目录

每一个运行的mapper, reducer会构建一个attempt目录，taskTracer/root/jobcache/job_xxx/attempt_yyyyy/work , 生成符号链接文件，指向jars中的具体文件

MR进阶实践2： -cacheFile 将放在HFDS上的文件分发给计算节点

1、将mapreduce程序运行时需要的某一个辅助文件提前上传到HDFS

例如：将实践1中的white_list上传到HDFS，本地文件在上传后直接删除

# hadoop fs -put ./white_list /

# rm -rf ./white_list

2、修改run.sh, 设置-cacheFile

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/03_cachefiledistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/03_cachefiledistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job2: use -cacheFileto distribute HDFS file to compute node

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WH" \

    #这里也一定要用WH符号链接，因为作业开始运行后创建的attemps目录中只能看到WH，和map.py符号链接位于同一目录

    -reducer "pythonred.py reducer_func" \

    -cacheFile “hdfs://master:9000/white_list#WH”

    #WH一定要，每个attemp中要生成该符号链接,指向Tasktracer/distcache中的whitelist

    -file ./map.py \

    -file ./red.py

3、运行run.sh，提交任务，观察数据节点上的文件分发

运行结束后, jobcache下的所有内容，以及distcache下的所有内容，将全部清空

MR进阶实践3： -cacheArchive 将位于HFDS上的压缩文件分发给计算节点

【使用场景】

假定有多个white_list文件，如果一个个通过-file方式上传就不太合理，可以将多个white_list文件，打包压缩为1个tar.gz文件，上传到HDFS，然后通过-cacheArchive方式，将HDFS压缩将件分发给各个compute node. 同时框架会自动将分发到各个compute node上的压缩文件进行解压

1、将本地多个white_list文件，打包为一个压缩文件w.tar.gz

目录结构：map.py, red.py, white_list_dir

|_white_list_1

|_white_list_2

注意：gzip打包后的文件，上传到HDFS，通过-cacheArchive分发到计算节点后，会自动解压为同名文件夹

打包完成后的目录结构为：map.py, red.py, white_list_dir

|_white_list_1

|_white_list_2

|_w.tar.gz

2、打包后的压缩文件上传到HDFS

# hadoop fs –put ./w.tar.gz  /

# hadoop fs –ls /

查看是否已经上传成功

3、修改run.sh，-cacheArchive选项

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/03_cachefiledistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/03_cachefiledistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job3: use -cacheArchive to distribute HDFS compressed file to compute node

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WLDIR" \

    #这里也一定要用WH.gz符号链接名，因为attemps中只能看到WH.gz

    -reducer "pythonred.py reducer_func" \

    -cacheArchive “hdfs://master:9000/w.tar.gz#WLDIR”

    #WLDIR一定要，每个attemp中要生成该符号链接,指向Tasktracer/distcache中已经自动解压的文件夹，文件夹中有white_list_1,white_list_2

    -file ./map.py \

    -file ./red.py

3、重大变动：修改map.py程序

-mapper "python map.py mapper_func WLDIR" \

可以看出map.py开始运行时，传入参数只能是WLDIR，表示压缩的HDFS文件分发到compute node后自动解压得到的目录

因此map.py要修改程序为遍历WLDIR字符串代表的目录，找到每个文件，然后再对每个文件做处理

4、运行run.sh，提交任务，观察数据节点上的文件分发

运行结束后, jobcache下的所有内容，以及distcache下的所有内容，将全部清空

MapReduce-实践1的更多相关文章

大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. ...
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制. WordCount: 1.应用场景,在大量文件中存储了 ...
大数据系列之数据仓库Hive命令使用及JDBC连接
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
MapReduce 原理与 Python 实践
MapReduce 原理与 Python 实践 1. MapReduce 原理以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解 Hadoop 的 MapReduce ...
【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3 MapReduce理论与动手实践
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
[转] Hadoop MapReduce开发最佳实践（上篇）
前言本文是Hadoop最佳实践系列第二篇,上一篇为<Hadoop管理员的十个最佳实践>. MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop ...
Mapreduce简要原理与实践
探索Mapreduce简要原理与实践目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapred ...

随机推荐

Java中的类型转换(Integer、Long、String)
这段时间将项目中一个模块参照C++源代码,实现一个JAVA版.主要功能是将一些字段信息转换为String类型,传输后可以进行解析. Integer.Long转为String,Java本身提供了这种转换 ...
java 对象的序列化与反序列化
一.序列化和反序列化的概念把对象转换为字节序列的过程称为对象的序列化. 把字节序列恢复为对象的过程称为对象的反序列化. 对象的序列化主要有两种用途: 1) 把对象的字节序列永久地保存到硬盘上,通常存 ...
nmap扫描某段网络连通性
nmap -v -sP 10.0.10.0/24 进行ping扫描,打印出对扫描做出响应的主机,不做进一步测试(如端口扫描或者操作系统探测): nmap -sP 192.168.1.0/24 仅列出指 ...
深入理解计算机系统chapter5
编写高效的程序需要:1.选择合适的数据结构和算法 2.编译器能够有效优化以转换为高效可执行代码的源代码 3.利用并行性优化编译器的局限性程序示例: combine3的汇编代码: load-> ...
Hive基础（1）---Hive是什么
1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性. 这是来自官方的 ...
风趣的JavaScript面向对象入门课程一
在我们程序猿界一直流传这这么一个joke,没女票我们可以new一个.没房子没票子没车子我们同样new一个!当然这听着更像是一种自嘲,毕竟我们程序猿都爱自嘲,哈哈,废话不多说,今天就由我带着你们来入Ja ...
Temperature hdu 3477
Temperature Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total ...
“一切都是消息”--MSF（消息服务框架）之【请求-响应】模式
在前一篇, “一切都是消息”--MSF(消息服务框架)入门简介, 我们介绍了MSF基于异步通信,支持请求-响应通信模式和发布-订阅通信模式,并且介绍了如何获取MSF.今天,我们来看看如何使用MSF来做 ...
Java面向对象 IO （一）
Java面向对象 IO (一) 知识概要: (1)IO概述 (2)IO流的常用基类 (3)IO程序的书写 (4)字符流写入读取文本文件的两种读取方式 ...
mysql explain 分析sql语句
鉴于最近做的事情,需要解决慢sql的问题,现补充一点sql语句性能分析之explain的使用方式! 综合返回数据情况,分析各个参数,可以了解sql 使用方法:explain + sql语句如 :e ...