MR进阶实践1： -file 分发多个文件

【-file 适合场景】分发文件在本地，小文件

-file分发原理

run.sh文件：通过多个-file, 将多个本地文件分发到Hadoop集群中的compute node

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file to distribute  local file to cluster

# these  files will bestored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "python red.pyreducer_func" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

修改reducer个数为三个 (第一种 -jobconf)

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file todistribute  files

# these  files will be stored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "pythonred.py reducer_func" \

    -jobconf “mapred.reduce.tasks=” \  # deprecated option, not suggested

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

修改reducer为3个（第二种 -D）

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file todistribute  files

# these  files will bestored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -D mapred.reduce.tasks= \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "pythonred.py reducer_func" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

datanode上观察分发的文件

1、作业专属目录

作业开始后，会创建专属目录， taskTracker/root/jobcache/job_xxxxxxxx

2、分发给作业的文件

被放置在同一目录，taskTracker/root/jobcache/job_xxxx/jars

3、每一个正在运行的mapper, reducer构建attempt目录

每一个运行的mapper, reducer会构建一个attempt目录，taskTracer/root/jobcache/job_xxx/attempt_yyyyy/work , 生成符号链接文件，指向jars中的具体文件

MR进阶实践2： -cacheFile 将放在HFDS上的文件分发给计算节点

1、将mapreduce程序运行时需要的某一个辅助文件提前上传到HDFS

例如：将实践1中的white_list上传到HDFS，本地文件在上传后直接删除

# hadoop fs -put ./white_list /

# rm -rf ./white_list

2、修改run.sh, 设置-cacheFile

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/03_cachefiledistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/03_cachefiledistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job2: use -cacheFileto distribute HDFS file to compute node

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WH" \

    #这里也一定要用WH符号链接，因为作业开始运行后创建的attemps目录中只能看到WH，和map.py符号链接位于同一目录

    -reducer "pythonred.py reducer_func" \

    -cacheFile “hdfs://master:9000/white_list#WH”

    #WH一定要，每个attemp中要生成该符号链接,指向Tasktracer/distcache中的whitelist

    -file ./map.py \

    -file ./red.py

3、运行run.sh，提交任务，观察数据节点上的文件分发

运行结束后, jobcache下的所有内容，以及distcache下的所有内容，将全部清空

MR进阶实践3： -cacheArchive 将位于HFDS上的压缩文件分发给计算节点

【使用场景】

假定有多个white_list文件，如果一个个通过-file方式上传就不太合理，可以将多个white_list文件，打包压缩为1个tar.gz文件，上传到HDFS，然后通过-cacheArchive方式，将HDFS压缩将件分发给各个compute node. 同时框架会自动将分发到各个compute node上的压缩文件进行解压

1、将本地多个white_list文件，打包为一个压缩文件w.tar.gz

目录结构：map.py, red.py, white_list_dir

|_white_list_1

|_white_list_2

注意：gzip打包后的文件，上传到HDFS，通过-cacheArchive分发到计算节点后，会自动解压为同名文件夹

打包完成后的目录结构为：map.py, red.py, white_list_dir

|_white_list_1

|_white_list_2

|_w.tar.gz

2、打包后的压缩文件上传到HDFS

# hadoop fs –put ./w.tar.gz  /

# hadoop fs –ls /

查看是否已经上传成功

3、修改run.sh，-cacheArchive选项

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/03_cachefiledistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/03_cachefiledistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job3: use -cacheArchive to distribute HDFS compressed file to compute node

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WLDIR" \

    #这里也一定要用WH.gz符号链接名，因为attemps中只能看到WH.gz

    -reducer "pythonred.py reducer_func" \

    -cacheArchive “hdfs://master:9000/w.tar.gz#WLDIR”

    #WLDIR一定要，每个attemp中要生成该符号链接,指向Tasktracer/distcache中已经自动解压的文件夹，文件夹中有white_list_1,white_list_2

    -file ./map.py \

    -file ./red.py

3、重大变动：修改map.py程序

-mapper "python map.py mapper_func WLDIR" \

可以看出map.py开始运行时，传入参数只能是WLDIR，表示压缩的HDFS文件分发到compute node后自动解压得到的目录

因此map.py要修改程序为遍历WLDIR字符串代表的目录，找到每个文件，然后再对每个文件做处理

4、运行run.sh，提交任务，观察数据节点上的文件分发

运行结束后, jobcache下的所有内容，以及distcache下的所有内容，将全部清空

MapReduce-实践1的更多相关文章

大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. ...
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制. WordCount: 1.应用场景,在大量文件中存储了 ...
大数据系列之数据仓库Hive命令使用及JDBC连接
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
MapReduce 原理与 Python 实践
MapReduce 原理与 Python 实践 1. MapReduce 原理以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解 Hadoop 的 MapReduce ...
【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3 MapReduce理论与动手实践
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
[转] Hadoop MapReduce开发最佳实践（上篇）
前言本文是Hadoop最佳实践系列第二篇,上一篇为<Hadoop管理员的十个最佳实践>. MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop ...
Mapreduce简要原理与实践
探索Mapreduce简要原理与实践目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapred ...

随机推荐

201521123079《java程序设计》第14周学习总结
PTA反馈问卷雨课堂反馈问卷本次作业参考文件数据库PPT MySql操作视频与数据库相关jar文件请参考QQ群文件. 本周课程设计发布 Java课程设计本周学习总结 1.1 以你喜欢的方式(思 ...
Java：类类型变量
在java中有一种被称为类类型的变量,它不同于基本类型变量存储值的方式.不管是基本变量还是类类型变量,都实现为一个内存位置.但是,由于基本变量所需的内存数量是相同的,所以系统可以给它设置一个固定的空间 ...
Java报文或者同步的数据有个别乱码情况的处理.
从其它系统获取到的用户数据,1万多条数据有其中有2条数据是乱码形式,这种形式表现为最后一个字符和本身的分隔符组成了一个乱码错误数据 : 220296|+|黄燕鄚+|7|+|7|+|02220 ...
JSTL常用标签
JSTL标签常用:http://blog.csdn.net/imust_can/article/details/6965756
JDBC在javaweb中的应用之分页数据查询
分页查询分页查询是java web开发中经常使用到的技术.在数据库中数据量非常大的情况下,不适合将所有的数据全部显示到一个页面中,同时为了节约程序以及数据库的资源,就需要对数据进行分页查询操作. 通 ...
Extjs2.0 desktop 动态创建桌面图标和开始菜单
这几天一直纠结Extjs desktop怎么动态读取数据,用Ext.net已经实现但是不灵活.Ext.net做出来的桌面在窗口关闭后只是隐藏该窗口,并没有释放,对于我这种js菜鸟来说,改那一坨代码要人 ...
shell脚本进阶之条件测试与条件语句
接着上篇博客,今天整理一下关于条件测试和条件语句方面的知识. shell脚本进阶之条件测试在编写shell脚本时,经常需要对一些条件进行判断,可以使用测试命令test辅助完成测试过程.t ...
简单实用的CSS网页布局中文排版技巧
由于汉字的特殊性,在css网页布局中,中文排版有别于英文排版.排版是一个麻烦的问题,小编认为,作为一个优秀的网页设计师和网页制作人员,掌握一些简单的中文排版技巧是不可或缺的,所以今天特意总结了几个简单 ...
SiganlR 系列之概述
简介 SignalR 是微软的 http 长连接(以下简称长连接)框架,它的出现为我们提供了一套行之有效的实时通信的解决方案. 背景在http 1.0 时代,preRequest 都会建立新的tcp ...
S2_SQL_第一章
第一章:数据库的设计 1.1:为什么需要规范数据库的设计 1.1.1:什么是数据库设计数据库设计就是将数据中的数据实体及这些数据实体之间的关系,进行规范和结构的过程. 1.1.2:数据库设计非常重要 ...