Hadoop DistributedCache分布式缓存的使用

做项目的时候遇到一个问题，在Mapper和Reducer方法中处理目标数据时，先要去检索和匹配一个已存在的标签库，再对所处理的字段打标签。因为标签库不是很大，没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件，用分布式缓存存储，这样让每个slave都能读取到这个文件。

main方法中的配置：

//分布式缓存要存储的文件路径

String cachePath[] = {

                "hdfs://10.105.32.57:8020/user/ad-data/tag/tag-set.csv",

                "hdfs://10.105.32.57:8020/user/ad-data/tag/TagedUrl.csv"

        };

//向分布式缓存中添加文件

        job.addCacheFile(new Path(cachePath[]).toUri());

        job.addCacheFile(new Path(cachePath[]).toUri());

参考上面代码即可向分布式缓存中添加文件。

在Mapper和Reducer方法中读取分布式缓存文件：

/*

 * 重写Mapper的setup方法，获取分布式缓存中的文件

 */

    @Override

    protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)

                   throws IOException, InterruptedException {

        // TODO Auto-generated method stub

        super.setup(context);

        URI[] cacheFile = context.getCacheFiles();

        Path tagSetPath = new Path(cacheFile[]);

        Path tagedUrlPath = new Path(cacheFile[]);

        文件操作(如把内容读到set或map中);

    }

@Override

public void map(LongWritable key, Text value, Context context)

            throws IOException, InterruptedException {

            在map()中使用读取出的数据;

      }

同样，如果在Reducer中也要读取分布式缓存文件，示例如下：

/*

 * 重写Reducer的setup方法，获取分布式缓存中的文件

 */

    @Override

    protected void setup(Context context)

                   throws IOException, InterruptedException {

        super.setup(context);

        mos = new MultipleOutputs<Text, Text>(context);

        URI[] cacheFile = context.getCacheFiles();

        Path tagSetPath = new Path(cacheFile[]);

        Path tagSetPath = new Path(cacheFile[]);

        文件读取操作;

    }

 @Override

  public void reduce(Text key, Iterable<Text> values, Context context)

              throws IOException, InterruptedException {

      while(values.iterator().hasNext()){

          使用读取出的数据;

      }

       context.write(key, new Text(sb.toString()));

      }

Hadoop DistributedCache分布式缓存的使用的更多相关文章

Hadoop 之分布式缓存的原理和方法——DistributedCache
1.什么时Hadoop的分布式缓存答:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS中加载到内存中,这就是Hadoop分布式缓存机制. 2.如何 ...
9.3.1 map端连接- DistributedCache分布式缓存小数据集
1.1.1 map端连接- DistributedCache分布式缓存小数据集当一个数据集非常小时,可以将小数据集发送到每个节点,节点缓存到内存中,这个数据集称为边数据.用map函数 ...
.net 分布式架构之分布式缓存中间件
开源git地址: http://git.oschina.net/chejiangyi/XXF.BaseService.DistributedCache 分布式缓存中间件方便实现缓存的分布式,集群, ...
hadoop中的分布式缓存——DistributedCache
分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这 ...
hadoop 分布式缓存
Hadoop 分布式缓存实现目的是在所有的MapReduce调用一个统一的配置文件,首先将缓存文件放置在HDFS中,然后程序在执行的过程中会可以通过设定将文件下载到本地具体设定如下: public s ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
分布式缓存DistributedCache的使用
分布式缓存用于将使用的小文件首先分发到各个datanode节点上,然后利用map/reduce阶段的setup()方法将文件内容读入内存,加快程序执行.具体实现方法如下: http://demievi ...
大数据【四】MapReduce（单词计数；二次排序；计数器；join；分布式缓存）
前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了.本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分 ...
MapReduce中的分布式缓存使用
MapReduce中的分布式缓存使用 @(Hadoop) 简介 DistributedCache是Hadoop为MapReduce框架提供的一种分布式缓存机制,它会将需要缓存的文件分发到各个执行任务的 ...

随机推荐

PHP魔术变量和魔术方法
基础知识:魔术变量和魔术方法魔术变量:最初PHP魔术变量的出现主要是为了方便开发者调试PHP的代码;当然也可以利用这个实现特殊需求.在写法上魔术变量前后都有两个下划线. 如:_LINE_:返回文件中 ...
css笔记 - 张鑫旭css课程笔记之 absolute 篇
absolute地址 absolute绝对定位绝对定位与浮动鲜为人知的兄弟关系即是说,absolute后,元素和浮动元素的特性差不多,只不过absolute脱离文档流,元素飘在天上,float还在 ...
win7 查看当前java路径
C:\Users\zh>where javaC:\Windows\System32\java.exeD:\TOOL\jdk1.8.0_91\bin\java.exeD:\TOOL\jdk1.8. ...
Android 查看system/bin目录下支持哪些命令？
C:\Users\yonghuming>adb shell "ls system/bin" >log acpiadbdamapp_processapp_process3 ...
IIS6配置后仍然无法解析json文件解决办法
两台服务器,都是Windows Server2003,照着以下办法设置后,一台可以访问到json文件,一台不可以. 1． MIME设置: 在IIS的站点属性的HTTP头设置里,选MIME 映射中点击” ...
mybatis generator如何定制JavaTypeResolver，使smallint类型的数据库字段在po中的类型为Integer？
一.问题概述忙了一段时间的jenkins持续集成,又要开始开发任务了.这两天在用mybatis generator来逆向生成dao层工程. 其中一个问题在于,组长在设计表的时候,不少枚举使用了sma ...
23种设计模式之备忘录模式（Memento）
备忘录模式确保在不破坏封装的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态,这样可以在以后将对象恢复到原先保存的状态.备忘录模式提供了一种状态恢复的实现机制,使得用户可以方便地回到一个特定 ...
[APP] Android 开发笔记 004-Android常用基本控件使用说明
TextView 文本框 EditText控件 Button 与 ImageButton ImageView RadioButton CheckBox复选框 TextView 文本框 ,用于显示文本的 ...
自动释放池autoreleasepool
自动释放池是NSAutoreleasePool的实例,其中包含了收到autorelease消息的对象.当一个自动释放池自身被销毁(dealloc)时,它会给池中每一个对象发送一个release消息(如 ...
Unity3D笔记英保通五鼠标事件与GUI系统双击检测
一.如何使用GUI事件来检测鼠标是否按下的事件: 获取当前事件:var e:Event=Event.current: using UnityEngine; using System.Collectio ...

Hadoop DistributedCache分布式缓存的使用

Hadoop DistributedCache分布式缓存的使用的更多相关文章

随机推荐

热门专题