hadoop 分布式缓存

Hadoop 分布式缓存实现目的是在所有的MapReduce调用一个统一的配置文件，首先将缓存文件放置在HDFS中，然后程序在执行的过程中会可以通过设定将文件下载到本地具体设定如下：

public static void main(String[] arge) throws IOException, ClassNotFoundException, InterruptedException{

       Configuration conf=new Configuration();
       conf.set("fs.default.name", "hdfs://192.168.1.45:9000");
       FileSystem fs=FileSystem.get(conf);
       fs.delete(new Path("CASICJNJP/gongda/Test_gd20140104"));

       conf.set("mapred.job.tracker", "192.168.1.45:9001");
       conf.set("mapred.jar", "/home/hadoop/workspace/jar/OBDDataSelectWithImeiTxt.jar");
       Job job=new Job(conf,"myTaxiAnalyze");


       DistributedCache.createSymlink(job.getConfiguration());//
       try {
           DistributedCache.addCacheFile(new URI("/user/hadoop/CASICJNJP/DistributeFiles/imei.txt"), job.getConfiguration());
       } catch (URISyntaxException e1) {
           // TODO Auto-generated catch block
           e1.printStackTrace();
       }
       job.setMapperClass(OBDDataSelectMaper.class);
       job.setReducerClass(OBDDataSelectReducer.class);
       //job.setNumReduceTasks(10);
       //job.setCombinerClass(IntSumReducer.class);
       job.setMapOutputKeyClass(Text.class);
       job.setMapOutputValueClass(Text.class);

       FileInputFormat.addInputPath(job, new Path("/user/hadoop/CASICJNJP/SortedData/20140104"));
       FileOutputFormat.setOutputPath(job, new Path("CASICJNJP/gongda/SelectedData"));

       System.exit(job.waitForCompletion(true)?0:1);

   }

代码中标红的为将HDFS中的/user/hadoop/CASICJNJP/DistributeFiles/imei.txt作为分布式缓存

public class OBDDataSelectMaper extends Mapper<Object, Text, Text, Text> {
   String[] strs;
   String[] ImeiTimes;
   String timei;
   String time;
   private java.util.List<Integer> ImeiList = new java.util.ArrayList<Integer>();

protected void setup(Context context) throws IOException,
InterruptedException {

       try {
           Path[] cacheFiles = DistributedCache.getLocalCacheFiles(context
                   .getConfiguration());
           if (cacheFiles != null && cacheFiles.length > 0) {
               String line;
               BufferedReader br = new BufferedReader(new FileReader(
                       cacheFiles[0].toString()));
               try {
                   line = br.readLine();
                   while ((line = br.readLine()) != null) {
                       ImeiList.add(Integer.parseInt(line));
                   }
               } finally {
                   br.close();
               }
           }
       } catch (IOException e) {
           System.err.println("Exception reading DistributedCache: " + e);
       }
   }

public void map(Object key, Text value, Context context)
throws IOException, InterruptedException {

try {
           strs = value.toString().split("\t");
           ImeiTimes = strs[0].split("_");
           timei = ImeiTimes[0];
           if (ImeiList.contains(Integer.parseInt(timei))) {
               context.write(new Text(strs[0]), value);
           }
       } catch (Exception ex) {

}
}
}

上述标红代码中在Map的setup函数中加载分布式缓存。

hadoop 分布式缓存的更多相关文章

Hadoop 之分布式缓存的原理和方法——DistributedCache
1.什么时Hadoop的分布式缓存答:在执行MapReduce时,可能Mapper之间需要共享一些信息,如果信息量不大,可以将其从HDFS中加载到内存中,这就是Hadoop分布式缓存机制. 2.如何 ...
深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存(企业Hadoop应用核心产品)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统 ...
hadoop中的分布式缓存——DistributedCache
分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这 ...
Hadoop DistributedCache分布式缓存的使用
做项目的时候遇到一个问题,在Mapper和Reducer方法中处理目标数据时,先要去检索和匹配一个已存在的标签库,再对所处理的字段打标签.因为标签库不是很大,没必要用HBase.我的实现方法是把标签库 ...
分布式缓存Memcached---开篇的话
大数据.高并发这是最近一段时间内被IT行业提的最为火热的概念,看过<大数据时代>的同学应该不会陌生大数据的概念,尤其是对于互联网行业来说,大数据是每天都要接触的问题,简单通俗地说,每天得大 ...
Hadoop 分布式文件系统：架构和设计
引言 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统.它和现有的分布式文件系统有很多共同点.但同时,它和其他的分布式文件系统 ...
【官方文档】Hadoop分布式文件系统：架构和设计
http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html 引言前提和设计目标硬件错误流式数据访问大规模数据集简单的一致性模型 “移动计 ...
使用map端连接结合分布式缓存机制实现Join算法
前面我们介绍了MapReduce中的Join算法,我们提到了可以通过map端连接或reduce端连接实现join算法,在文章中,我们只给出了reduce端连接的例子,下面我们说说使用map端连接结合分 ...
Lucene + Hadoop 分布式搜索运行框架 Nut 1.0a9转自http://www.linuxidc.com/Linux/2012-02/53113.htm
1.概述不管程序性能有多高,机器处理能力有多强,都会有其极限.能够快速方便的横向与纵向扩展是Nut设计最重要的原则,以此原则形成以分布式并行计算为核心的架构设计.以分布式并行计算为核心的架构设计是N ...

随机推荐

ASP.Net后台实现先弹出对话框，再跳转到另一个网页的实现方法
解决办法如下: Response.Write("<script>alert('想在对话框中显示的内容');window.navigate(‘要转到的页面的URL’)</sc ...
python eval和literal_eval
eval是python中一个相当智能的函数,把参数当成表达式,进行最大限度的解析, 比如: a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]" b ...
解决eclipse中maven web工程打包成war(发布到tomcar)时lib中没有jar包的解决方法
可能有两个原因:1.maven中某些jar包下载不下来从其他地方下载jar文件放到相应maven本地库的.m2里2..classpath文件中缺少(下面代码的作用是制定maven的jar发布路径)& ...
PHP魔术方法在框架中的应用
class usermodel{ protected $email='user@163.com'; protected $data=array(); public function __set($k, ...
MVC - 11（上）.DTO
1.重要:javaScriptSerializer 无法识别被序列化的对象里各种属性是否存在循环依赖 (System,Web.Script.Serialization.JavaScriptSeri ...
与你相遇好幸运，Linux常用命令
开机挂载硬盘 cat /etc/fstab /dev/sda1 /mnt/sda1 ext3 defaults 0 0 挂载硬盘 mount /dev/sdb5 /home/dis ...
Win10开机提示Resume from Hibernation该怎么办?
Windows10系统的电脑开机提示:Resume from Hibernation(从休眠恢复),这是电脑没有真正关机,而是上次关机时进入了[休眠状态],所以开机时提示:从休眠恢复.如何解决Wind ...
Sexagenary Cycle（天干地支法表示农历年份）
Sexagenary Cycle Time Limit: 2 Seconds Memory Limit: 65536 KB 题目链接:zoj 4669 The Chinese sexagen ...
无废话ExtJs 入门教程十六[页面布局：Layout]
无废话ExtJs 入门教程十六[页面布局:Layout] extjs技术交流,欢迎加群(201926085) 首先解释什么是布局: 来自百度词典的官方解释:◎ 布局 bùjú: [distributi ...
Linux中带颜色输出的printf使用简介(\033)
昨晚懒得FQ, 百度了一下linux中printf输出颜色的方法, 结果搜索结果质量让人倍感伤心. 越来越不想用bd了.还是Google一下吧, 手气真好, 第一个内容就很清楚明了! 我还是直接简单翻 ...

hadoop 分布式缓存

hadoop 分布式缓存的更多相关文章

随机推荐

热门专题