Maprduce数据流走向图

 
流程解释
 
 Input files
  
     功能描述:存储在HDFS中的文件数据
     
 InputFormat
     
     功能描述:1,选取数据对象  2,分割数据文件 3,读取数据对象
     实现参考:
               

        

     重写参考:
               由于InputFormat包含了InputSplit类和RecordReader类的应用,故重写时可以先定义好数据结构后重写InputSplit和RecordReader类进行实现。文章参                           考:
               http://blog.csdn.net/anbo724/article/details/6956286               
                   http://www.blogjava.net/shenh062326/
 
 InputSplits
 
     功能描述:一个map处理掉的数据单元为一个split,默认大小为64M
    重写参考:
               先将函数isSplitable(JobContext context, Path file)的返回值置为TRUE,而后重写List<InputSplit> getSplits(JobContext job),文章参考:
                    http://opqaz.iteye.com/blog/1604486
 
 
RecordReader
 
     功能描述:读取数据对象
     重写参考:
               RecordReader类是文件读取、数据填充的重要类。文章参考:http://blog.csdn.net/anbo724/article/details/6955175
 
map
 
     功能描述:接收键值对<key,value>,根据需求进行相应处理
     重写参考:
               重写void map(Object key, Text value, Context context )函数,参考WordCount例子
 
Partition & Shuffle
 
     功能描述:map处理完成后,数据通过Partition & Shuffle进行合并同类项,将相同的key的数据放在同一个节点
     重写参考:由于Partition类通过hashCode()函数实现相同key存放同一节点,故重写放在WritableComparable接口的hashCode()函数
 
sort
 
     功能描述:根据key进行在单节点下进行排序
 
reduce
 
     功能描述:接收排序完的键值对<key,value>,根据需求进行相应处理
     重写参考:重写void reduce(Text key, Iterable<IntWritable> values, Context context)函数,参考WordCount例子
 
OutputFormat
               
         功能描述:数据输出
         实现参考:

        

          重写参考:重写RecordWriter类。文章参考:http://blog.csdn.net/anbo724/article/details/6956477

Maprduce数据流补充图

   

    

Combiner:
     
     功能描述:单节点内对数据进行合并(诸如WordCount中对相同key进行累加)
    重写参考:
               该类功能可选,如果reduce类能实现自定义合并或者不需要合并功能,该类可以直接跳过:conf.setCombinerClass(Reduce.class);
 

Maprduce重写参考的更多相关文章

  1. Java基础-重写方法

    一般我们需要在新类上重写,两个类的实现: class Animal{ public void move(){ System.out.println("动物可以移动"); } } c ...

  2. 使用URLRewriter实现URL重写

    优点 1)隐藏真实URL,提高安全性 2)更加友好的URL,好记(看博客园就行知道啦) 3)便于搜素引擎收录 ......... 可能的缺点 使用URL重写可能导致: 1)图片路径的问题 2)CSS路 ...

  3. 解析大型.NET ERP系统 单据标准(新增,修改,删除,复制,打印)功能程序设计

    ERP系统的单据具备标准的功能,这里的单据可翻译为Bill,Document,Entry,具备相似的工具条操作界面.通过设计可复用的基类,子类只需要继承基类窗体即可完成单据功能的程序设计.先看标准的销 ...

  4. Java中的会话管理——HttpServlet,Cookies,URL Rewriting(译)

    参考谷歌翻译,关键字直接使用英文,原文地址:http://www.journaldev.com/1907/java-session-management-servlet-httpsession-url ...

  5. 2016年3月9日Android实习日记

    1. 解决 org.eclipse.swt.SWTException: Graphic is disposed 问题. 参考:http://www.xuebuyuan.com/1896964.html ...

  6. (转)JDK工具-javadoc命令

    背景:最近在学习java基础知识,看到文档注释部分,一种是在dos命令下生成api文件,另一种是在eclipse下生成api文件.dos方式在<疯狂java讲义>中有详细的说明,eclip ...

  7. Java 中的会话管理—— HttpServlet,Cookies,URL Rewriting(转)

    索引 1.什么是 Session? 2.Java 中的会话管理—— Cookie 3.Java Servlet 中的 Session —— HttpSession 理解 JSESSIONID Cook ...

  8. Springboot Actuator之五:Springboot中的HealthAggregator、新增自定义Status

    springboot的actuator内置了/health的endpoint,很方便地规范了每个服务的健康状况的api,而且HealthIndicator可以自己去扩展,增加相关依赖服务的健康状态,非 ...

  9. 伪静态重写模块rewrite.dll及httpd.ini文件参考下载

    伪静态重写模块rewrite.dll及httpd.ini文件参考下载 http://www.ledaokj.com/download/rewrite.rar 服务器端开启伪静态,可以查看以下文章< ...

随机推荐

  1. 工作“触雷”经历与总结--记博弈论的应用

    工作三年,职场受挫.一些值得说或者不值得说的事情,也懒得去记录.无奈,更多时无奈.内心的骄傲或者自负也不值得炫耀.天生骄傲,或者也只是自身内心的呐喊.毕竟,骄傲的人也不会说出来,搞的好像是有点似得. ...

  2. 【开发】Dialog 对话框

    提示:Dialog 继承自 Panel,有大量的方法在 Panel 中已被定义,可以复用. Dialog API:http://www.jeasyui.net/plugins/181.html Pan ...

  3. 九度OJ 1024 畅通工程 -- 并查集、贪心算法(最小生成树)

    题目地址:http://ac.jobdu.com/problem.php?pid=1024 题目描述:     省政府"畅通工程"的目标是使全省任何两个村庄间都可以实现公路交通(但 ...

  4. Web前端新人笔记之jquery入门

    本章将为大家介绍以下几点内容: 1.jquery的主要特点: 2.建立jquery的编码环境: 3.简单jquery脚本示例: 4.选择jquery而不是纯javaScript的理由: 5.常用的jq ...

  5. jQuery 选择器(转)

    jQuery 选择器 选择器 实例 选取 * $("*") 所有元素 #id $("#lastname") id="lastname" 的元 ...

  6. 不同的extend 在调用构造函数时不同的写法

     /**  * jQuery.hhNewSilder 滚动图片插件  * User: huanhuan  * QQ: 651471385  * Email: th.wanghuan@gmail.com ...

  7. rpm方式安装gcc缺少依赖项的解决方法

    使用rpm方式安装gcc时,有时会报缺少依赖项: libmpfr.so.1 is needed by cpp-4.4.4-13.el6.i686 libppl.so.7 is needed by cl ...

  8. entity framework mysql 那些写法你碰不得

    记 几次 ef 数据查询踩到的坑......未完待续

  9. 如何更改Chrome默认的搜索引擎

    1 打开Chrome浏览器之后,点击窗口右上角的图标,在弹出的菜单中点击设置,如图所示: 2  在打开的窗口中,点击管理搜索引擎,如下图所示: 3 在弹出的窗口中,找到百度的搜索引擎或者bing的搜索 ...

  10. 查找计算机IP及占用端口

    1. 在电脑启动搜索框,输入cmd回车打开命令提示符窗口. 输入ipconfig,就可以查看电脑的子网淹没,默认网关,IP等信息. 2. 查看本机开放的端口,即已被占用的端口号. 命令: netsta ...