Maprduce数据流走向图

 
流程解释
 
 Input files
  
     功能描述:存储在HDFS中的文件数据
     
 InputFormat
     
     功能描述:1,选取数据对象  2,分割数据文件 3,读取数据对象
     实现参考:
               

        

     重写参考:
               由于InputFormat包含了InputSplit类和RecordReader类的应用,故重写时可以先定义好数据结构后重写InputSplit和RecordReader类进行实现。文章参                           考:
               http://blog.csdn.net/anbo724/article/details/6956286               
                   http://www.blogjava.net/shenh062326/
 
 InputSplits
 
     功能描述:一个map处理掉的数据单元为一个split,默认大小为64M
    重写参考:
               先将函数isSplitable(JobContext context, Path file)的返回值置为TRUE,而后重写List<InputSplit> getSplits(JobContext job),文章参考:
                    http://opqaz.iteye.com/blog/1604486
 
 
RecordReader
 
     功能描述:读取数据对象
     重写参考:
               RecordReader类是文件读取、数据填充的重要类。文章参考:http://blog.csdn.net/anbo724/article/details/6955175
 
map
 
     功能描述:接收键值对<key,value>,根据需求进行相应处理
     重写参考:
               重写void map(Object key, Text value, Context context )函数,参考WordCount例子
 
Partition & Shuffle
 
     功能描述:map处理完成后,数据通过Partition & Shuffle进行合并同类项,将相同的key的数据放在同一个节点
     重写参考:由于Partition类通过hashCode()函数实现相同key存放同一节点,故重写放在WritableComparable接口的hashCode()函数
 
sort
 
     功能描述:根据key进行在单节点下进行排序
 
reduce
 
     功能描述:接收排序完的键值对<key,value>,根据需求进行相应处理
     重写参考:重写void reduce(Text key, Iterable<IntWritable> values, Context context)函数,参考WordCount例子
 
OutputFormat
               
         功能描述:数据输出
         实现参考:

        

          重写参考:重写RecordWriter类。文章参考:http://blog.csdn.net/anbo724/article/details/6956477

Maprduce数据流补充图

   

    

Combiner:
     
     功能描述:单节点内对数据进行合并(诸如WordCount中对相同key进行累加)
    重写参考:
               该类功能可选,如果reduce类能实现自定义合并或者不需要合并功能,该类可以直接跳过:conf.setCombinerClass(Reduce.class);
 

Maprduce重写参考的更多相关文章

  1. Java基础-重写方法

    一般我们需要在新类上重写,两个类的实现: class Animal{ public void move(){ System.out.println("动物可以移动"); } } c ...

  2. 使用URLRewriter实现URL重写

    优点 1)隐藏真实URL,提高安全性 2)更加友好的URL,好记(看博客园就行知道啦) 3)便于搜素引擎收录 ......... 可能的缺点 使用URL重写可能导致: 1)图片路径的问题 2)CSS路 ...

  3. 解析大型.NET ERP系统 单据标准(新增,修改,删除,复制,打印)功能程序设计

    ERP系统的单据具备标准的功能,这里的单据可翻译为Bill,Document,Entry,具备相似的工具条操作界面.通过设计可复用的基类,子类只需要继承基类窗体即可完成单据功能的程序设计.先看标准的销 ...

  4. Java中的会话管理——HttpServlet,Cookies,URL Rewriting(译)

    参考谷歌翻译,关键字直接使用英文,原文地址:http://www.journaldev.com/1907/java-session-management-servlet-httpsession-url ...

  5. 2016年3月9日Android实习日记

    1. 解决 org.eclipse.swt.SWTException: Graphic is disposed 问题. 参考:http://www.xuebuyuan.com/1896964.html ...

  6. (转)JDK工具-javadoc命令

    背景:最近在学习java基础知识,看到文档注释部分,一种是在dos命令下生成api文件,另一种是在eclipse下生成api文件.dos方式在<疯狂java讲义>中有详细的说明,eclip ...

  7. Java 中的会话管理—— HttpServlet,Cookies,URL Rewriting(转)

    索引 1.什么是 Session? 2.Java 中的会话管理—— Cookie 3.Java Servlet 中的 Session —— HttpSession 理解 JSESSIONID Cook ...

  8. Springboot Actuator之五:Springboot中的HealthAggregator、新增自定义Status

    springboot的actuator内置了/health的endpoint,很方便地规范了每个服务的健康状况的api,而且HealthIndicator可以自己去扩展,增加相关依赖服务的健康状态,非 ...

  9. 伪静态重写模块rewrite.dll及httpd.ini文件参考下载

    伪静态重写模块rewrite.dll及httpd.ini文件参考下载 http://www.ledaokj.com/download/rewrite.rar 服务器端开启伪静态,可以查看以下文章< ...

随机推荐

  1. 记个maven无法识别JAVA_HOME的问题 Error: JAVA_HOME is not defined correctly.

    Error: JAVA_HOME is not defined correctly. We cannot execute /Library/Java/JavaVirtualMachines/jdk1. ...

  2. hdu 4850 Wow! Such String! 欧拉回路

    作者:jostree 转载请注明出处 http://www.cnblogs.com/jostree/p/4080264.html 题目链接:hdu 4850 Wow! Such String! 欧拉回 ...

  3. Cloudcraft: 云架构图形可视化(智能AWS图表)

    Cloudcraft: 云架构图形可视化(智能AWS图表) 2016.09.11 官方网站: https://cloudcraft.co/ Cloudcraft是一个Web应用,用图形表示各种AWS服 ...

  4. YII2框架动态创建表模型

    YII2框架动态创建表模型 在YII2中,每个表对应一个model类 在开发过程中,我们在填写一个大型表单的时候,表单里有N个select下拉列表,每个下拉select来自于不同的表: 如果要在程序里 ...

  5. MVC 中 使用TagBuilder扩展HtmlHelper

    TagBuilder就是标签建造器,我们就用它来建造属于我们自己标签生成函数. 无废话,直接上代码 例: using System.Web.Mvc; public static class HtmlE ...

  6. FontDialog组件设置字体

    1.设置字体 private void button3_Click(object sender, EventArgs e) { this.fontDialog1.ShowDialog(); this. ...

  7. Class.forName()的作用与使用总结(转载)

    转载自:Class.forName()的作用与使用总结 1.Class类简介: Java程序在运行时,Java运行时系统一直对所有的对象进行所谓的运行时类型标识.这项信息纪录了每个对象所属的类.虚拟机 ...

  8. vi 在行首尾添加字符串

    在行首尾添加字符串     用下列命令在文本每行的行首添加字符串“NewString”,请注意空格的存在.      :g/^/s//NewString/g     :%s/^/NewString/g ...

  9. 一步步学习ASP.NET MVC3 (12)——FileResult

    请注明转载地址:http://www.cnblogs.com/arhat 忙了两天,本来老魏昨天就应该写出新的文章,但是由于昨天雨夹雪而且加上昨天晚上加了班,到家都没饭吃了,一看时间都9点了,什么饭店 ...

  10. SDC(5)–FPGA系统级同步输入的约束

    此时计算最大/最小输入延时时,是不应该考虑FPGA本身的tSU/tH的,因为数据进来之后不一定马上送到DFF. 例如: 此时约束如下: