hadoop InputSplit

/**

 * <code>InputSplit</code> represents the data to be processed by an

 * individual {@link Mapper}.

 * InputSplit 代表可以被Mapper处理的数据

 * <p>Typically, it presents a byte-oriented view on the input and is the

 * responsibility of {@link RecordReader} of the job to process this and present

 * a record-oriented view.

 *

 * @see InputFormat

 * @see RecordReader

 */

@InterfaceAudience.Public

@InterfaceStability.Stable

public abstract class InputSplit {

  /**

   * Get the size of the split, so that the input splits can be sorted by size.

   * @return the number of bytes in the split

   * @throws IOException

   * @throws InterruptedException

   * split的长度用byte表示

   */

  public abstract long getLength() throws IOException, InterruptedException;

  /**

   * Get the list of nodes by name where the data for the split would be local.

   * The locations do not need to be serialized.

   * 获取split所在的节点

   * @return a new array of the node nodes.

   * @throws IOException

   * @throws InterruptedException

   */

  public abstract

    String[] getLocations() throws IOException, InterruptedException;

  /**

   * Gets info about which nodes the input split is stored on and how it is

   * stored at each location.

   * 返回split所在的节点信息以及在该节点上如何存储 memory

   * @return list of <code>SplitLocationInfo</code>s describing how the split

   *    data is stored at each location. A null value indicates that all the

   *    locations have the data stored on disk.

   * @throws IOException

   */

  @Evolving

  public SplitLocationInfo[] getLocationInfo() throws IOException {

    return null;

  }

}

hadoop InputSplit的更多相关文章

es第十篇：Elasticsearch for Apache Hadoop
es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce.hive.pig.cascading.spark)与es交互. A ...
工作采坑札记：4. Hadoop获取InputSplit文件信息
1. 场景基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名.由于同一条记录可能存在于多个文件中,且处于 ...
Hadoop源码分析之产生InputSplit文件过程
用户提交 MapReduce 作业后,JobClient 会调用 InputFormat 的 getSplit方法生成 InputSplit 的信息. 一个 MapReduce 任务 ...
Hadoop MapReduce执行过程详解（带hadoop例子）
https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 Map ...
Hadoop学习笔记—10.Shuffle过程那点事儿
一.回顾Reduce阶段三大步骤在第四篇博文<初识MapReduce>中,我们认识了MapReduce的八大步骤,其中在Reduce阶段总共三个步骤,如下图所示: 其中,Step2.1就 ...
hadoop分片分析
上一篇分析了split的生成,现在接着来说具体的split具体内容及其相关的文件和类.以FileSplit(mapred包下org/apache/hadoop/mapreduce/lib/input/ ...
hadoop输入分片计算(Map Task个数的确定)
作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split.默认是使用InputFormat的子类 ...
hadoop运行原理之Job运行(五) 任务调度
接着上篇来说.hadoop首先调度辅助型task(job-cleanup task.task-cleanup task和job-setup task),这是由JobTracker来完成的:但对于计算型 ...
Hadoop的数据输入的源码解析
我们知道,任何一个工程项目,最重要的是三个部分:输入,中间处理,输出.今天我们来深入的了解一下我们熟知的Hadoop系统中,输入是如何输入的? 在hadoop中,输入数据都是通过对应的InputFor ...

随机推荐

jsp中的一些细节和注意要点。。。。。简记
一: <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en&quo ...
线段树+矩阵快速幂 Codeforces Round #373 (Div. 2) E
http://codeforces.com/contest/719/problem/E 题目大意:给你一串数组a,a[i]表示第i个斐波那契数列,有如下操作 ①对[l,r]区间+一个val ②求出[l ...
noip2016 提高组
T1 玩具谜题题目传送门这道题直接模拟就好了哇 233 #include<cstdio> #include<cstring> #include<algorithm&g ...
网络流专题练习Day1
04/16 一共做了8道题首先网络流目前自己掌握的只有最大流Dinic算法和普通的费用流算法有空还要去学习一下SAP和ZKW费用流(flag早早立在前面以后看到都有动力... 但网络流的算法个人认 ...
线程局部存储 TLS
C/C++运行库提供了TLS(线程局部存储),在多线程还未产生时,可以将数据与正在执行的线程关联.strtok()函数就是一个很好的例子.与它一起的还有strtok_s(),_tcstok_s()等等 ...
Django-models class Meta:元类
Django模型之Meta选项详解 Model 元数据就是 "不是一个字段的任何数据" -- 比如排序选项, admin 选项等等. Django模型类的Meta是一个内部类, ...
python学习笔记 IO 文件读写
读写文件是最常见的IO操作.python内置了读写文件的函数. 读写文件前,我们先必须了解一下,在磁盘上读写文件的功能都是由操作系统完成的,现代操作系统不允许普通的程序直接对磁盘进行操作,所以, 读写 ...
c 語言控制碼
source code #include <stdio.h> int main() { char *test = "ABC\x41\n"; printf("s ...
python--selectors
import socket from selectors import DefaultSelector, EVENT_READ, EVENT_WRITE # 会根据当前的操作系统选择一个合适的文件描述 ...
php关于private、protected、public的区别
一句话总结: private 自己的 protected 父亲的 public 大众的

hadoop InputSplit

hadoop InputSplit的更多相关文章

随机推荐

热门专题