hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式

hadoop切割与读取输入文件的方式被定义在InputFormat接口的一个实现中。TextInputFormat是默认的实现，当你想要一次获取一行内容作为输入数据时又没有确定的键。从TextInputFormat返回的键为每行的字节偏移量，但眼下没看到用过

曾经在mapper中曾使用LongWritable（键）和Text（值），在TextInputFormat中，由于键是字节偏移量。能够是LongWritable类型，而当使用KeyValueTextInputFormat时，第一个分隔符前后都是Text类型，所以你必须改动mapper的实现以及map（）方法来适应这个新键类型

一个MapReduce的输入不一定是外部数据，经常是一些其它MapReduce的输出数据，还能够自己定义输出格式，默认的输出格式与KeyValueTextInputFormat能够读取的的数据格式保持一致（记录中的每行均为一个由制表符分隔的键和值），只是Hadoop提供了更加有效的二进制压缩文件格式。称为序列文件，这个序列文件为hadoop处理做了优化。当连接多个MapReduce作业时，它是首选，读取序列文件的类为SequenceFileInputFormat，序列文件的键和值对象能够由用户自己定义。输出和输入类型必须匹配

自己定义InputFormat，实现两个方法：

getSplit（）确定全部用于输入数据的文件，并将输入数据切割为输入分片，每一个map任务处理一个分片

getRecordReader（）循环提取给定分片中的记录，并解析每一个记录为提前定义类型的键和值

在实际情况中一个分片总是以数据块为大小，在HDFS中默认一个块为64MB

FileInputFormat中isSplitable（）方法。检查你能否够将给定文件分片，默认返回为true。有时你可能想要一个文件为其自身的分块，这时能够设定返回为false

LineRecordReader实现RecordReader，基于实现的封装，大多数操作存放在next中

我们通过扩展FileInputFormat生成我们的InputFormat类，并实现一个factory方法来返回recordreader

除了类的构建之外，TimeUrlRecordReader会在RecordReader实现6种方法，它主要在KeyValueInputFormat之外的一个封装，但吧记录的Text类型转换为URLWritable

输出数据到文件时，使用的是OutputFormat。由于每一个reducer仅需将它的输出写入自己的文件里，输出不须要分片。

输出文件放在一个公用文件夹中。通常命名为part-nnnnn。这里的nnnnn是reducer的分区ID。RecordWriter对输出结果进行格式化。而RecordReader对输入格式进行解析

NullOutPutFormat简单的实现了OutputFormat，无输出。并不须要继承FileOutputFormat。更基本的是OutputFormat（InputFormat）处理的是数据库。并不是文件

个性化输出能够在继承了FileOutputFormat的类中的封装的继承RecordReader类中的write（）方法。假设不仅仅想输出到文件里

jar -xvf ../example.jar 解压jar包

向hdfs迁移本地文件能够，程序中地址别写错了，别写成其它不关联的机子上的

在eclipse中写完程序，打成jar包。放到hadoop目录下，执行hadoop指令能够查看结果

若运用第三方插件fatjar，将mapreduce的jar包和jedis的jar包整合到一起放入hadoop。这样不须要改动manifest配置信息

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbmVlZGthbmU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="">

我们导出jar包（不用包括hadoop的jar包）放入hadoop目录下,执行hadoop命令,类用长名

package com.kane.hdfs;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.BlockLocation;

import org.apache.hadoop.fs.FileStatus;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.hdfs.DistributedFileSystem;

import org.apache.hadoop.hdfs.protocol.DatanodeInfo;

public class FindFileOnHDFS {

/**

* @param args

* @throws IOException

*/

public static void main(String[] args) throws IOException {

// TODO Auto-generated method stub

getHDFSNodes();

getFileLocal();

}

public static void getHDFSNodes() throws IOException {

//HDFS集群节点数

Configuration conf=new Configuration();

FileSystem fs=FileSystem.get(conf);

//获取分布式文件系统

DistributedFileSystem hdfs=(DistributedFileSystem)fs;

//获取全部的节点数

DatanodeInfo[] dataNodeStats=hdfs.getDataNodeStats();

//循环打印

for (int i = 0; i < dataNodeStats.length; i++) {

System.out.println("DataNode_"+i+"_Name:"+dataNodeStats[i].getHostName());

}

}

/**

* 查找某个文件在HDFS集群的位置

* @throws IOException

*/

public static void getFileLocal() throws IOException {

Configuration conf=new Configuration();

FileSystem hdfs=FileSystem.get(conf);

Path fPath=new Path("user/hadoop/20120722");//word.txt

//获取文件系统里面的文件信息

FileStatus fileStatus=hdfs.getFileStatus(fPath);

//获取文件的块信息

BlockLocation[] blkLocations=hdfs.getFileBlockLocations(fileStatus, 0, 1000);

int blockLen=blkLocations.length;

for (int i = 0; i < blockLen; i++) {

String[] hosts=blkLocations[i].getHosts();

System.out.println("block_"+i+"_location"+hosts[0]);

}

}

}

搭建三种模式，一般默认单机模式：不使用HDFS，也不载入不论什么守护进程，主要用于开发调试

伪分布模式在“单节点集群”上执行hadoop，当中全部守护进程都在一台机子上，添加了代码调试功能。同意检查内存使用情况，HDFS输入输出。以及其它的守护进程交互

全分布模式。真实情况用这样的模式。强调分布式存储和分布式计算，明白声明了NameNode和JobTracker守护进程所在的主机名。

增大了HDFS备份參数发挥分布式存储优势

hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式的更多相关文章

小白学习VUE第一篇文章---如何看懂网上搜索到的VUE代码或文章---使用VUE的三种模式：
小白学习VUE第一篇文章---如何看懂网上搜索到的VUE代码或文章---使用VUE的三种模式: 直接引用VUE; 将vue.js下载到本地后本目录下使用; 安装Node环境下使用; ant-desig ...
ios网络学习------4 UIWebView的加载本地数据的三种方式
ios网络学习------4 UIWebView的加载本地数据的三种方式分类: IOS2014-06-27 12:56 959人阅读评论(0) 收藏举报 UIWebView是IOS内置的浏览器, ...
Intel微处理器学习笔记（二）三种模式
三种模式:实模式.保护模式和平展模式. 实模式存储器(DOS存储器)位于00000H~FFFFFH,共1M空间(任何型号微处理器都支持). 保护模式存储器(Windows存储器)可位于整个保护存储系统 ...
Hadoop学习之路（十九）MapReduce框架排序
流量统计项目案例样本示例需求 1. 统计每一个用户(手机号)所耗费的总上行流量.总下行流量,总流量 2. 得出上题结果的基础之上再加一个需求:将统计结果按照总流量倒序排序 3. 将流量汇总统计结果 ...
Hadoop学习之路（二十七）MapReduce的API使用（四）
第一题下面是三种商品的销售数据要求:根据以上数据,用 MapReduce 统计出如下数据: 1.每种商品的销售总金额,并降序排序 2.每种商品销售额最多的三周第二题:MapReduce 题现有 ...
Hadoop学习之路（二十一）MapReduce实现Reduce Join（多个文件联合查询）
MapReduce Join 对两份数据data1和data2进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接. 如果数据量比较大,在内存进行连接操会发生OOM.mapredu ...
Hadoop学习之路（二十）MapReduce求TopN
前言在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作. 技术点 MapR ...
学习 IOC 设计模式前必读：依赖注入的三种实现
一直以来就是越难的东西越值钱! 嘿嘿,这篇博文章转载自:http://www.cnblogs.com/liuhaorain/p/3747470.html 摘要面向对象设计(OOD)有助于我们开发出高 ...
用css伪类制作三角形的三种方法
在手机上写三角形的时候,我一般都用伪类,刚开始的时候用的图片,但是在现在的手机高清屏幕上,图片容易失真,还是用伪类吧! 第一种:一个90度的“ > ”, 只有线条.(可以做下拉框的箭头之类的) ...

随机推荐

OpenStack使用Bosh部署CloudFoundry(一)—准备OpenStack环境
版本说明: CloudFoundry:V2版本 OpenStack:Folsom或者Grizzly版本本篇文章采用OpenStack Folsom+nova-network的OpenStack环境, ...
【Cloud Foundry】Could Foundry学习（二）——核心组件分析
在阅读的过程中有不论什么问题,欢迎一起交流邮箱:1494713801@qq.com QQ:1494713801 Cloud Foundry核心组件架构图例如以下: 主要组件: Clou ...
主从mysql 同步设置
GRANT REPLICATION SLAVE ON *.* TO 'root'@'%' IDENTIFIED BY 'zhoubt';grant all privileges on *.* to ...
iOS 5 故事板入门（3）
原文: http://www.raywenderlich.com/5138/beginning-storyboards-in-ios-5-part-2 Segues 介绍是时候在我们的故事板中加入更 ...
程序猿的量化交易之路（26）--Cointrader之Listing挂牌实体（13）
转载须注明出处:http://blog.csdn.net/minimicall? viewmode=contents,http://cloudtrade.top Listing:挂牌. 比方某仅仅股票 ...
（二）----HTTP请求头与响应头
一.HTTP头引入: 正确的设置HTTP头部信息有助于搜索引擎判断网页及提升网站访问速度.通常HTTP消息包括:客户机向服务器的请求消息和服务器向客户机的响应消息.客户端向服务器发送一个请求,请求头 ...
ME21N增强提示警告消息
在ME21N增强中,可以使用message的方法提示错误的消息,但警告消息使用message则提示不了,需要使用系统宏mmpur_message 提示. data:begin of lw_equp, ...
HTML5文件上传还有进度条
以下是自学it网--中级班上课笔记网址:www.zixue.it 需要在chrome,ff,IE10下运行 html页面 <!DOCTYPE html> <html lang=&q ...
Java线程的生命周期（转）
Java线程的生命周期一个线程的产生是从我们调用了start方法开始进入Runnable状态,即可以被调度运行状态,并没有真正开始运行,调度器可以将CPU分配给它,使线程进入Running状态,真正 ...
Mysql rr和rc隔离
REPEATABLE READ This is the default isolation level for InnoDB. For consistent reads, there is an im ...

hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式

hadoop学习；自己定义Input/OutputFormat；类引用mapreduce.mapper；三种模式的更多相关文章

随机推荐

热门专题