hadoop用mutipleInputs实现map读取不同格式的文件

mapmap读取不同格式的文件这个问题一直就有，之前的读取方式是在map里获取文件的名称，依照名称不同分不同的方式读取，比如以下的方式

//取文件名

InputSplit inputSplit = context.getInputSplit();

String fileName = ((FileSplit) inputSplit).getPath().toString();

if(fileName.contains("track")) {

} else if(fileName.contains("complain3")) {

}

这样的方式有两个问题，一是在每读入一条数据的时候都要获取文件的名称，二是要依据名称推断依照什么样的格式进行解析，显得非常丑陋，事实上hadoop提供了解决问题的方法

使用mutipleInputs来解决

public class MutipleInputsTest {

	private static String complain = "/dsap/rawdata/operate/complain3/";

	private static String csOperate = "/dsap/rawdata/creditSystemSearchLog/";

	private static String output = "/dsap/rawdata/mutipleInputsTest/result1";

	public static class Mapper1

    extends Mapper<Object, Text, Text, Text>{

		public void map(Object key, Text value, Context context

                 ) throws IOException, InterruptedException {

			Counter counter = context.getCounter("myCounter", "counter1");

			counter.increment(1l);

		}

	}

	public static class Mapper2

    extends Mapper<Object, Text, Text, Text>{

		public void map(Object key, Text value, Context context

                 ) throws IOException, InterruptedException {

			Counter counter = context.getCounter("myCounter", "counter2");

			counter.increment(1l);

		}

	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration();

		Job job = new Job(conf, "mutipleInputsTest");

		job.setJarByClass(MutipleInputsTest.class);

		MultipleInputs.addInputPath(job, new Path(complain + "20141217"), TextInputFormat.class, Mapper1.class);

		MultipleInputs.addInputPath(job, new Path(csOperate + "20141217"), TextInputFormat.class, Mapper2.class);

		FileOutputFormat.setOutputPath(job, new Path(output));

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(Text.class);

		job.waitForCompletion(true);

		/**获取自己定义counter的大小。假设等于质心的大小。说明质心已经不会发生变化了，则程序停止迭代*/

		long counter1 = job.getCounters().getGroup("myCounter").findCounter("counter1").getValue();

		long counter2 = job.getCounters().getGroup("myCounter").findCounter("counter2").getValue();

		System.out.println("counter:" + counter1 + "\t" + counter2);

	}

}

看一下执行结果

能够看到两个不同格式的文件进入了两个不同的mapper进行处理。这样在两个mapper里就能够仅仅针对某一种格式的文件进行解析了

hadoop用mutipleInputs实现map读取不同格式的文件的更多相关文章

内容写到 csv 格式的文件中及读取 csv 格式的文件内容
<?php/*把内容写到 csv 格式的文件中基本思路是:1.用 $fp = fopen("filename", 'mode')打开一个csv文件,可以是打开时才建立的2. ...
字符编码和字符集和编码引出的问题_FileReader读取GBK格式的文件
字符编码计算机中鵆的信息都是用二进制数表示的,而我们在屏幕上看到的数字.英文.标点符号.汉子等字符都是二进制数转换之后的结果.按照某种规则,将字符存储到计算机中,称为编码.反之,将存储在计算机中的二 ...
perl 读取json 格式的文件
使用JSON 模块中的 decode_json 函数,将json文件中的数据解码为perl 中的对象,然后进行处理代码如下: #!/usr/bin/env perl use JSON; use En ...
MATLAB读取一个文件夹下的多个子文件夹中的多个指定格式的文件
MATLAB需要读取一个文件夹下的多个子文件夹中的指定格式文件,这里以读取*.JPG格式的文件为例 1.首先确定包含多个子文件夹的总文件夹 maindir = 'C:\Temp Folder'; 2. ...
如何让Hadoop读取以gz结尾的文本格式的文件
背景: 搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符.xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件 ...
【hadoop】如何向map和reduce脚本传递参数,加载文件和目录
本文主要讲解三个问题: 1 使用Java编写MapReduce程序时,如何向map.reduce函数传递参数. 2 使用Streaming编写MapReduce程序(C/C++ ...
hadoop输入分片计算(Map Task个数的确定)
作业从JobClient端的submitJobInternal()方法提交作业的同时,调用InputFormat接口的getSplits()方法来创建split.默认是使用InputFormat的子类 ...
libxl 的使用，读取时间格式
最近开发使用到 libxl,用的是3.8.0 破解版. 具体过程: 1.将lib.dll放在exe同目录下,在代码中引用 libxl.lib #pragma comment(lib, ".\ ...
MapReduce: map读取文件的过程
我们的输入文件 hello0, 内容如下: xiaowang 28 shanghai@_@zhangsan 38 beijing@_@someone 100 unknown 逻辑上有3条记录, 它们以 ...

随机推荐

基于webpack搭建的vue+element-ui框架
花了1天多的时间, 终于把这个框架搭建起来了. 好了, 不多说了, 直接进入主题了.前提是安装了nodejs,至于怎么安装, 网上都有教程. 这里就不多说了, 这边使用的IDE是idea.1.在E:/ ...
71、django之Ajax续
接上篇随笔.继续介绍ajax的使用. 上篇友情连接:http://www.cnblogs.com/liluning/p/7831169.html 本篇导航: Ajax响应参数 csrf 跨站请求伪造 ...
Android开发之漫漫长途 Ⅴ——Activity的显示之ViewRootImpl的PreMeasure、WindowLayout、EndMeasure、Layout、Draw
该文章是一个系列文章,是本人在Android开发的漫漫长途上的一点感想和记录,我会尽量按照先易后难的顺序进行编写该系列.该系列引用了<Android开发艺术探索>以及<深入理解And ...
解决mssql localdb 中文乱码问题
使用以下查询语句即可. alter database "E:\.Net Core\Database\hm.mdf" set single_user with rollback im ...
Gitpage + hexo（3.0以上）搭建博客
大半天,一边折腾,一边查找各种文档,写出的这篇文档,不知道有没有把程序表示得足够简明,有不足之处望指明. 前提:已安装好nodeJS和git. 桌面右击进入gitbash,输入npm install ...
Python字符编码详解(转)
http://www.cnblogs.com/huxi/archive/2010/12/05/1897271.html 在没有reload(sys)之前调用sys.setdefaultencoding ...
写一个PHP函数,实现扫描并打印出指定目录下(含子目录)的所有jpg文件名
写一个PHP函数,实现扫描并打印出指定目录下(含子目录)的所有jpg文件名 <?php $dir = "E:\照片\\";//打印文件夹中所有jpg文件 function p ...
Activity讲解
Activity Activity 是 Android 应用的重要组成单元之一(另外三个是 Service.BroadcastReceiver 和 ContentProvider),而 Activit ...
【深度学习系列】用PaddlePaddle和Tensorflow实现AlexNet
上周我们用PaddlePaddle和Tensorflow实现了图像分类,分别用自己手写的一个简单的CNN网络simple_cnn和LeNet-5的CNN网络识别cifar-10数据集.在上周的实验表现 ...
javascript权威指南pdf
链接:https://pan.baidu.com/s/1c19qfSk 密码:j4f3

hadoop用mutipleInputs实现map读取不同格式的文件

hadoop用mutipleInputs实现map读取不同格式的文件的更多相关文章

随机推荐

热门专题