hadoop文本转换为序列文件

在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件，所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件（因为当时要分析mahout的源码，所以就要看到它的输入文件是什么，文本比较好看其内容）。一般这个有两种做法，其一：按照《hadoop权威指南》上面的方面直接读出序列文件然后写入一个文本；其二，编写一个job任务，直接设置输出文件的格式，这样也可以把序列文件读成文本（个人一般采用这样方法）。时隔好久，今天又重新试了下，居然不行了？，比如，我要编写一个把文本转为序列文件的java程序如下：

package mahout.fansy.canopy.transformdata;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.mahout.common.AbstractJob;

import org.apache.mahout.math.RandomAccessSparseVector;

import org.apache.mahout.math.Vector;

import org.apache.mahout.math.VectorWritable;

public class Text2VectorWritable extends AbstractJob{

	@Override

	public int run(String[] arg0) throws Exception {

		addInputOption();

	    addOutputOption();

	    if (parseArguments(arg0) == null) {

		      return -1;

		}

	    Path input=getInputPath();

	    Path output=getOutputPath();

	    Configuration conf=getConf();

	    Job job=new Job(conf,"text2vectorWritable with input:"+input.getName());

	 //   job.setInputFormatClass(SequenceFileInputFormat.class);

	    job.setOutputFormatClass(SequenceFileOutputFormat.class);

	    job.setMapperClass(Text2VectorWritableMapper.class);

	    job.setMapOutputKeyClass(Writable.class);

	    job.setMapOutputValueClass(VectorWritable.class);

	    job.setNumReduceTasks(0);

	    job.setJarByClass(Text2VectorWritable.class);

	    FileInputFormat.addInputPath(job, input);

	    SequenceFileOutputFormat.setOutputPath(job, output);

	    if (!job.waitForCompletion(true)) {

	        throw new InterruptedException("Canopy Job failed processing " + input);

	      }

		return 0;

	}

	public static class Text2VectorWritableMapper extends Mapper<Writable,Text,Writable,VectorWritable>{

		public void map(Writable key,Text value,Context context)throws IOException,InterruptedException{

			String[] str=value.toString().split(",");

			Vector vector=new RandomAccessSparseVector(str.length);

			for(int i=0;i<str.length;i++){

				vector.set(i, Double.parseDouble(str[i]));

			}

			VectorWritable va=new VectorWritable(vector);

			context.write(key, va);

		}

	}

}

这样在运行的时候老是提示说我的Map的value的类型不是Text，不管我设置为什么类型都会是这样的情况。后来我就想会不会是map的输出时Text的格式？，然后我就把上面的程序加入了Reducer，如下：

package mahout.fansy.canopy.transformdata;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

import org.apache.mahout.common.AbstractJob;

import org.apache.mahout.math.RandomAccessSparseVector;

import org.apache.mahout.math.Vector;

import org.apache.mahout.math.VectorWritable;

public class Text2VectorWritableCopy extends AbstractJob{

	@Override

	public int run(String[] arg0) throws Exception {

		addInputOption();

	    addOutputOption();

	    if (parseArguments(arg0) == null) {

		      return -1;

		}

	    Path input=getInputPath();

	    Path output=getOutputPath();

	    Configuration conf=getConf();

	    Job job=new Job(conf,"text2vectorWritableCopy with input:"+input.getName());

	 //   job.setInputFormatClass(SequenceFileInputFormat.class);

	    job.setOutputFormatClass(SequenceFileOutputFormat.class);

	    job.setMapperClass(Text2VectorWritableMapper.class);

	    job.setMapOutputKeyClass(LongWritable.class);

	    job.setMapOutputValueClass(VectorWritable.class);

	    job.setReducerClass(Text2VectorWritableReducer.class);

	    job.setOutputKeyClass(LongWritable.class);

	    job.setOutputValueClass(VectorWritable.class);

	    job.setJarByClass(Text2VectorWritableCopy.class);

	    FileInputFormat.addInputPath(job, input);

	    SequenceFileOutputFormat.setOutputPath(job, output);

	    if (!job.waitForCompletion(true)) {

	        throw new InterruptedException("Canopy Job failed processing " + input);

	      }

		return 0;

	}

	public static class Text2VectorWritableMapper extends Mapper<LongWritable,Text,LongWritable,VectorWritable>{

		public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException{

			String[] str=value.toString().split(",");

			Vector vector=new RandomAccessSparseVector(str.length);

			for(int i=0;i<str.length;i++){

				vector.set(i, Double.parseDouble(str[i]));

			}

			VectorWritable va=new VectorWritable(vector);

			context.write(key, va);

		}

	}

	public static class Text2VectorWritableReducer extends Reducer<LongWritable,VectorWritable,LongWritable,VectorWritable>{

		public void reduce(LongWritable key,Iterable<VectorWritable> values,Context context)throws IOException,InterruptedException{

			for(VectorWritable v:values){

				context.write(key, v);

			}

		}

	}

}

然后在运行，就可以了。

不过关于map的输出是否一定是text格式的，还有待论证。

分享，快乐，成长

转载请注明出处：http://blog.csdn.net/fansy1990

hadoop文本转换为序列文件的更多相关文章

text2pcap: 将hex转储文本转换为Wireshark可打开的pcap文件
简介 Text2pcap是一个读取ASCII hex转储的程序,它将描述的数据写入pcap或pcapng文件.text2pcap可以读取包含多个数据包的hexdumps,并构建多个数据包的捕获文件.t ...
[SequenceFile_1] Hadoop 序列文件
1. 关于 SequenceFile 对于日志文件来说,纯文本不适合记录二进制类型数据,通过 SequenceFile 为二进制键值对提供了持久的数据结构,将其作为日志文件的存储格式时,可自定义键(L ...
如何让Hadoop读取以gz结尾的文本格式的文件
背景: 搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符.xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件 ...
使用QGIS将文本坐标转换为矢量文件
本文主要是说明如果使用QGIS将文本格式的点坐标转换为矢量文件(如shapefile格式). 所需工具:QGIS 所需数据:文本格式的点文件所需要处理的点坐标文件如下所示, 114.2 22.15 ...
JSON文本转换为JSONArray 转换为 List<Object>
package com.beijxing.TestMain; import java.io.File; import java.io.IOException; import java.util.Arr ...
利用Code128字体将文本转换为code128条形码
利用Code128字体将文本转换为code128条形码[转] 最近在做仓储的项目,许多的打印文件都包含条形码,之前一直使用C39P24DhTt字体直接转换为39码,但是最近要求使用code128编 ...
Hadoop 文本分类终于跑通了
Training 入口 package org.wordCount; import java.util.ArrayList; import java.util.List; import org.apa ...
C/C++中二进制与文本方式打开文件的区别
二进制与文本文件主要有两个大的区别: 1.换行符的区别: Windows平台下对于Windows文本文件,它们使用回车和换行来表示换行符:如果以“文本”方式打开文件,当读取文件的时候,系统会将所有 ...
将txt文本转换为excel格式
将txt文本转换为excel格式,中间使用的列分割为 tab 键一.使用xlwt模块注:Excel 2003 一个工作表行数限制65536,列数限制256 需要模块:xlwt 模块安装:xlwt ...

随机推荐

DedeCMS标签 PHP判断语句写法
缩略图标签的判断写法,如果有图片就显示,没图片就显示别的. {dede:field name=litpic runphp='yes'} if(!empty(@me)) { @me="< ...
Linux系统下快速删除某个目录下大量文件
不管是哪个操作系统,同一级目录存在太多的文件都是一件可怕的事情,不管是读取还是删除的时候. 一旦这种不幸的事情发生在你身上,而又不能完全把整个目录删掉怎么办呢? 你可以用 rm -f *.log 但是 ...
Linux系统挂载点与分区的关系（转载）
计算机中存放信息的主要的存储设备就是硬盘,但是硬盘不能直接使用,必须对硬盘进行分割,分割成的一块一块的硬盘区域就是磁盘分区.在传统的磁盘管理中,将一个硬盘分为两大类分区:主分区和扩展分区.主分区是能够 ...
复杂事件处理引擎—Esper入门（第二弹）
说明: 以下内容,可以参考Esper官方网站<Qucik start & Tutorial >(顺序做了部分调整). PS:因为英语水平有限(大学期间刚过CET4的英语小盲童一枚) ...
WPC文件修改还原pin进度
原文地址:http://wenku.baidu.com/link?url=KZRR6VtW_Yn59iEbrWYz15jOH6hSVgjyow8nvwHfQr3eQgvCcc9IgYCT-fWwVWf ...
【原创】CLEVO P157SM外接鼠标键盘失灵解决：更换硅脂（附带最新跑分数据）
作者批注:本文允许转载,并且希望给搜索未来人类.蓝天.CLEVO.更换硅脂或者任何有关关键字的朋友提供帮助. 原文地址:http://www.cnblogs.com/c4isr/p/3514140.h ...
使用activeMQ实现jms
一:jms介绍 jms说白了就是java message service,是J2EE规范的一部分,跟jdbc差不多,sun只提供了接口,由各个厂商(provider)来进行具体的实现, ...
perl dbi 测试 mysql wait_timeout
The number of seconds the server waits for activity on a noninteractive connection before closing it ...
gis论坛
http://bbs.csdn.net/forums/GIS/ http://forums.mysql.com/list.php?23 http://www.remotegis.net/ http:/ ...
led驱动程序设计
LED的驱动程序很简单,按照张字符型设备驱动设计方法顺下来即可实现,这里主要讲几个注意事项. 一.在linux系统中,操作硬件不能够使用物理地址,一定要用虚拟地址.将物理地址转化为虚拟地址的函数如下: ...

hadoop文本转换为序列文件

hadoop文本转换为序列文件的更多相关文章

随机推荐

热门专题