记一次深刻的教训-----将mat数据转化为SequenceFile

深刻的体会就是，“java.lang.NullPointer.Exception”就是空指针异常可能是由于数组部分元素未被初始化引起的。

1）使用jmatio将mat数据转化为SequenceFile形式的数据，代码如下：

 /**

  * Created with IntelliJ IDEA.

  * User: hadoop

  * Date: 16-3-6

  * Time: 上午10:56

  * To change this template use File | Settings | File Templates.

  */

 import com.jmatio.io.MatFileReader;

 import com.jmatio.types.*;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.*;

 import java.net.URI;

 import org.apache.hadoop.mapreduce.*;

 public class mat2Seq {

 public static void main(String[] args) throws IOException {

     writeMat2Seq("data/100_100/F100.mat","SeqOutput/F");

     writeMat2Seq("data/100_100/b100.mat","SeqOutput/b");

     writeMat2Seq("data/100_100/d100.mat","SeqOutput/d");

     writeMat2Seq("data/100_100/s100.mat","SeqOutput/s");

     writeMat2Seq("data/100_100/u100.mat","SeqOutput/u");

 }

 public static void writeMat2Seq(String matPath,String SeqOutput) throws IOException {

         MatFileReader reader=new MatFileReader(matPath);

         MLArray mlArray=reader.getMLArray("a");

         MLDouble doubleValue=(MLDouble)mlArray;

         double[][] matrix=doubleValue.getArray();

         Configuration conf =new Configuration();

         FileSystem fs=FileSystem.get(URI.create(SeqOutput),conf);

         IntWritable key=new IntWritable();

         DoubleArrayWritable value=new DoubleArrayWritable();

         SequenceFile.Writer writer=null;

         try {

             writer=SequenceFile.createWriter(fs,conf,new Path(SeqOutput),key.getClass(),

                     value.getClass());

             if (matPath.endsWith("F100.mat")){    //左矩阵F依次将行存储到Seq

                 DoubleWritable[] rowVector=new DoubleWritable[matrix.length];

                 for (int i=0;i<matrix.length;++i){

                     for (int j=0;j<matrix[0].length;++j){

                        rowVector[j]=new DoubleWritable(0);

                        rowVector[j].set(matrix[i][j]);

                     }

                     value.set(rowVector);

                     key.set(i);

                     writer.append(key,value);

                 }

                 writer.close();

             }

             else{          //其他右矩阵依次将列存储到Seq中

                 DoubleWritable[] columnVector=new DoubleWritable[matrix[0].length];

                 for (int i=0;i<matrix[0].length;++i){

                     for (int j=0;j<matrix.length;++j){

                         columnVector[j]=new DoubleWritable(0);

                         columnVector[j].set(matrix[j][i]);

                     }

                     value.set(columnVector);

                     key.set(i);

                     writer.append(key,value);

                 }

                 writer.close();

             }

         }

         finally {

         }

     System.out.println(matPath+"write done!");

     }

 }

 class DoubleArrayWritable extends ArrayWritable {

     public DoubleArrayWritable(){

         super(DoubleWritable.class);

     }

     public String toString(){

         StringBuilder sb=new StringBuilder();

         for (Writable val:get()){

             DoubleWritable doubleWritable=(DoubleWritable)val;

             sb.append(doubleWritable.get());

             sb.append(",");

         }

         sb.deleteCharAt(sb.length()-1);

         return sb.toString();

     }

 }

以上使用的.mat文件，程序都可以好好的运行。但是当把文件换成一个B1k2k，也就是一个1000*2000的矩阵文件时，就报空指针的异常，“java.lang.NullPointerException”，具体如下：

提示是在ArrayWritable.write()方法中出现空指针的异常，就开始怀疑是ArrayWritable这个类没写好(也就是怀疑人家有bug，然后就下了hadoop2.6.4，还是不行)，然后一路追查，到最后ArrayWritable的write()方法最终调用了BufferedOutputStream.write(),然后就开始是open-jdk的不兼容了，然后就重装了sun JDK。还是不行，然后就把java的io包里的.java源码拷贝到工程里，想着单步调试到BufferedOutputStream.write()，看看究竟发生了什么，怎奈jmatio需要用到io包，我又不行重新编译，所以就想先把.mat转化为.txt文件,但是呢，没成功，因为虚拟机磁盘空间不够了，没法了，想想是不是机子环境的问题呢(哈哈哈，想象力太好)，就传给谷总试试看能不能运行，谷总说你确定不是算法问题？答：不该呀。呵呵呵，结果谷总发来了两张图片，如下：

至此，终于找到了原因，就是代码有问题。columnVector数组是用来存储矩阵的一列，数组长度矩阵的行数，但是原先的代码里却将数组长度定义为矩阵的列数。

 DoubleWritable[] columnVector=new DoubleWritable[matrix[0].length];

 for (int i=0;i<matrix[0].length;++i){

 for (int j=0;j<matrix.length;++j){

       columnVector[j]=new DoubleWritable(0);

       columnVector[j].set(matrix[j][i]);

}

value.set(columnVector);

key.set(i);

writer.append(key,value);
}

这就解释了，为什么1k*1100的矩阵转化时会提示空指针异常，按照上述对columnVector的定义，这个列向量数组的长度是1100，但是在接下来给这个向量赋值时，是由矩阵的行数来控制，也就是说在赋值时只是对columnVector复制到第1000个元素，剩下的100个元素是空(如果是系统的基本类型，如int double，编译器会将其置为0，不过DoubleWritable不是基本类型)，也就是“null”，所以在接下来使用writer.append(key,vlaue)调用输出流写出的时候，自然会抛出“java.lang.NullPointerException”异常。经过修改的代码如下：

 /**

  * Created with IntelliJ IDEA.

  * User: hadoop

  * Date: 16-3-6

  * Time: 上午10:56

  * To change this template use File | Settings | File Templates.

  */

 //package java.io;

 import com.jmatio.io.MatFileReader;

 import com.jmatio.types.*;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.*;

 public class mat2Seq {

     public static void main(String[] args) throws IOException {

         writeMat2Seq("data/1k_1k/F1k1k.mat","SeqOutput/F1k1k");

         writeMat2Seq("data/100_100/b100.mat","SeqOutput/b100");

         writeMat2Seq("data/1k1100/mat1k1100.mat","SeqOutput/test1k1100");

         writeMat2Seq("data/B1k2w.mat","SeqOutput/1k2w");

         //writeMat2Seq("data/1k_2w/B1k2w.mat","SeqOutput5/B1k2w");

     }

     public static void writeMat2Seq(String matPath,String SeqOutput) throws IOException {

         MatFileReader reader=new MatFileReader(matPath);

         MLArray mlArray=reader.getMLArray("a");

         MLDouble doubleValue=(MLDouble)mlArray;

         double[][] matrix=doubleValue.getArray();

         Configuration conf =new Configuration();

         //FileSystem fs=FileSystem.get(URI.create(SeqOutput),conf);

         FileSystem fs=FileSystem.get(conf);

         Path path=new Path(SeqOutput);

         //FSDataOutputStream outputStream=fs.create(path);

         IntWritable key=new IntWritable();

         DoubleArrayWritable value=new DoubleArrayWritable();

         SequenceFile.Writer writer=null;

         try {

             writer=SequenceFile.createWriter(fs,conf,path,key.getClass(),value.getClass());

             // SequenceFile.Writer.Option

             if (matPath.endsWith("F1k.mat")){    //左矩阵F依次将行存储到Seq

                 DoubleWritable[] rowVector=new DoubleWritable[matrix[0].length];

                 for (int i=0;i<matrix.length;++i){

                     for (int j=0;j<matrix[0].length;++j){

                         rowVector[j]=new DoubleWritable(0);

                         rowVector[j].set(matrix[i][j]);

                     }

                     value.set(rowVector);

                     key.set(i);

                     writer.append(key,value);

                 }

                 writer.close();

                 //outputStream.close();

                 fs.close();

             }

             else{          //其他右矩阵依次将列存储到Seq中

                 //DoubleWritable[] columnVector=new DoubleWritable[matrix[0].length];

                 DoubleWritable[] columnVector=new DoubleWritable[matrix.length];

                 for (int i=0;i<matrix[0].length;++i){

                     for (int j=0;j<matrix.length;++j){

                         columnVector[j]=new DoubleWritable(0);

                         columnVector[j].set(matrix[j][i]);

                     }

                     value.set(columnVector);

                     key.set(i);

                     writer.append(key,value);

                 }

                 writer.close();

                 //outputStream.close();

                 fs.close();

             }

         }

         finally {

         }

         System.out.println(matPath+"write done!");

     }

 }

 class DoubleArrayWritable extends ArrayWritable {

     public DoubleArrayWritable(){

         super(DoubleWritable.class);

     }

     /*

     public String toString(){

         StringBuilder sb=new StringBuilder();

         for (Writable val:get()){

             DoubleWritable doubleWritable=(DoubleWritable)val;

             sb.append(doubleWritable.get());

             sb.append(",");

         }

         sb.deleteCharAt(sb.length()-1);

         return sb.toString();

     }

     */

 }

另外，就是把DoubleArrayWritable的toString()方法注释掉是有原因的，如果使用这个新定义的toString()方法，写入SequenceFile中的value形式就是0.344,0.435......,这种矩阵形式(使用hadoop fs -text)，形式一目了然，但是文件写入速度慢(B1k2w文件需要两分钟才可以完成)。如果使用Object提供的toString()方法的话，写入的value形式就是DoubleArrayWritable@34d79f形式，看着不直观，如果要查看value的值还必须使用程序反序列化，但是这种方法写入的内容很少，文件的写入速度很快(B1k2w文件只需要1~2s就可完成)。所以还是不要重载toString()方法。

记一次深刻的教训-----将mat数据转化为SequenceFile的更多相关文章

opencv MAT数据操作
1.存取单个像素值最通常的方法就是 img.at<uchar>(i,j) = 255; img.at<Vec3b>(i,j)[0] = 255; 2.用指针扫描一幅图像对于 ...
两分钟解决Python读取matlab的.mat数据
Matlab是学术界非常受欢迎的科学计算平台,matlab提供强大的数据计算以及仿真功能.在Matlab中数据集通常保存为.mat格式.那么如果我们想要在Python中加载.mat数据应该怎么办呢?所 ...
【转】Java读取matlab的.mat数据文件
参考:Java读取mat文件下载链接:ujmp jmatio 下载完两个.jar文件之后,如何引用到java项目当中?项目名称->右键->Property->Java Build ...
OpenCV几种访问cv::Mat数据的方法
一般来说,如果是遍历数据的话用指针ptr比用at要快.特别是在debug版本下.因为debug中,OpenCV会对at中的坐标检查是否有溢出,这是非常耗时的. 代码如下 #include <op ...
opencv-从图像旋转学习Mat数据訪问
先看一个简单的样例代码: // ConsoleApplication3_6_23.cpp : Defines the entry point for the console application. ...
OpenCV中Mat数据的访问报错
最近再写一段程序的时候,要访问Mat中的元素.在定义Mat型数据的时候,用 Mat ObjectPoints(48,3,CV_32FC1,0) 对其进行初始化后,用at进行访问时报内存错误. Mat ...
转 OpenCV Mat 数据读写
转:https://blog.csdn.net/u011520181/article/details/83831866 1.创建 Mat 对象: // 创建一个 320x240 的 8 位无符号型 4 ...
c++读写matlab中.mat数据
前言:在进行图形图像处理时,经常会用到matlab进行算法的仿真验证,然后再移植到别的语言中.有时会涉及到数据的交互,比如直接读取matlab的.mat类型数据,或者是将c++中的数组存为.mat,为 ...
记一次利用AutoMapper优化项目中数据层到业务层的数据传递过程。
目前项目中获取到DataSet数据后用下面这种方式复制数据. List<AgreementDoc> list = new List<AgreementDoc>(); ].Row ...

随机推荐

springboot之模板
转:http://jisonami.iteye.com/blog/2301387,http://412887952-qq-com.iteye.com/blog/2292402 整体步骤:(1) ...
根据select创建input并赋值
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> ...
Vue项目中引入外部文件（css、js、less）
例子中css文件采用bootstrap.css,js文件采用jQuery,less文件用less.less(自定义文件) 步骤一:安装webpack cnpm install webpack -g 步 ...
51nod1031(简单斐波拉契数列)
题目链接:https://www.51nod.com/onlineJudge/questionCode.html#!problemId=1031 题意:中文题诶- 思路:对于第x块骨牌的情况,我们用a ...
The 2017 ACM-ICPC Asia East Continent League Final记录
首先感谢tyz学弟的麻麻-给我们弄到了名额- 然后就开始了ACM ECLFinal的玩耍,A*仙人掌可是立了flag要好好打的- 试机赛好像就全是GCJ kickstart的原题,然后AK了但是由于一 ...
python实现多个文件的分发
之前写的脚本只能分发一个配置,每次分发多个配置总要执行很多次,很不爽,于是就有了这个脚本 from multiprocessing import Process import paramiko imp ...
TensorFlow_曲线拟合
# coding:utf-8 import tensorflow as tf import numpy as np import matplotlib.pyplot as plt import os ...
CentOS RabbitMQ安装
1. 安装erlang,参考另外一篇文章: http://www.cnblogs.com/wanpengcoder/p/5287302.html 2. 安装libxslt和: yum install ...
python基础===map和zip的用法
>>> list1=[1,45,232,45,666,64] >>> list2=["ss","kein","to ...
maven的项目管理方面细节
1.1 Maven 1.依赖管理.jar包.工程之间的依赖. 2.项目构建.实现项目的一步构建. 3.工程聚合.工程继承.工程依赖. 1.2 Maven的工程类型: 1.war包工程 2. ...

记一次深刻的教训-----将mat数据转化为SequenceFile

记一次深刻的教训-----将mat数据转化为SequenceFile的更多相关文章

随机推荐

热门专题