java使用sax解析xml

目的:解析xml文件,并存入mysql,并且要解析的字段能一一对应.这里解析的是微博的文件,想要利用里面的article和person_id字段.

思路:

为了能得到person_id和article能一一对应.因此对两个字段分别解析,并且定义一个私有变量ct,在重载的函数startElement中自动加1.这个ct作为插入mysql中的article和person_id的主键即(ct,article)和(ct,person_id),在分别插入两张不同的表a和b之后,两个表做连接操作,实现article和person_id的一一对应(曲线救国啊!!!)

import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import org.xml.sax.Attributes;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.FileWriter;

public class sax_parse_xml extends DefaultHandler {

java.util.Stack tags = new java.util.Stack();
private long ct=0;
public static boolean isLegalXMLCharacter(int ch) {
    if (ch <= 0xD7FF) {
       if(ch<=0x0){return false;}
        if (ch >= 0x20) {
            return true;
        } else {
            return ch == '\n' || ch == '\r' || ch == '\t';
        }
    }
    else{
        return (ch >= 0xE000 && ch <= 0xFFFD) || (ch >= 0x10000 && ch <= 0x10FFFF);
    }



}

public sax_parse_xml() {
super();
}

public static void main(String args[]) {
long lasting = System.currentTimeMillis();
try {
    SAXParserFactory sf = SAXParserFactory.newInstance();
    SAXParser sp = sf.newSAXParser();
    sax_parse_xml reader = new sax_parse_xml();
    sp.parse(new InputSource("/home/hadoop/weibo_content_corpus/nlpir_weibo_content"), reader);
   } catch (Exception e) {
    e.printStackTrace();
   }

System.out.println((int)'运');
   System.out.println("运行时间：" + (System.currentTimeMillis() - lasting)
     + "毫秒");
}

public void characters(char ch[], int start, int length)
   throws SAXException {
   String tag = (String) tags.peek();
   String ch1 = "";
   String ch2="";
   //System.out.print(ch.length);
   //long ct=0;

//下面的程序向文件写入解析的xml的结果
   File file = new File("/home/hadoop/weibo_content_corpus", "addfile.txt");
   if(!file.exists())
   {
    try {
       file.createNewFile(); // 创建文件
   } catch (IOException e) {
       // TODO Auto-generated catch block
       e.printStackTrace();
   }
   }

   File file1 = new File("/home/hadoop/weibo_content_corpus", "add_id.txt");
   if(!file1.exists())
   {
    try {
       file1.createNewFile(); // 创建文件
   } catch (IOException e) {
       // TODO Auto-generated catch block
       e.printStackTrace();
   }
   }
   // 向文件写入内容(输出流)
   String str = "java外挖出1\n";
   byte bt[] = new byte[1024];
   bt = str.getBytes();
/* try {
       // 打开一个写文件器，构造函数中的第二个参数true表示以追加形式写文件
       FileWriter writer = new FileWriter("/home/hadoop/weibo_content_corpus/addfile.txt", true);
       writer.write(str);
       writer.close();
   } catch (IOException e) {
       e.printStackTrace();
   }*/
   //上面的程序向文件写入解析的xml的结果

   if (tag.equals("article")) {
       System.out.println("article:");
       String tmpStr=new String(ch, start, length);
       if(tmpStr.trim().length()>0)
       {
       //System.out.println(new String(ch, start, length));
       ch1="insert into tb_xml_article_hd1 values ("+ct+","+"\""+tmpStr+"\""+");";//生成导入mysql的脚本
       bt = ch1.getBytes();
       try {
           // 打开一个写文件器，构造函数中的第二个参数true表示以追加形式写文件
           FileWriter writer = new FileWriter("/home/hadoop/weibo_content_corpus/addfile.txt", true);
           writer.write(ch1+"\n"+"commit;"+"\n");
           writer.close();
       } catch (IOException e) {
           e.printStackTrace();
       }
       System.out.println(ch1);
      // ct++;
       //StringBuffer sb = new StringBuffer();
       //sb.delete(0, sb.length());
       /*
       for (int i=start;i<length;i++)
       {

           if(Character.isDefined(ch[i]))//(isLegalXMLCharacter(ch[i]))
           {
              //System.out.println(ch[i]);
           }
       }*/
      // System.out.println(start);
       //System.out.println(length);
       //sb.append(ch, start, length);
          //System.out.println(ch1);
       }
   }
   if (tag.equals("person_id")) {
       //ch1=ct+":"+new String(ch, start, length);
       String tmpStr=new String(ch, start, length);
       if(tmpStr.trim().length()>0)
       {
       /*ch1="insert into tb_xml_person_hd values ("+(ct-4)+","+"\""+tmpStr+"\""+");";
       bt = ch1.getBytes();
       try {
           // 打开一个写文件器，构造函数中的第二个参数true表示以追加形式写文件
           FileWriter writer = new FileWriter("/home/hadoop/weibo_content_corpus/add_id.txt", true);
           writer.write(ch1+"\n"+"commit;"+"\n");
           writer.close();
       } catch (IOException e) {
           e.printStackTrace();
       }
       System.out.println(ch1);
       */
       }
    //System.out.println("personid:");
    //System.out.println( new String(ch, start, length));
// ch1=ch1+new String(ch, start, length);
       //ch1=new String(ch, start, length);
      // ch2=new String(ch, start, length);
      // System.out.println(ch1);
   }

if (tag.equals("time")) {
   // System.out.println("time:");
   // System.out.println(new String(ch, start, length));
   // ch1=ch1+new String(ch, start, length);
      //ch1.concat(new String(ch, start, length));
      //System.out.println(ch1);
   }
// System.out.println(ch1);
//ch1="";

}

public void startElement(String uri, String localName, String qName,
    Attributes attrs) {
   tags.push(qName);
   ct=ct+1;
   //System.out.println(ct);
}
}

java使用sax解析xml的更多相关文章

Java用SAX解析XML
要解析的XML文件:myClass.xml <?xml version="1.0" encoding="utf-8"?> <class> ...
JAVA使用SAX解析XML文件
在我的另一篇文章(http://www.cnblogs.com/anivia/p/5849712.html)中,通过一个例子介绍了使用DOM来解析XML文件,那么本篇文章通过相同的XML文件介绍如何使 ...
Java中Sax解析XML
SAX基于事件的解析,解析器在一次读取XML文件中根据读取的数据产生相应的事件,由应用程序实现相应的事件处理逻辑,即它是一种“推”的解析方式:这种解析方法速度快.占用内存少,但是它需要应用程序自己处理 ...
简单的java使用SAX解析xml
1.新建一个SAXTest类,继承import org.xml.sax.helpers.DefaultHandler类 package com.qiao.SrpingSource; import or ...
java 使用SAX解析xml 文件
http://www.cnblogs.com/allenzheng/archive/2012/12/01/2797196.html 为了学习方便,忘博主勿究
SAX解析XML笔记
关于基本操作,请参考:Java用SAX解析XML,这里不重复造轮子了,以下是个人笔记:
用SAX解析xml文件，java
(此文为(https://www.imooc.com/video/4482)之随笔) 1.用SAX解析xml文件大致分为三步写了一个XML文件作为例子 (1)main方法代码如下: import j ...
Android之SAX解析XML
一．SAX解析方法介绍 SAX(Simple API for XML)是一个解析速度快并且占用内存少的XML解析器,非常适合用于Android等移动设备. SAX解析器是一种基于事件的解析器,事件驱动 ...
DOM&SAX解析XML
在上一篇随笔中分析了xml以及它的两种验证方式.我们有了xml,但是里面的内容要怎么才能得到呢?如果得不到的话,那么还是没用的,解析xml的方式主要有DOM跟SAX,其中DOM是W3C官方的解析方式, ...

随机推荐

jquery的$().each,$.each的区别
在jquery中,遍历对象和数组,经常会用到$().each和$.each(),两个方法.两个方法是有区别的,从而这两个方法在针对不同的操作上,显示了各自的特点. $().each,对于这个方法,在d ...
java 基础三下雪
通过repaint()方法进行重画. import javax.swing.JFrame; import javax.swing.JPanel; import java.awt.Graphics; p ...
java 基础一
一.Java命名规则 Java命名规则有两种,第一种匈牙利命名要求望名知意,第二种驼峰命名要求首字母大写(关键单词) 类名必须首字母大写,方法名首字母小写后面的单词首字母大写 .类名和方法名要用英文开 ...
OpenStack学习参考
预备知识 Python 调试手段.日志:pdb 开源框架 Django 面向对象:类.继承.多态编码规范搭建环境安装docker,下载openstack镜像,关于docker参考使用fuel来 ...
css引入方式
1.<style> body{} </style> 2.写在一个单独的文件里面保存即新建一个文件:xx.css; 注明该文件的位置<link re ...
C# MVC 页面静态化导致的问题
在设置页面静态化的路由,代码如 //静态路由 routes.MapRoute( name: "html", url: "{controller}/{action}.htm ...
Issue 3：数据处理基本认识
介绍传统数据库对数据处理一般都分成两类:OLTP和OLAP. 数据分析(OLAP)的前提条件是要准备数据. 然后才是具体的数据分析,对此,可以分为统计型的数据分析和挖掘性的数据分析. 最后对分析结果 ...
(转载)solr时区问题解决方案
solr默认的使用的是utc格林尼治时间,与我们的GMT+8相差8个小时,网上好多解决办法是在自己应用中的时间上加8个小时和减8个小时做变换:或者不用date类型,改为long. 个人感觉这两个办法都 ...
sql 中convert和cast区别
SQL中的cast和convert的用法和区别更多来源:SQL学习浏览量: 学习标签: cast convert sql 本文导读:SQL中的cast 和convert都是用来将一种数据类型的表达 ...
Css深入理解之浮动_慕课网课程笔记
前言这篇是在慕课网上跟着张鑫旭重走CSS之路的第三篇学习笔记了,主要是学习float属性,闲话少说,下面进入正文. float的历史要想了解一个东西,我们还是需要从本质去了解它,那么我们就需要问一 ...

java使用sax解析xml

java使用sax解析xml的更多相关文章

随机推荐

热门专题