用正则表达式解析XML

import java.util.regex.*;

import java.util.*;

/**

 *

 * <p>Title: Document</p>

 *

 * <p>Description: 用正则表达式解析xml,目的是为了提高性能.</p>

 *

 * <p>Copyright: Copyright (c) 2005</p>

 *

 * <p>Company: org.axman</p>

 *

 * @author :Axman

 * @version 1.0

 */

public class Document {

  private String xmlString;

  /**

   * 传入xml的字符串内容,对于InputStream,Reader对象请转换为String对象后传入构造方法.

   * @param xmlString String

   * @throws IllegalArgumentException

   */

  public Document(String xmlString) throws IllegalArgumentException{

    if(xmlString == null || xmlString.length() == 0)

      throw new IllegalArgumentException("Input string orrer!");

    this.xmlString = xmlString;

  }  

  /**

   * 在文档中搜索指定的元素,返回符合条件的元素数组.

   * @param tagName String

   * @return String[]

   */

  public String[] getElementsByTag(String tagName){

    Pattern p = Pattern.compile("<"+tagName+"[^>]*?((>.*?</"+tagName+">)|(/>))");

    Matcher m = p.matcher(this.xmlString);

    ArrayList<String> al = new ArrayList<String>();

    while(m.find())

      al.add(m.group());

    String[] arr = al.toArray(new String[al.size()]);

    al.clear();

    return arr;

  }  

  /**

   * 用xpath模式提取元素,以#为分隔符

   * 如 ROOT#PARENT#CHILD表示提取ROOT元素下的PARENT元素下的CHILD元素

   * @param singlePath String

   * @return String

   */

  public String getElementBySinglePath(String singlePath){

    String[] path = singlePath.split("#");

    String lastTag = path[path.length-1];

    String tmp = "(<"+lastTag+"[^>]*?((>.*?</"+lastTag+">)|(/>)))";

                                        //最后一个元素,可能是<x>v</x>形式或<x/>形式

    for(int i=path.length-2;i >=0;i--){

      lastTag = path[i];

      tmp = "<"+lastTag+">.*"+tmp + ".*</"+lastTag+">";

    }

    Pattern p = Pattern.compile(tmp);

    Matcher m = p.matcher(this.xmlString);

    if(m.find()){

      return m.group(1);

    }

    return "";

  }

  /**

   * 用xpath模式提取元素从多重元素中获取指批定元素,以#为分隔符

   * 元素后无索引序号则默认为0: ROOT#PARENT[2]#CHILD[1]

   * @param singlePath String

   * @return String

   */

  public String getElementByMultiPath(String singlePath){

    try{

      String[] path = singlePath.split("#");

      String input = this.xmlString;

      String[] ele = null;

      for (int i = 0; i < path.length; i++) {

        Pattern p = Pattern.compile("(//w+)(//[(//d+)//])?");

        Matcher m = p.matcher(path[i]);

        if (m.find()) {

          String tagName = m.group(1);

          System.out.println(input + "----" + tagName);

          int index = (m.group(3) == null) ? 0 :

              new Integer(m.group(3)).intValue();

          ele = getElementsByTag(input, tagName);

          input = ele[index];

        }

      }

      return input;

    }catch(Exception e){

      return null;

    }

  }

  /**

   * 在给定的元素中搜索指定的元素,返回符合条件的元素数组.对于不同级别的同名元素限制作用,即可以

   * 搜索元素A中的子元素C.而对于元素B中子元素C则过虑,通过多级限定可以准确定位.

   * @param parentElementString String

   * @param tagName String

   * @return String[]

   */

  public static String[] getElementsByTag(String parentElementString,String tagName){

    Pattern p = Pattern.compile("<"+tagName+"[^>]*?((>.*?</"+tagName+">)|(/>))");

    Matcher m = p.matcher(parentElementString);

    ArrayList<String> al = new ArrayList<String>();

    while(m.find())

      al.add(m.group());

    String[] arr = al.toArray(new String[al.size()]);

    al.clear();

    return arr;

  }

  /**

   * 从指定的父元素中根据xpath模式获取子元素,singlePath以#为分隔符

   * 如 ROOT#PARENT#CHILD表示提取ROOT元素下的PARENT元素下的CHILD元素

   * @param parentElementString String

   * @param singlePath String

   * @return String

   */

  public static String getElementBySinglePath(String parentElementString,String singlePath){

    String[] path = singlePath.split("#");

    String lastTag = path[path.length-1];

    String tmp = "(<"+lastTag+"[^>]*?((>.*?</"+lastTag+">)|(/>)))";

                                        //最后一个元素,可能是<x>v</x>形式或<x/>形式

    for(int i=path.length-2;i >=0;i--){

      lastTag = path[i];

      tmp = "<"+lastTag+">.*"+tmp + ".*</"+lastTag+">";

    }

    Pattern p = Pattern.compile(tmp);

    Matcher m = p.matcher(parentElementString);

    if(m.find()){

      return m.group(1);

    }

    return "";

  }

  /**

   * 用xpath模式提取元素从指定的多重元素中获取指批定元素,以#为分隔符

   * @param parentElementString String

   * @param singlePath String

   * @return String

   */

  public static String getElementByMultiPath(String parentElementString,String singlePath){

    try{

      String[] path = singlePath.split("#");

      String input = parentElementString;

      String[] ele = null;

      for (int i = 0; i < path.length; i++) {

        Pattern p = Pattern.compile("(//w+)(//[(//d+)//])?");

        Matcher m = p.matcher(path[i]);

        if (m.find()) {

          String tagName = m.group(1);

          int index = (m.group(3) == null) ? 0 :

              new Integer(m.group(3)).intValue();

          ele = getElementsByTag(input, tagName);

          input = ele[index];

        }

      }

      return input;

    }catch(Exception e){

      return null;

    }

  }  

  /**

   * 在给定的元素中获取所有属性的集合.该元素应该从getElementsByTag方法中获取

   * @param elementString String

   * @return HashMap

   */

  public HashMap<String,String> getAttributes(String elementString){

    HashMap hm = new HashMap<String,String>();

    Pattern p = Pattern.compile("<[^>]+>");

    Matcher m = p.matcher(elementString);

    String tmp = m.find()?m.group():"";

    p = Pattern.compile("(//w+)//s*=//s*/"([^/"]+)/"");

    m = p.matcher(tmp);

    while(m.find()){

      hm.put(m.group(1).trim(),m.group(2).trim());

    }

    return hm;

  }  

  /**

   * 在给定的元素中获取指定属性的值.该元素应该从getElementsByTag方法中获取

   * @param elementString String

   * @param attributeName String

   * @return String

   */

  public static String getAttribute(String elementString,String attributeName){

    HashMap hm = new HashMap<String,String>();

    Pattern p = Pattern.compile("<[^>]+>");

    Matcher m = p.matcher(elementString);

    String tmp = m.find()?m.group():"";

    p = Pattern.compile("(//w+)//s*=//s*/"([^/"]+)/"");

    m = p.matcher(tmp);

    while(m.find()){

      if(m.group(1).trim().equals(attributeName))

        return m.group(2).trim();

    }

    return "";

  }  

  /**

   * 获取指定元素的文本内容

   * @param elementString String

   * @return String

   */

  public static String getElementText(String elementString){

    Pattern p = Pattern.compile(">([^<>]*)<");

    Matcher m = p.matcher(elementString);

    if(m.find()){

      return m.group(1);

    }

    return "";

  }

  public static void main(String[] args){

    new Document("<ROOT>sss <PARENT>sss <CHILD>aaaa</CHILD>ss </PARENT>sss </ROOT>").getElementByMultiPath("ROOT[0]#PARENT#CHILD");

    //System.out.println(child);

  }

}

用正则表达式解析XML的更多相关文章

java: （正则表达式，XML文档，DOM和DOM4J解析方法）
常见的XML解析技术: 1.DOM(基于XML树结构,比较耗资源,适用于多次访问XML): 2.SAX(基于事件,消耗资源小,适用于数量较大的XML): 3.JDOM(比DOM更快,JDOM仅使用具体 ...
Linux Shell | 解析xml节点
01 xml文件 # user.xml <user> <name>Toy</name> <sex>man</sex> <room/&g ...
曹工说Spring Boot源码（12）-- Spring解析xml文件，到底从中得到了什么（context:component-scan完整解析）
写在前面的话相关背景及资源: 曹工说Spring Boot源码(1)-- Bean Definition到底是什么,附spring思维导图分享曹工说Spring Boot源码(2)-- Bean ...
scrapy 解析xml格式的数据
XMLFeedSpider 主要用于解析 xml格式的数据创建一个scrapy 项目文件 scrapy startproject xxx 创建一个spider scrapy genspider - ...
Android 解析XML文件和生成XML文件
解析XML文件 public static void initXML(Context context) { //can't create in /data/media/0 because permis ...
Android之解析XML
1.XML:可扩展标记语言. 可扩展标记语言是一种很像超文本标记语言的标记语言. 它的设计宗旨是传输数据,而不是显示数据. 它的标记没有被预定义.需要自行定义标签. 它被设计为具有自我描述性. 是W3 ...
Android之Pull解析XML
一．Pull解析方法介绍除了可以使用SAX和DOM解析XML文件,也可以使用Android内置的Pull解析器解析XML文件.Pull解析器的运行方式与SAX解析器相似.它也是事件触发的.Pull解 ...
Android之DOM解析XML
一．DOM解析方法介绍 DOM是基于树形结构的节点或信息片段的集合,允许开发人员使用DOM API遍历XML树,检索所需数据.分析该结构通常需要加载整个文档和构造树形结构,然后才可以检索和更新节点信息 ...
Android之SAX解析XML
一．SAX解析方法介绍 SAX(Simple API for XML)是一个解析速度快并且占用内存少的XML解析器,非常适合用于Android等移动设备. SAX解析器是一种基于事件的解析器,事件驱动 ...

随机推荐

在iOS的XCode工程配置中为什么要用-all_load&-ObjC
-ObjC 这个flag告诉链接器把库中定义的Objective-C类和Category都加载进来.这样编译之后的app会变大(因为加载了其他的objc代码进来).但是如果静态库中有类和categor ...
华为2015 简单字典输入法 java
题目摘自http://blog.csdn.net/dongyi91/article/details/38639915 写了2个小时,水平太菜了入法的编码原理为:根据已有编码表,当输入拼音和数字后输出 ...
Git提交引用和引用日志
转载自:https://github.com/geeeeeeeeek/git-recipes/wiki/5.5-Git%E6%8F%90%E4%BA%A4%E5%BC%95%E7%94%A8%E5%9 ...
代码-Weka的LinearRegression类
package kit.weka; import weka.classifiers.Evaluation; import weka.classifiers.functions.LinearRegres ...
《Genesis-3D开源游戏引擎--横版格斗游戏制作教程07：UI》
概述: UI即User Interface(用户界面)的简称.UI设计是指对软件的燃机交互.操作逻辑.界面美观的整体设计.好的UI设计不仅可以让游戏变得更有品位,更吸引玩家,还能充分体现开发者对游戏整 ...
MySql避免全表扫描
对查询进行优化,应尽量避免全表扫描,首先应考虑在where 及order by 涉及的列上建立索引: .尝试下面的技巧以避免优化器错选了表扫描: · 使用ANALYZE TABLE tbl_name为 ...
新年Uber司机端换新装啦！
滴快车单单2.5倍,注册地址:http://www.udache.com/ 如何注册Uber司机(全国版最新最详细注册流程)/月入2万/不用抢单:http://www.cnblogs.com/mfry ...
oc学习之路----scrollView的代理模式
右图是OC里面scrollView的代理的描述,从这里可以开出来,任何对象都可以作为scorllView的代理对象只要实现了UIScrollViewDelegate这个协议,为什么呢,原因要追究到UI ...
Sublime Text3使用及常用插件
1.安装packages组件: 参考一: https://sublime.wbond.net/installation 参考二: http://blog.csdn.net/superskk6/arti ...
linux安装svn服务器（yum方式）
1.查看yum是否安装在终端中输入yum即可如果已经安装,会显示yum的参数如果没有安装,会提示yum未安装或无效命令…… 2.安装svnyum -y instal ...

用正则表达式解析XML

用正则表达式解析XML的更多相关文章

随机推荐

热门专题