笔记：XML-解析文档

要处理XML文档，就要先解析（parse）他，解析器时这样一个程序，读入一个文件，确认整个文件具有正确的格式，然后将其分解成各种元素，使得程序员能够访问这些元素，Java库提供了两种XML解析器：

像文档对象模型（Document Object Model，DOM）解析器这样的树型解析器，他们将读入的XML文档转换成树结构
像XML简单API（Simple API for XML，SAX）解析器这样的流机制解析器，他们读入XML文档时生成相应的事件

DOM解析器对于实现我们的大多数目的来说都更容易一些，如果需要处理很长的文档，用他来生成树结构会消耗大量的内存，或者只需要对于某些元素感兴趣，而不关心他们的上下文，那么可以考虑使用SAX解析器。DOM解析器的接口已经被W3C标准化了，org.w3c.dom包中包含了这些接口类型的定义，比如：Document、Element等，不同的实现者都编写了实现这些接口的DOM解析器，Java
XML
处理API（Java
API
for
XML
Processing，JAXP）库使得实际上可以以插件形式使用这些解析器中的任意一个。要读入一个XML文档，首先需要一个DocumentBuilder对象，可以从
DocumentBuilderFactory
中得到这个对象，代码如下：

DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();

DocumentBuilder builder=factory.newDocumentBuilder();

现在，可以从文件中读入某个文档：

File f = …;

Document doc = builder.parse(f);

或者，可以用一个URL：

URL u = …;

Document doc = builder.parse(u);

甚至可以使用一个任意的输入流：

InputStream in = …;

Document doc = builder.parse(in);

Document 对象时XML文档的树型结构在内存的表现，他由实现了 Node 接口及其各子接口的类对象构成，子接口层次结构如下：

DOM
解析XML文档的代码示例如下：

XML文档内容：

<?xml version="1.0" encoding="utf-8" ?>

<root>

        <title>

                <font enabled="false">

                        

                        <name>Helvetica</name>

                        <size>36</size>

                </font>

                <data>

                        <![CDATA[xml document root node <root.../>]]>

                </data>

        </title>

</root>
解析代码：

public static
void
main(String[] args) {

                DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();

                try {

                        DocumentBuilder builder = factory.newDocumentBuilder();

                        Path xmlPath = Paths.get("E:\\IDEA Workspace\\exampleiostream\\src\\main\\java\\org\\drsoft\\examples\\xml", "appParse.xml");

                        InputStream xmlStream = Files.newInputStream(xmlPath, StandardOpenOption.READ);

                        Document xmlDocument = builder.parse(xmlStream);

                        StringBuilder sb = new
StringBuilder();

                        sb.append("<?xml version=\"" + xmlDocument.getXmlVersion() + "\"
encodin=\""

+ xmlDocument.getXmlEncoding() + "\"
?>");

                        Element root = xmlDocument.getDocumentElement();

                        sb.append("<" + root.getTagName() + ">");

                        NodeList nodeList = root.getChildNodes();

                        for (int i = 0; i < nodeList.getLength(); i++) {

                                if (nodeList.item(i) instanceof Element) {

                                        sb.append(parseChildNodes((Element) nodeList.item(i)));

                                }

                        }

                        sb.append("</" + root.getTagName() + ">");

                        System.out.println(sb.toString());

                } catch (ParserConfigurationException e) {

                        e.printStackTrace();

                } catch (IOException ex) {

                        ex.printStackTrace();

                } catch (SAXException e) {

                        e.printStackTrace();

                }

        }

        private static String parseChildNodes(Element element) {

                StringBuilder sb = new
StringBuilder();

                sb.append("<" + element.getTagName());

                NamedNodeMap map = element.getAttributes();

                for (int j = 0; j < map.getLength(); j++) {

                        sb.append(" " + map.item(j).getNodeName() + "=\"" + map.item(j).getNodeValue() + "\"");

                }

                sb.append(" >");

                if (element.hasChildNodes()) {

                        NodeList list = element.getChildNodes();

                        for (int i = 0; i < list.getLength(); i++) {

                                if (list.item(i) instanceof Element) {

                                        Element curElement = (Element) list.item(i);

                                        sb.append(parseChildNodes(curElement));

                                        continue;

                                }

                                if (list.item(i) instanceof CDATASection) {

                                        CDATASection cdataSection = (CDATASection) list.item(i);

                                        sb.append("<![CDATA[").append(cdataSection.getData()).append("]]>");

                                        continue;

                                }

                                if (list.item(i) instanceof Comment) {

                                        Comment comment = (Comment)list.item(i);

                                        sb.append("");

                                        continue;

                                }

                                if (list.item(i) instanceof Text) {

                                        Text curText = (Text) list.item(i);

                                        sb.append(curText.getData().trim());

                                        continue;

                                }

                        }

                }

                sb.append("</" + element.getTagName() + ">");

                return sb.toString();

        }

笔记：XML-解析文档的更多相关文章

XML之DOM解析文档 Day24
TestDom.java package com.sxt.dom; import java.io.File; import java.io.IOException; import javax.xml. ...
XML的文档声明
1.XML的文档声明 <?xml version="1.0" encoding="utf-8"?> 文档声明必须写在第一行第一列属性: versi ...
5月3日上课笔记-XML解析
一.XML编程 1.xml编程的两种解析方式 1.1 dom解析优点:一次加载,多次使用.可以方便的对xml文档进行增删改查缺点:如果xml文档过大的话,加载的时候会比较占用内存空间比较大,消耗资 ...
文档ID：某某模板文件不存在，无法解析文档！
如果是生成栏目列表时出现这样的问题]: 1.可以修改include/arc.listview.class.php这个文件. 2.复制代码 echo "模板文件不存在,无法解析文档 ...
DedeCMS模板文件不存在,无法解析文档! 问题定位方法
生成静态的时候,经常会遇到“模板文件不存在,无法解析文档!”的问题.很多朋友试过论坛里很多方法,都是针对某些人可以解决,某些人的问题依旧,为什么呢?其实问题很可能确实是多种多样的,表现结果却是一样, ...
dedecms 模板文件不存在，无法解析文档"的终极各种解决办法
方法一:[此对应喜欢把模板文件使用".html"的格式,] /include/arc.archives.class.php 556行 if (!preg_match(&qu ...
dedecms 模板文件不存在无法解析文档！问题定位方法！
生成静态的时候,经常会遇到“模板文件不存在,无法解析文档!”的问题.很多朋友试过论坛里很多方法,都是针对某些人可以解决,某些人的问题依旧,为什么呢?其实问题很可能确实是多种多样的,表现结果却是一样, ...
dedecms 模板文件不存在,无法解析文档的终极各种解决办法
dedecms 模板文件不存在,无法解析文档"的终极各种解决办法方法一:[此对应喜欢把模板文件使用".html"的格式,] /include/arc.archives. ...
dom4j解析xml报"文档中根元素后面的标记格式必须正确"
今天,在写个批量启动报盘机的自动化应用,为了简化起见,将配置信息存储在xml中,格式如下: <?xml version="1.0" encoding="UTF-8& ...
JavaWeb学习笔记——XML解析
DOM解析操作只在跟节点<addresslist>下面建立一个子节点<name> <?xml version="1.0" encoding=&quo ...

随机推荐

Linux下安装MySQL数据库(压缩包方式安装)
1.这里我将Mysql安装在/usr/local/mysql目录里面,也可以安装在其他地方; mkdir /usr/local/mysql 2.下载MySQL压缩包 wget http://dev.M ...
discuz 更换域名导致qq登录不能用的问题
今天论坛换了域名,导致qq登录不能用.于是各种百度,终于找到了解决方案,特此记录一下解决方法:1,首先清空你站点的id和key,并且设置为未注册云平台: 2,找一个新域名(未开过云平台的就可),如果 ...
《实战Nginx》读书笔记
最近今天读了一本书叫做<实战Nginx:取代Apache的高性能Web服务器>,看后对Nginx 了解了不少.但是还有很多地方不是很了解.不过此书可以作为一本参考手册来使用,里面的讲解很详 ...
对于vxworks下硬盘驱动
1.曾经看到帖子说vxworks5.5下没有sata驱动,vxworks6.6下有,这样的说法恐怕不正确,由于俺在5.5下也运用运用了sata硬盘,请注重这里俺只是说运用运用,没有说运用运用了sat ...
STM32——GPIO之从库函数到寄存器的前因后果
例子为单片机的"Hello World"级的流水灯实验--虽然只有一个,其中并不是将完整的代码给出,只是给出关键部分来说明"如何调用ST公司的的库来完成对硬件的控制,以及 ...
Linux以百万兆字节显示内存大小
Linux以百万兆字节显示内存大小 youhaidong@youhaidong-ThinkPad-Edge-E545:~$ free --tera total used free shared buf ...
eclipse中的System.getProperty("user.dir")
eclipse中的System.getProperty("user.dir") 1.在Java Application中,上述中的获取的是Java项目的路径 (1)运行源码 /** ...
[RPC Fault faultString="Cannot invoke method 'saveOrUpdate'." faultCode="Server.ResourceUnavailable"
1.错误描述 [RPC Fault faultString="Cannot invoke method 'saveOrUpdate'." faultCode="Serve ...
查找IFileSourceFilter上的Pin
创建了IFileSourceFilter,可IFileSourceFilter好像不是从IBaseFilter继承来的,没有EnumPins,那应该怎么查找IFileSourceFilter上的pin ...
芝麻HTTP：TensorFlow基础入门
本篇内容基于 Python3 TensorFlow 1.4 版本. 本节内容本节通过最简单的示例 -- 平面拟合来说明 TensorFlow 的基本用法. 构造数据 TensorFlow 的引入方式 ...

笔记：XML-解析文档

笔记：XML-解析文档的更多相关文章

随机推荐

热门专题