DOM解析XML

@author ixenos

XML解析方式（原理）

a) DOM 解析树

b) SAX 流事件

DOM解析对应主流工具

i. DOM（官方）

ii. DOM4J （非官方主流三大框架使用DOM4J解析配置文件）

iii. JDOM （非官方）

SAX解析对应主流工具

SAX （官方主流）

解析XML文档

a) 要处理XML文档就要先解析(parse)它，

b) 解析器程序：读入一个文件，确认这个文件具有正确的格式，然后分解成各种元素，使程序员能够访问这些元素

i. 文档对象模型（Document Object Model，DOM）解析器，是树型解析器（tree parser），将读入的XML文档转换成树结构

ii. XML简单API（Simple API for XML，SAX）解析器，是流机制解析器（streaming parser），在读入XML文档时生成相应的事件

c) 如果只是对于某些元素感兴趣，而不关心他们的上下文，那么在这些情况下你应该考虑使用流机制解析器

节点Node

一个XML文档中只有一个根节点

没有父节点的元素节点

元素节点

根节点和根节点中的所有标签都是元素节点

属性节点

<student id=“001”></student> id就是属性节点

文本节点

<name>zhangsan</name> zhangsan就是文本节点

注释节点

xml文档中的注释信息

Element类型：带标签的<a>b</a>，节点名是a，节点值都是null，b是“节点值”，也是子节点（此时b是Text类型的节点）

Attr类型：节点值是属性名，节点值是属性值

Text类型：在标签之外的都是文本节点，节点名都是#text，节点值是文本

因此，我们认为的Element类型的节点的“节点值”，实际上是Element类型节点的Text类型的子节点——指夹在标签中间的内容，不能通过getNodeValue()获取，要通过：

getFirstChild().getNodeValue() 获得第一个子节点的节点值
getTextContent() 获得所有Text子节点的节点值，也会递归孙子节点获得曾孙节点的节点值

a) 例如<a><b>bb</b>哈哈哈</a>将得到：bb哈哈哈

b) 而用1.将解析b这个Element节点，将得到null

DOM官方解析示例

a) 首先要明白XML是被看成文档（Document）的，所以我们需要一个DocumentBuilder对象来读取XML，生成对应的Document对象

i. /*用Builder工厂生成Builder*/

ii. DocumentBuilderFactory factory = DocumentDuilderFactory.newInstance();

iii. DocumentBuilder builder = factory.newDocumentBuilder();

iv. /*用builder读取XML文档生成Document对象*/

v. File f = new File(“…”);

vi. Document doc = builder.parse(f); //也可以读URL或者输入流

b) 启动对Document的分析，调用getDocumentElement，获得root元素

i. Element root = doc.getDocumentElement();

c) 获得root节点子节点的列表，

i. 注意，子节点不仅有Element元素类型还有Text文本类型（不在标签里的，连换行回车的空白也算）

ii. NodeList children = root.getChildNodes();

iii. For(int i=0; i<children.getLength(); i++){

Node child = children.item(i);

……

iv. }

v. 如果只希望得到元素子节点（Element），那么可以忽略空白字符（Text）：

vi. NodeList children = root.getChildNodes();

vii. For(int i=0; i<children.getLength(); i++){

Node child = children.item(i);

if(child instanceof Element){

Element childElement = (Element)child;

…

}

viii. }

d) 如果文档有DTD，那么解析器知道哪些是没有文本节点的子元素，而且会自动剔除掉空白字符！DTD很好用

e) 如<a>123</a><b>456</b>，当我们想知道标签夹着的信息时，既然Text是这些元素子节点唯一的子节点，就可以用getFirstChild方法而不必对着这些元素子节点的NodeList一顿遍历，而只需要之后再对Text节点getData得到字符串即可

i. For(int i=0; i<children.getLength(); i++){

Node child = children.item(i);
If(child instanceof Element){

a) Element childElement = (Element)child;

b) Text textNode = (Text)childElement.getFirstChild();

c) String text = textNode.getData().trim(); //去掉多余空格和换行符

d) if(childElement.getTagName().equals(“name”)) //name标签名

i. name = text;

e) else if(childElement.getTagName().equals(“size”))

i. size = Integer.parseInt(text);

}

对元素节点的文本子节点getData后再trim，可以优化这种情况：

<size>

</size>

此时文本子节点中含有换行和空格，调用trim可以删掉前后的空格

f) 枚举元素子节点的属性<size hel=”pt”>36</size>

i. 一个标签可以有多个属性，每个属性都有它自己的名称和取值，例如：

属性值一定要用双引号（"）或单引号（'）引起来

定义属性必须遵循与标签相同的命名规范

多学一招：在XML技术中，标签属性所代表的信息，也可以被改成用子元素的形式来描述，例如：

<input>

<name>text</name>

</input>

注意：此时就不能使用getAttributes了

ii. 文档对象调用getAttributes，返回一个NameNodeMap对象，其中包含了描述属性的Node对象（键值对），遍历该Map得Node，调用getNodeName和getNodeValue获得属性名和属性值

iii. 或者知道属性名，直接获取属性值

String unit = element.getAttrbute(“unit”); //unit是属性名，将属性值赋给String变量unit

或者

外部

<!DOCTYPE configuration PUBLIC “http://myserver.com/config.dtd”>

JavaEE XML DOM解析的更多相关文章

JavaEE XML DOM解析之DOM4J
DOM解析之DOM4J @author ixenos DOM4J常用API 读取xml文档: Document doc = new SAXReader().read("xml文件" ...
python 解析XML python模块xml.dom解析xml实例代码
分享下python中使用模块xml.dom解析xml文件的实例代码,学习下python解析xml文件的方法. 原文转自:http://www.jbxue.com/article/16587.html ...
Java XML Dom解析工具
Java XML Dom解析工具缩进等 transformer.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "no"); ...
XML与web开发-01- 在页面显示和 XML DOM 解析
前言: 关于 xml 特点和基础知识,可以菜鸟教程进行学习:http://www.runoob.com/xml/xml-tutorial.html 本系列笔记,主要介绍 xml 在 web 开发时需要 ...
Java XML DOM解析（xPath）
(一) XML概念在电子计算机中,标记指计算机所能理解的信息符号,通过此种标记,计算机之间可以处理包含各种的信息比如文章等.它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的 ...
Python使用xml.dom解析xml
在菜鸟教程上找了个关于电影信息的xml类型的文档,用python内置的xml.dom来解析提取一下信息. 先复习一下xml概念: XML 指可扩展标记语言(EXtensible Markup Lang ...
XML DOM解析基础概念
DOM和SAX W3C制定了一套书写XML分析器的标准接口规范——DOM. 除此以外,XML_DEV邮件列表中的成员根据应用的需求也自发地定义了一套对XML文档进行操作的接口规范——SAX. 这两种接 ...
XML(DOM解析)
//创建book.xml 文件 <?xml version="1.0" encoding="UTF-8"?> <books> <b ...
XML (DOM解析) 看看就行
000000000000000000000000000000000000000 ------------------------------------------------------------ ...

随机推荐

Linux Shell 示例精解(第七章 gawk编程）转载
第七章 gawk功能:gawk编程 7.1.1 数字和字符串常量初始化和类型强制在awk中,变量不需要定义就可以直接使用,使用一个变量就是对变量的定义.变量的类型可以试数字.字符串,或者 ...
自己动手实现Expression翻译器 – Part Ⅱ
上一节我们了解了Linq查询大体上是如何运转的,并针对SQL表达式进行建模(DbExpression),这一节的重点在于如何将表达式转换为DbExpression. 可以说只要能生成结构清晰的DbEx ...
NET那点不为人知的事
ASP.NET那点不为人知的事(一) 我们上网时,在浏览器地址输入网址:Http://www.cnblogs.com,按下回车,一张网页就呈现在我们眼前.这究竟发生了什么?对于一名优秀的Progr ...
【学习笔记】《JavaScript DOM 编程艺术》 ——总结
一.要点阐述 1,程序设计语言分为解释型和编译型两大类,JS属于解释型,在Web浏览器中一边解释一边执行. 2,"//"注释单行,"/*...*/"注释多行.反 ...
Java多线程学习笔记——从Java JVM对多线程数据同步的一些理解
我们知道在多线程编程中,我们很大的一部分内容是为了解决线程间的资源同步问题和线程间共同协作解决问题.线程间的同步,通俗我们理解为僧多粥少,在粥有限情况下,我们怎么去防止大家有秩序的喝到粥,不至于 ...
Push Notification总结系列（一）
Notification系列概括: 1.Push Notification简介和证书说明及生成配置 2.Push Notification的iOS处理代码和Provider详解 3.Push Noti ...
Definition of:payload
(1) Refers to the "actual data" in a packet or file minus all headers attached for transpo ...
sprinfmvc学习--01
springmvc框架是一个基于请求驱动的web框架,使用了前端控制器模式来设计.根据请求映射规则分发给相应的页面控制器进行处理. 1. 首先用户发送请求-->DispatcherServle ...
从网络上获取图片并保存在sdCard上
package com.aib.soft; import java.io.BufferedOutputStream; import java.io.File; import java.io.FileO ...
android获取存储卡使用情况
package com.aib.com; import java.io.File; import android.app.Activity; import android.os.Bundle; imp ...

JavaEE XML DOM解析