笔记:XML-解析文档-DOM
要处理XML文档,就要先解析(parse)他,解析器时这样一个程序,读入一个文件,确认整个文件具有正确的格式,然后将其分解成各种元素,使得程序员能够访问这些元素,Java库提供了两种XML解析器:
- 像文档对象模型(Document Object Model,DOM)解析器这样的树型解析器,他们将读入的XML文档转换成树结构
- 像XML简单API(Simple API for XML,SAX)解析器这样的流机制解析器,他们读入XML文档时生成相应的事件
DOM解析器对于实现我们的大多数目的来说都更容易一些,如果需要处理很长的文档,用他来生成树结构会消耗大量的内存,或者只需要对于某些元素感兴趣,而不关心他们的上下文,那么可以考虑使用SAX解析器。DOM解析器的接口已经被W3C标准化了,org.w3c.dom包中包含了这些接口类型的定义,比如:Document、Element等,不同的实现者都编写了实现这些接口的DOM解析器,Java
XML
处理API(Java
API
for
XML
Processing,JAXP)库使得实际上可以以插件形式使用这些解析器中的任意一个。要读入一个XML文档,首先需要一个DocumentBuilder对象,可以从
DocumentBuilderFactory
中得到这个对象,代码如下:
DocumentBuilderFactory factory=DocumentBuilderFactory.newInstance();
DocumentBuilder builder=factory.newDocumentBuilder();
现在,可以从文件中读入某个文档:
File f = …;
Document doc = builder.parse(f);
或者,可以用一个URL:
URL u = …;
Document doc = builder.parse(u);
甚至可以使用一个任意的输入流:
InputStream in = …;
Document doc = builder.parse(in);
Document 对象时XML文档的树型结构在内存的表现,他由实现了 Node 接口及其各子接口的类对象构成,子接口层次结构如下:

DOM
解析XML文档的代码示例如下:
- XML文档内容:
<?xml version="1.0" encoding="utf-8" ?>
<root>
<title>
<font enabled="false">
<!-- 字体名称 -->
<name>Helvetica</name>
<size>36</size>
</font>
<data>
<![CDATA[xml document root node <root.../>]]>
</data>
</title>
</root>
- 解析代码:
public static
void
main(String[] args) {DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
try {
DocumentBuilder builder = factory.newDocumentBuilder();
Path xmlPath = Paths.get("E:\\IDEA Workspace\\exampleiostream\\src\\main\\java\\org\\drsoft\\examples\\xml", "appParse.xml");
InputStream xmlStream = Files.newInputStream(xmlPath, StandardOpenOption.READ);
Document xmlDocument = builder.parse(xmlStream);
StringBuilder sb = new
StringBuilder();sb.append("<?xml version=\"" + xmlDocument.getXmlVersion() + "\"
encodin=\""+ xmlDocument.getXmlEncoding() + "\"
?>");Element root = xmlDocument.getDocumentElement();
sb.append("<" + root.getTagName() + ">");
NodeList nodeList = root.getChildNodes();
for (int i = 0; i < nodeList.getLength(); i++) {
if (nodeList.item(i) instanceof Element) {
sb.append(parseChildNodes((Element) nodeList.item(i)));
}
}
sb.append("</" + root.getTagName() + ">");
System.out.println(sb.toString());
} catch (ParserConfigurationException e) {
e.printStackTrace();
} catch (IOException ex) {
ex.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
}
}
private static String parseChildNodes(Element element) {
StringBuilder sb = new
StringBuilder();sb.append("<" + element.getTagName());
NamedNodeMap map = element.getAttributes();
for (int j = 0; j < map.getLength(); j++) {
sb.append(" " + map.item(j).getNodeName() + "=\"" + map.item(j).getNodeValue() + "\"");
}
sb.append(" >");
if (element.hasChildNodes()) {
NodeList list = element.getChildNodes();
for (int i = 0; i < list.getLength(); i++) {
if (list.item(i) instanceof Element) {
Element curElement = (Element) list.item(i);
sb.append(parseChildNodes(curElement));
continue;
}
if (list.item(i) instanceof CDATASection) {
CDATASection cdataSection = (CDATASection) list.item(i);
sb.append("<![CDATA[").append(cdataSection.getData()).append("]]>");
continue;
}
if (list.item(i) instanceof Comment) {
Comment comment = (Comment)list.item(i);
sb.append("<!-- "+comment.getData()+" -->");
continue;
}
if (list.item(i) instanceof Text) {
Text curText = (Text) list.item(i);
sb.append(curText.getData().trim());
continue;
}
}
}
sb.append("</" + element.getTagName() + ">");
return sb.toString();
}
笔记:XML-解析文档-DOM的更多相关文章
- XML之DOM解析文档 Day24
TestDom.java package com.sxt.dom; import java.io.File; import java.io.IOException; import javax.xml. ...
- JavaEE实战——XML文档DOM、SAX、STAX解析方式详解
原 JavaEE实战--XML文档DOM.SAX.STAX解析方式详解 2016年06月22日 23:10:35 李春春_ 阅读数:3445 标签: DOMSAXSTAXJAXPXML Pull 更多 ...
- 5月3日上课笔记-XML解析
一.XML编程 1.xml编程的两种解析方式 1.1 dom解析 优点:一次加载,多次使用.可以方便的对xml文档进行增删改查 缺点:如果xml文档过大的话,加载的时候会比较占用内存空间比较大,消耗资 ...
- XML的文档声明
1.XML的文档声明 <?xml version="1.0" encoding="utf-8"?> 文档声明必须写在第一行第一列 属性: versi ...
- 文档ID:某某 模板文件不存在,无法解析文档!
如果是生成栏目列表时出现这样的问题]: 1.可以修改include/arc.listview.class.php这个文件. 2.复制代码 echo "模板文件不存在,无法解析文档 ...
- DedeCMS模板文件不存在,无法解析文档! 问题定位方法
生成静态的时候,经常会遇到“模板文件不存在,无法解析文 档!”的问题.很多朋友试过论坛里很多方法,都是针对某些人可以解决,某些人的问题依旧,为什么呢?其实问题很可能确实是多种多样的,表现结果却是一样, ...
- dedecms 模板文件不存在,无法解析文档"的终极各种解决办法
方法一:[此对应喜欢把模板文件使用".html"的格式,] /include/arc.archives.class.php 556行 if (!preg_match(&qu ...
- dedecms 模板文件不存在 无法解析文档!问题定位方法!
生成静态的时候,经常会遇到“模板文件不存在,无法解析文 档!”的问题.很多朋友试过论坛里很多方法,都是针对某些人可以解决,某些人的问题依旧,为什么呢?其实问题很可能确实是多种多样的,表现结果却是一样, ...
- dedecms 模板文件不存在,无法解析文档的终极各种解决办法
dedecms 模板文件不存在,无法解析文档"的终极各种解决办法 方法一:[此对应喜欢把模板文件使用".html"的格式,] /include/arc.archives. ...
- java解析xml文档(dom)
DOM解析XML文档 读取本地的xml文件,通过DOM进行解析,DOM解析的特点就是把整个xml文件装载入内存中,形成一颗DOM树形结构,树结构是方便遍历和和操纵. DOM解析的特性就是读取xml文件 ...
随机推荐
- openstack-ocata-镜像服务3
一. 镜像服务概述 镜像服务(glance)使用户能够发现.登记,并检索虚拟机镜像.它提供了一个REST API,使您可以查询虚拟机镜像元数据和检索一个实际的形象.可以存储虚拟机镜像通过镜像服务在不同 ...
- Android开发之组件
Android应用程序由组件组成,组件是可以解决被调用的基本功能模块.Android系统利用组件实现程序内部或程序间的模块调用,以解决代码复用问题,这是Android系统非常重要的特性.在程序设计时, ...
- 对HI3531的GPIO使用的再分析
在一个嵌入式系统中使用最多的莫过于 通用输入输出 GPIO口.看到论坛中经常有朋友问海思为什么没有提供GPIO驱动.其实不然. 在海思SDK xxx/osdrv/tools/board_tools/ ...
- 阿里开源的热补丁框架AndFix使用教程
阿里巴巴推出的AndFix框架 首次给出大家这个框架的地址:https://github.com/alibaba/AndFix 对源码比较感兴趣的同学们可以自行研究代码 AndFix原理介绍 AndF ...
- SystemVerilog语言简介(一)
1. 接口(Interface) Verilog模块之间的连接是通过模块端口进行的.为了给组成设计的各个模块定义端口,我们必须对期望的硬件设计有一个详细的认识.不幸的是,在设计的早期,我们很难把握设计 ...
- Android Parcelable和Serializable的区别
本文主要介绍Parcelable和Serializable的作用.效率.区别及选择,关于Serializable的介绍见Java 序列化的高级认识. 1.作用 Serializable的作用是为了保存 ...
- 如何在BIOS中设置RAID?
随着价格的下降和相应主板的支持,目前SATA硬盘已经逐渐成为主流.但由于受芯片组和操作系统的影响,不少用户对SATA硬盘的使用及安装系统掌握不足,今天小编就给大家介绍一下SATA硬盘的日常应用技巧,希 ...
- 芝麻HTTP:Python爬虫实战之抓取淘宝MM照片
本篇目标 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式 在这里我们用到的URL ...
- CF370 D Memory and Scores
dp题 并运用了前缀和 我看题目提示中有fft 我想了下感觉复杂度不过关还是未解 #include<bits/stdc++.h> using namespace std; typedef ...
- Tea HDU - 5881
Tea is good. Tea is life. Tea is everything. The balance of tea is a journey of pursuing balance of ...