Java开发笔记（一百零九）XML报文的定义和解析

前面介绍了JSON格式的报文解析，虽然json串短小精悍，也能有效表达层次结构，但是每个元素只能找到对应的元素值，不能体现更丰富的样式特征。比如某个元素除了要传输它的字符串文本，还想传输该文本的类型、字体大小、字体颜色等特征，且这些额外的风格样式与业务逻辑无关，自然不适合为它们单独设立参数字段。倘若采用JSON格式定义包括样式特征在内的文本元素，要么摒弃风格样式这种附加属性，要么将风格样式单列为专门的字段参数，然而不管哪种做法，都未能妥善解决附加属性的表达问题。可见轻量级的JSON格式依然存在力不从心的情况，为此人们早早发明了拥有强大表示能力的XML格式，XML的全称是“Extensible Markup Language”（可扩展标记语言），它不但支持结构化数据的描述，还支持各类附加属性的定义，非常适合在网络中传输信息。
下面先看一个XML报文格式的购物订单样例：

<?xml version="1.0" encoding="gbk"?>

<order>

	<user_info>

	<name type="string">思无邪</name>

	<address type="string">桃花岛水帘洞123号</address>

	<phone type="string">15960238696</phone>

	</user_info>

	<goods_list>

		<goods_item>

			<goods_name type="string">Mate30</goods_name>

			<goods_number type="int">1</goods_number>

			<goods_price type="double">8888</goods_price>

		</goods_item>

		<goods_item>

			<goods_name type="string">格力中央空调</goods_name>

			<goods_number type="int">1</goods_number>

			<goods_price type="double">58000</goods_price>

		</goods_item>

		<goods_item>

			<goods_name type="string">红蜻蜓皮鞋</goods_name>

			<goods_number type="int">3</goods_number>

			<goods_price type="double">999</goods_price>

		</goods_item>

	</goods_list>

</order>

接着对上面的XML样例庖丁解牛，分析一下XML格式都有哪些特点，分析结果罗列如下：
1、每个元素依然由参数名称和参数值组成，参数名称为尖括号所包裹，且分为标记头与标记尾两部分，标记尾在尖括号内部多了个斜杆。如此一来，一个字段的完整形式为“<参数名称>参数值</参数名称>”。
2、因为每个元素都自带标记头与标记尾，很容易区分在哪开始在哪结束，所以元素之间无需额外的分隔符，只要有标记头与标记尾就足够辨别了。
3、每个结构也需要专门的标记头与标记尾，中间再填入若干元素或者其它结构。
4、对于数组形式的数据，XML报文采用多个同名的结构标记并排列举，表示这里存在同名结构的数组信息，也可看作是清单信息。
5、XML格式允许在报文开头的encoding属性处指定当前报文的字符编码类型，常见的有汉字内码规范GBK，以及世界通用编码规范UTF-8。
6、每个结构或者元素节点，也支持在标记头部分填充附加属性，用于指定参数值以外的特定信息。
大致了解了XML报文的格式规范，还得在程序中加以解析才行。传统的XML解析方式有DOM和SAX两种，DOM方式会把整个XML报文读进来，并且所有节点全被自动加载到一个树状结构，以后每个节点值都到该树状结构中读取。SAX方式不会事先读入整个XML报文，而是根据节点名称从报文起点开始扫描，一旦找到该节点的标记头位置，即刻往后寻找该节点的标记尾，那么节点标记头尾之间的数据便是节点值了。单就某个节点值的解析过程而言，加载所有节点的DOM方式显然较费功夫，从头顺序查找的SAX方式执行效率更高。但若要求同时获取多个节点的数值，则采取树状结构遍历的DOM方式总体性能更加，而每次都从头找起的SAX方式无疑做了重复劳动。总之两种方式的解析效果各有优劣，需要按照实际场景决定取舍。
尽管JDK集成了DOM与SAX的解析工具，其中DOM解析工具封装在包org.w3c.dom中，SAX解析工具封装在包javax.xml.parsers中，可是它俩用起来着实费劲，解析过程艰深晦涩，实际开发当中基本不予采用。应用比较多的XML解析工具反而是第三方的Dom4j，Dom4j的解析方式遵循DOM规则，但比起Java自带的DOM工具要易用得多，其性能也很优异，几乎成为Java开发必备的XML解析神器了。通过Dom4j解析XML报文的步骤主要有下列五步：
1、创建SAXReader阅读器对象；
2、把字符串形式的XML报文转换为输入流对象；
3、命令阅读器对象从输入流中读取Document文档对象；
4、获得文档对象的根节点Element；
5、从根节点往下依次解析每个层级的节点值；
在具体的节点解析过程之中，会频繁调用Element的相关方法，它的常用方法说明如下：
getText：获得当前节点的字符串值。
element：获得当前节点下面指定名称的子节点对象。
elementText：获得当前节点下面指定名称的子节点值。
elements：获得当前节点下面指定名称的子节点清单。
attribute：获得当前节点自身指定名称的属性对象。
attributeValue：获得当前节点自身指定名称的属性值。
attributes：获得当前节点拥有的全部属性清单。

仍以前述的XML报文为例，下面是采用Dom4j解析该XML串的代码例子：

	// 通过dom4j解析xml串

	private static GoodsOrder testParserByDom4j(String xml) {

		GoodsOrder order = new GoodsOrder(); // 创建一个购物订单对象

		// 创建SAXReader阅读器对象

		SAXReader reader = new SAXReader();

		// 根据字符串构建字节数组输入流

		try (InputStream is = new ByteArrayInputStream(xml.getBytes(CHARSET))) {

			// 命令阅读器从输入流中读取文档对象

			Document document = reader.read(is);

			// 获得文档对象的根节点

			Element root = document.getRootElement();

			// 获取根节点下面名叫user_info的节点

			Element user_info = root.element("user_info");

			// 获取user_info节点下面名叫name的节点值

			order.user_info.name = user_info.element("name").getText();

			// 获取user_info节点下面名叫address的节点值

			order.user_info.address = user_info.element("address").getText();

			// 获取user_info节点下面名叫phone的节点值

			order.user_info.phone = user_info.element("phone").getText();

			System.out.println(String.format("用户信息如下：姓名=%s，地址=%s，手机号=%s",

					order.user_info.name, order.user_info.address, order.user_info.phone));

			// 获取根节点下面名叫goods_list的节点清单

			List<Element> goods_list = root.element("goods_list").elements();

			for (int i=0; i<goods_list.size(); i++) { // 遍历商品节点清单

				Element goods_item = goods_list.get(i);

				GoodsItem item = new GoodsItem(); // 创建一项商品对象

				// 获取当前商品项节点下面名叫goods_name的节点值

				item.goods_name = goods_item.element("goods_name").getText();

				// 获取当前商品项节点下面名叫goods_number的节点值

				item.goods_number = Integer.parseInt(goods_item.element("goods_number").getText());

				// 获取当前商品项节点下面名叫goods_price的节点值

				item.goods_price = Double.parseDouble(goods_item.element("goods_price").getText());

				System.out.println(String.format("第%d个商品：名称=%s，数量=%d，价格=%f",

						i+1, item.goods_name, item.goods_number, item.goods_price));

				order.goods_list.add(item); // 往商品清单中添加指定商品对象

			}

		} catch (Exception e) {

			e.printStackTrace();

		}

		return order; // 返回解析后的购物订单对象

	}

运行以上的解析代码，观察到以下的购物订单日志，可见成功实现了xml串到对象的解析操作：

用户信息如下：姓名=思无邪，地址=桃花岛水帘洞123号，手机号=15960238696

第1个商品：名称=Mate30，数量=1，价格=8888.000000

第2个商品：名称=格力中央空调，数量=1，价格=58000.000000

第3个商品：名称=红蜻蜓皮鞋，数量=3，价格=999.000000

除了解析各节点的节点值，Dom4j还能解析各节点的属性值，若想正常解析指定名称的属性值，则需明确下列三个要素：该属性的上级节点对象、该属性所在节点的节点名称，该属性的属性名称。有了这三个要素，即可通过以下方法从指定节点的指定属性成功获取属性值：

	// 打印指定节点名称的指定属性值

	private static void printValueAndAttr(Element parent, String node_name, String attr_name) {

		// 获取父节点下面指定名称的子节点

		Element element = parent.element(node_name);

		// 获得子节点的节点值

		String node_value = element.getText();

		String attr_value = "";

		// 根据属性名称获取子节点的对应属性对象

		Attribute attr = element.attribute(attr_name);

		if (attr != null) {

			attr_value = attr.getText(); // 获取该属性的属性值

		}

		// 打印子节点的详细信息，包括节点名称、节点值、属性名称、属性值

		System.out.println(String.format("节点名称=%s, 节点值=%s, 属性名称=%s, 属性值=%s",

				node_name, node_value, attr_name, attr_value));

	}

接下来在原先的XML解析代码里补充如下的一行属性解析代码：

			// 打印user_info节点的name子节点的type属性值

			printValueAndAttr(user_info, "name", "type");

再次运行XML解析代码，在输出的购物订单日志中观察到多了下面这行日志，表示解析到了name节点的type属性值：

节点名称=name, 节点值=思无邪, 属性名称=type, 属性值=string

更多Java技术文章参见《Java开发笔记（序）章节目录》

Java开发笔记（一百零九）XML报文的定义和解析的更多相关文章

Java开发笔记（一百零八）JSON串的定义和解析
前面提到URL尾巴支持添加请求参数,具体格式形如“参数A名称=A参数值&参数B名称=B参数值”,可是这种格式只能传递简单的键值对信息,不能传递结构化数据,也无法传递数组形式的参数,因而它不适用 ...
Java开发笔记（九十九）定时器与定时任务
前面介绍了线程的几种运行方式,不管哪种方式,一旦调用了线程实例的start方法,都会立即启动线程的事务处理.然而某些业务场景在事务执行时间方面有特殊需求,例如期望延迟若干时间之后才开始事务运行,又如期 ...
Java开发笔记（六十二）如何定义函数式接口
前面介绍了Lambda表达式的用法,从实践中发现它确实极大地方便了开发者,然而不管是匿名内部类还是Lambda表达式,所举的例子都离不开各类数组的排序方法,倘使Lambda表达式仅能用于sort方法, ...
Java开发笔记（十九）规律变化的for循环
前面介绍while循环时,有个名叫year的整型变量频繁出现,并且它是控制循环进出的关键要素.不管哪一种while写法,都存在三处与year有关的操作,分别是“year = 0”.“year<l ...
Java开发笔记（序）章节目录
现将本博客的Java学习文章整理成以下笔记目录,方便查阅. 第一章初识JavaJava开发笔记(一)第一个Java程序Java开发笔记(二)Java工程的帝国区划Java开发笔记(三)Java帝国的 ...
Java开发笔记（一百零一）通过加解锁避免资源冲突
前面介绍了如何通过线程同步来避免多线程并发的资源冲突问题,然而添加synchronized的方式只在简单场合够用,在一些高级场合就暴露出它的局限性,包括但不限于下列几点:1.synchronized必 ...
Java开发笔记（一百零四）普通线程池的运用
前面介绍了线程的基本用法,以及多线程并发的问题处理,但实际开发中往往存在许多性质相似的任务,比如批量发送消息.批量下载文件.批量进行交易等等.这些同类任务的处理流程一致,不存在资源共享问题,相互之间也 ...
Java开发笔记（一百零三）线程间的通信方式
前面介绍了多线程并发之时的资源抢占情况,以及利用同步.加锁.信号量等机制解决资源冲突问题,不过这些机制只适合同一资源的共享分配,并未涉及到某件事由的前因后果.日常生活中,经常存在两个前后关联的事务,像 ...
Java开发笔记（一百零二）信号量的请求与释放
前面介绍了同步与加锁两种并发处理机制,虽然加锁比起同步要灵活一些,但是加锁在某些高级场合依然力有未逮,包括但不限于下列几点:1.某块代码被加锁之后,对其它线程而言就处于繁忙状态,缺乏弹性的阈值范围:2 ...

随机推荐

洛谷 P2512 [HAOI2008]糖果传递题解
每日一题 day47 打卡 Analysis 首先,最终每个小朋友的糖果数量可以计算出来,等于糖果总数除以n,用ave表示. 假设标号为i的小朋友开始有Ai颗糖果,Xi表示第i个小朋友给了第i-1个小 ...
4个MySQL优化工具AWR，帮你准确定位数据库瓶颈！（转载）
对于正在运行的mysql,性能如何,参数设置的是否合理,账号设置的是否存在安全隐患,你是否了然于胸呢? 俗话说工欲善其事,必先利其器,定期对你的MYSQL数据库进行一个体检,是保证数据库安全运行的重要 ...
数据分析师（Data Analyst），数据工程师（Data Engineer），数据科学家（Data Scientist）的区别
数据分析师(Data Analyst):负责从数据中提取出有用的信息,以帮助公司形成业务决策.工作内容包括:对数据进行提取,清洗,分析(用描述统计量,趋势分析,多维度分析,假设检验等统计常用方法对数据 ...
linux命令之------Linux文件系统具体目录
Linux文件系统具体目录 (1)/ Linux文件系统的入口,也是处于最高一级的目录 (2)/bin 系统所需要的那些命令处于此目录,比如Is,cp,mkdir等命令:功能和/usr/bin类似 ...
【转】Java 8新特性（四）：新的时间和日期API
Java 8另一个新增的重要特性就是引入了新的时间和日期API,它们被包含在java.time包中.借助新的时间和日期API可以以更简洁的方法处理时间和日期. 在介绍本篇文章内容之前,我们先来讨论Ja ...
xmind 破解
邮箱:x@iroader 序列号: XAka34A2rVRYJ4XBIU35UZMUEEF64CMMIYZCK2FZZUQNODEKUHGJLFMSLIQMQUCUBXRENLK6NZL37JXP4P ...
mysql locate()函数
mysql> select * from test; +----+------------+-------+-----------+ | id | name | score | subject ...
（三）Cisco dhcp snooping实例1-单交换机（DHCP服务器和DHCP客户端位于同一VLAN）
环境:cisco dhcp server和客户端都属于vlan27,dhcp server 接在交换机G0/1,客户端接在交换机的G0/2 cisco dhcp server相关配置 ip dhcp ...
Android系统如何移植wpa_supplicant及wifi驱动
一.WPA_SUPPLICANT简介 1. 什么是wpa_supplicant wpa_supplicant is a WPA Supplicant for Linux, BSD, Mac OS X, ...
PHP系列 | 编译安装msgpack-php
Msgpack 是一个 PECL 扩展,此扩展提供用于与 MessagePack 序列化通信的 API. MessagePack 是一个基于二进制高效的对象序列化类库,可用于跨语言通信.它可以像JSO ...

Java开发笔记（一百零九）XML报文的定义和解析

Java开发笔记（一百零九）XML报文的定义和解析的更多相关文章

随机推荐

热门专题