最近在做一个BizTalk项目,对XML文件的处理很复杂。本来是想找有没有方法可以一次性去除XML文件中节点和属性的值的空格。但是找了很久没有看到相关的方法。如果有知道该方法的麻烦跟我讲一下:cbcye@live.com 不过下面我整理了一下与之相关的XML空白字符(WhiteSpace)。

先来看看这个问题比较一下这两个XML是否一样?

XML(一)

<AddBook>

  <Name/>

  <Mobile/>

</AddBook> 

XML(二)

<AddBook><Name/><Mobile/></AddBook> 

如果你觉得一样的话,那么我们来进行如下。我们使用的是XSLT(XML转换语言)读取整个XML文档。此XSLT文件的作用是拷贝整个源XML文档中的节点到目标XML文件中。


<?xml version="1.0" encoding="UTF-8" ?>

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">

  <xsl:output method="xml" indent="yes"/>

  <xsl:template match="node()">

    <xsl:copy>

      <xsl:apply-templates select="node()"/>

    </xsl:copy>

  </xsl:template>

</xsl:stylesheet> 

测试时在Visual Studio的XSLT调试界面设置断点。在监视窗口使用Xpath函数:node()来查看XML文档中的节点变化情况。

XML(一)的节点:

XML(二)的节点:

从以上的测试数据可以看出当XML处于不同行的时候XML会多一些类型为whitespace的节点。由此可见XML(一)与XML(二)是不相同的。那
为什么它们之间不相同呢?那为什么我们使用IE之类的XML解析器打开两个文件的话看到的效果是一样的?当然我们这里不讨论IE之类的是如何处理的(事实
上是我也不知道IE是如何处理的:)。我们主要来看看这两个XML之间为什么不一样。也就是本文要涉及的Whitespace。

首先我们来了解一下在XML里什么叫WiteSpace。XML 将以下四种字符归为空白字符:回车符(\r 或 ch(13))、换行符(\n 或 ch(10))、制表符 (\t) 以及空格 (' ')。在 XML 文档中,空白字符分为两类:
有意义空白字符 是文档内容的一部分,应予以保留。
无意义空白字符 在编辑 XML 文档时使用,以增加可读性。这些空白字符一般在文档交付时不予保留。

由此可见XML文档有时根据处理需要会增加一些回车、换行之类的特殊字符。但是如果这些字符在处理XML时不先清除(如果有必要的话)。那么就会造成一些
错误。比如在XSLT文件中有如下表达式的话那么XML文件中的空白字符就有可能引用转换处理错误。因为空白字符是不能作为节点名称的。

<xsl:element name="{local-name()}">

了解了XML文件中有无空白字符的区别与XML文件中空白字符的用处之后我们来了解一下XML处理器是如果处理空白字符的。该如何根据需要处理空白字符。

XML 分析:XML 规范提供了一个内置属性 xml:space 来告知 XML
分析器其是否应忽略空白字符。该属性由其根元素的子元素来继承。声明时,必须将其指定为枚举类型,其可能的值只能是“default”和
“preserve”。如果指定为“preserve”,则所定义元素内的空白字符必须保留。

示例:

  • XML数据

<?xml version="1.0" encoding="utf-8"?>

<root xmlns="http://quicklearn.cn"/>

  <part1>

    <ns0:books xmlns:ns0="http://books.quicklearn.cn"/>

      <ns0:book>

        <name>BizTalk Develop</name>

        <ISDN>0101010101010</ISDN>

      </ns0:book>

    </ns0:books>

  </part1>

  <part2>

    <ns1:customers xmlns:ns1="customers.quicklearn.cn">

      <customer xml:space="preserve">

        <name>Zhang San</name>

        <mobile>133333333333</mobile>

        <address>

          <province>Guang Dong</province>

          <city>Shen Zhen     </city>

        </address>

      </customer>

    </ns1:customers>

  </part2>

</root>
  • C#代码
XmlDocument xmlDoc = new XmlDocument();

xmlDoc.PreserveWhitespace = false;

xmlDoc.Load(@"D:\Projects\Temp\XSLTTest\XSLTTest\XSLTTest\XMLData2.xml");

this.richTextBox1.Text = xmlDoc.OuterXml;
  • 输出效果

<?xml version="1.0" encoding="utf-8"?><root xmlns="http://quicklearn.cn"/><part1><ns0:books xmlns:ns0="http://books.quicklearn.cn"/><ns0:book><name>BizTalk Develop</name><ISDN>0101010101010</ISDN></ns0:book></ns0:books></part1><part2><ns1:customers xmlns:ns1="customers.quicklearn.cn"><customer xml:space="preserve">

        <name>Zhang San</name>

        <mobile>133333333333</mobile>

        <address>

          <province>Guang Dong</province>

          <city>Shen Zhen     </city>

        </address>

      </customer></ns1:customers></part2></root>

XSLT 转换。W3C XSLT 规范提供了两个元素(即 xsl:strip-space 和
xsl:preserve-spacea€”)来处理空白字符。xsl:strip-space
指定了应删除空白字符文本节点(即文本节点完全由空白字符组成)的 XML 元素。请注意,xsl:strip-space
只有影响纯空白字符的节点。xsl:strip-space 可以列为一组由空白字符或使用通配符(例如
*)隔开的元素。xsl:preserve-space 具有类似的语法,但执行的结果却与 xsl:strip-space 正好相反。

使用方法:在XSLT文件声明全局属性 <xsl:strip-space elements="*"/>或 <xsl:strip-space elements="element1 element2…"/>

输出的效果与XML分析器相同。

总结

了解了XML空白字符的作用及XML分析与处理器处理方式。那么在处理XML空白字符字符的时候,如果XML是给后台应用程序处理的话在处理之前最好先去除XML空白字符。如果XML是给用户阅读的话则保留相关的空白字符。

BizTalk开发系列(十四) XML空白字符(WhiteSpace)的更多相关文章

  1. BizTalk开发系列(十六) XML命名空间

    BizTalk开发过程中如果有对XML进行开发操作,比如在自定义代码里操作XML消息或者在Mapping的时候使用Xpath对XML进行操 作.则有机会遇到XML命名空间的问题.常见的是使用Xpath ...

  2. BizTalk开发系列(十八) 使用信封拆分数据库消息

    之前写了一篇的<BizTalk开发系列(十七) 信封架构(Envelop)> 是关于信封架构及其拆装原理的,都是理论性的内容.信封在BizTalk开发过程中最常用的应该是在读取SQL Se ...

  3. 【Qt编程】基于Qt的词典开发系列<十四>自动补全功能

    最近写了一个查单词的类似有道词典的软件,里面就有一个自动补全功能(即当你输入一个字母时,就会出现几个候选项).这个自动补全功能十分常见,百度搜索关键词时就会出现.不过它们这些补全功能都是与你输入的进行 ...

  4. BizTalk开发系列(十二) Schema设计之Group与Order

    开发BizTalk项目的时候会先约定各系统之间往来的消息格式. 由于BizTalk内部唯一使用XML文档.因此消息的格式为XML Schema(XML Schema 用于描述 XML 文档的结构).虽 ...

  5. BizTalk开发系列(十九) BizTalk命名规范

    目前BizTalk项目的开发人员比较少,但是在开发过程中还是需要命名规范的约束.根据以往BizTalk项目的经验,整理了BizTalk命 名规范.包括:BizTalk Application, Sch ...

  6. BizTalk开发系列(十五) Schema设计之Qualified 与Unqualified

    XML Schema中的命名空间前缀限定包括对元素(Element)或属性(Attribute)的限定,即常见的如 “<ns0:root>...</ns0:root>”之类的格 ...

  7. BizTalk开发系列(十) ESB Guidance安装笔记

    ESB指导工具包(ESB Guidance)是一个运行于BizTalk Server 2006 R2之上的一个框架.详细信息访问ESB指导工具包社区网站 .源码下载 ESB Guidance的安装过程 ...

  8. arcgis api 3.x for js 入门开发系列十四最近设施点路径分析(附源码下载)

    前言 关于本篇功能实现用到的 api 涉及类看不懂的,请参照 esri 官网的 arcgis api 3.x for js:esri 官网 api,里面详细的介绍 arcgis api 3.x 各个类 ...

  9. BizTalk 开发系列(四十一) BizTalk 2010 BAM 安装手记

    使用64位系统可以支持更大的内存,现在服务器基本上都使用64位系统.微软从Windows Server 2008 R2开始服务器版的操作系统也只支持64位了,不过对于像BizTalk这种“繁杂的东西” ...

随机推荐

  1. BZOJ 2342 回文串-Manacher

    题目链接:http://www.lydsy.com/JudgeOnline/problem.php?id=2342 思路:先跑一遍Manacher求出p[i]为每个位置为中心的回文半径,因为双倍回文串 ...

  2. 获取datable中某行某列的数据

    假设该DataTable有5行和两个字段“Name”,“Phone”, 我如何访问第3行的“Phone”字段的值. DataTable.Rows[2][1].ToString() DataTable. ...

  3. 解决eclipse报PermGen space内存溢出异常的问题

    异常问题如下所示: 1.点击Eclipse->Window->Preferences,如下所示: 2.点击Server->Runtime Environments,选择Apache ...

  4. iOS KVC valueForKeyPath学习心得

    #import <Foundation/Foundation.h> @interface myClass1 : NSObject @property (nonatomic, copy) N ...

  5. Python基础9- 字典

    #coding=utf8#字典由键和对应的值组成(键值对)--哈希表,字典元素也可以为空 dict1 = {'name':'kaly','age':20,'sex':'male'}dict2 = {} ...

  6. wordpress修改上传文件大小限制

    在为有的客户搭建 WordPress 网站时,有时会遇到因为所在的服务器限制了上传文件大小而无法上传较大的附件,WordPress的媒体文件上传可以看到,大多数都是2MB或者8MB.如果是图片的话可能 ...

  7. Codeforces 615C Running Track(DP + Trie树)

    题目大概说给两个串,问最少要用多少个第一个串的子串(可以翻转)拼成第二个串. UVa1401,一个道理..dp[i]表示前缀i拼接成功所需最少的子串,利用第一个串所有子串建立的Trie树往前枚举转移. ...

  8. WPF 颜色转换

    从字符串到画刷: var converter = new System.Windows.Media.BrushConverter(); var brush = (Brush)converter.Con ...

  9. BZOJ3607 : 数据网络

    首先答案一定是包含直径某个端点的一个连通块里所有边权值之和,设直径为$AB$,以$A$和$B$分别为根进行处理. 首先按照最长路法则将这棵树进行树链剖分,那么每个叶子的贡献为它与它所在链顶端的点的距离 ...

  10. Angular JS中的依赖注入

    依赖注入DI angularjs中与DI相关有angular.module().angular.injector(). $injector.$provide. DI 容器3要素:服务的注册.依赖关系的 ...