关于大XML文件与大节点处理(System.Xml.XmlTextReader)

近期有个任务要求处理大XML文件，其中有个存了Base64的大节点（>90M，路径已知）。

这种任务只能上XmlReader，即使如此大节点的处理还是头疼了一阵……

最初查MSDN的时候，找到了ReadChars()，可以拿来对付大节点。

方法说明：https://msdn.microsoft.com/zh-cn/library/system.xml.xmltextreader.readchars(v=vs.110).aspx

示例中提到使用方法是：

while( != reader.ReadChars(buffer, , ))

{

    // Do something.

    // Attribute values are not available at this point.

}

这个处理规范格式的XML没有问题，比如这样的：

<Root>

  <LeafNode>Value</LeafNode>

  <ParentNode>

    <LeafNode>Value</LeafNode>

  </ParentNode>

</Root>

但是（没人喜欢这个词，然并卵……），遇到些格式诡异的XML就……

<Root><LeafNode>Value</LeafNode><ParentNode>

<LeafNode>Value</LeafNode></ParentNode>

</Root>

比如这个画风的，用示例代码去读第一个LeafNode的内容，估计会读出“ValueValue”来……

偏偏输入的XML就是这风格的……（*sigh*）

单步执行了一阵，发现这种情况下，XmlTextReader.Name会变化成下个节点的名称（XmlTextReader.LocalName亦如此），可以根据这个判断是否已经达到节点结尾。

改进版为：

string currentName = reader.LocalName;

while(currentName == reader.LocalName &&  != reader.ReadChars(buffer, , ))

{

    // Do something.

    // Attribute values are not available at this point.

}

顺便贴上一个转写并对特定节点进行处理的代码：

List<string> processNodePathList = new List<string> {"/Root/Path/to/Target"};

List<string> bigNodePathList = new List<string> { "/Root/Path/to/Big/Node" }; 

private static void ProcessBigXmlFile(string sourcePath, string targetPath, IList<string> processNodePathList, IList<string> bigNodePathList)

{

    var processNodeNameList =

        processNodePathList.Select(

            processNodePath => processNodePath.Split(new[] { '/' }, StringSplitOptions.RemoveEmptyEntries))

            .Select(nodePathParts => nodePathParts[nodePathParts.Length - ])

            .ToList();

    var bigNodeNameList = bigNodePathList.Select(

            bigNodePath => bigNodePath.Split(new[] { '/' }, StringSplitOptions.RemoveEmptyEntries))

            .Select(nodePathParts => nodePathParts[nodePathParts.Length - ])

            .ToList();

    var sourceStream = new FileStream(sourcePath, FileMode.Open, FileAccess.Read);

    var reader = new XmlTextReader(sourceStream);

    var targetStream = new FileStream(targetPath, FileMode.Create, FileAccess.Write);

    var writer = new XmlTextWriter(targetStream, Encoding.UTF8);

    try

    {

        var pathStack = new Stack<string>();

        var readResult = reader.Read();

        while (readResult)

        {

            int skipMode = ;

            switch (reader.NodeType)

            {

                case XmlNodeType.Element:

                {

                    pathStack.Push(reader.Name);

                    writer.WriteStartElement(reader.LocalName);

                    if (reader.HasAttributes)

                    {

                        while (reader.MoveToNextAttribute())

                        {

                            writer.WriteAttributeString(reader.LocalName,

                                reader.Value);

                        }

                        reader.MoveToElement();

                    }

                    if (processNodeNameList.Contains(reader.LocalName))

                    {

                        var index = processNodeNameList.IndexOf(reader.LocalName);

                        if (CompareNodePath(pathStack, processNodePathList[index]))

                        {

                            // Replace node content

                            writer.WriteFullEndElement();

                            skipMode = ;

                        }

                    }

                    else if (bigNodeNameList.Contains(reader.LocalName))

                    {

                        var index = bigNodeNameList.IndexOf(reader.LocalName);

                        if (CompareNodePath(pathStack, bigNodePathList[index]))

                        {

                            reader.MoveToContent();

                            var buffer = new char[];

                            int len;

                            while (reader.LocalName == bigNodePathList[index] &&

                                    (len = reader.ReadChars(buffer, , buffer.Length)) > )

                            {

                                writer.WriteRaw(buffer, , len);

                            }

                            writer.WriteFullEndElement();

                            skipMode = ;

                        }

                    }

                    if (reader.IsEmptyElement)

                    {

                        pathStack.Pop();

                        writer.WriteEndElement();

                    }

                    break;

                }

                //case XmlNodeType.Attribute:

                //{

                //    newPackageWriter.WriteAttributeString(oldPackageReader.LocalName, oldPackageReader.Value);

                //    break;

                //}

                case XmlNodeType.Text:

                {

                    writer.WriteValue(reader.Value);

                    break;

                }

                case XmlNodeType.CDATA:

                {

                    writer.WriteCData(reader.Value);

                    break;

                }

                //case XmlNodeType.EntityReference:

                //{

                //    newPackageWriter.WriteEntityRef(oldPackageReader.Name);

                //    break;

                //}

                //case XmlNodeType.Entity:

                //{

                //    break;

                //}

                case XmlNodeType.ProcessingInstruction:

                {

                    writer.WriteProcessingInstruction(reader.Name, reader.Value);

                    break;

                }

                case XmlNodeType.Comment:

                {

                    writer.WriteComment(reader.Value);

                    break;

                }

                //case XmlNodeType.Document:

                //{

                //    break;

                //}

                case XmlNodeType.DocumentType:

                {

                    writer.WriteRaw(string.Format("<!DOCTYPE{0} [{1}]>", reader.Name,

                        reader.Value));

                    break;

                }

                //case XmlNodeType.DocumentFragment:

                //{

                //    break;

                //}

                //case XmlNodeType.Notation:

                //{

                //    break;

                //}

                case XmlNodeType.Whitespace:

                {

                    writer.WriteWhitespace(reader.Value);

                    break;

                }

                //case XmlNodeType.SignificantWhitespace:

                //{

                //    break;

                //}

                case XmlNodeType.EndElement:

                {

                    pathStack.Pop();

                    writer.WriteFullEndElement();

                    break;

                }

                case XmlNodeType.XmlDeclaration:

                {

                    writer.WriteStartDocument();

                    break;

                }

            }

            switch (skipMode)

            {

                case :

                {

                    reader.Skip();

                    pathStack.Pop();

                    readResult = !reader.EOF;

                    break;

                }

                case :

                {

                    pathStack.Pop();

                    readResult = !reader.EOF;

                    break;

                }

                default:

                {

                    readResult = reader.Read();

                    break;

                }

            }

        }

    }

    finally

    {

        writer.Close();

        targetStream.Close();

        targetStream.Dispose();

        reader.Close();

        sourceStream.Close();

        sourceStream.Dispose();

    }

}

private static bool CompareNodePath(Stack<string> currentNodePathStack, string compareNodePathString)

{

    var currentArray = currentNodePathStack.Reverse().ToArray();

    var compareArray = compareNodePathString.Split(new[] { '/' }, StringSplitOptions.RemoveEmptyEntries);

    if (compareArray.Length != currentArray.Length)

    {

        return false;

    }

    bool isDifferent = false;

    for (int i = ; i < currentArray.Length; i++)

    {

        if (compareArray[i] != currentArray[i])

        {

            isDifferent = true;

            break;

        }

    }

    return !isDifferent;

}

关于大XML文件与大节点处理(System.Xml.XmlTextReader)的更多相关文章

xml文件的根节点layout_width或者layout_height设置无效果的原因分析
在android开发中相信大家对ListView.GridView等组建都非常熟悉,在使用它们的时候须要自己配置相关的Adapter,而且配置现骨干的xml文件作为ListView等组建的子View, ...
C#中操作xml文件（插入节点、修改、删除）
已知有一个xml文件(bookstore.xml)如下: <?xml version="1.0" encoding="gb2312"?> <b ...
C#程序中：如何删除xml文件中的节点、元素。
C#中动态的清理xml文件中的垃圾信息是程序员必会的哦.这就像数据库一样,不会清理数据怎么可以呢?其实xml文件就可以用作一个小的数据库,存储一些简单的信息.所以,用C#程序实现xml文件的增.删.改 ...
C#程序中：如何修改xml文件中的节点（数据）
要想在web等程序中实现动态的数据内容给新(如网页中的Flash),不会更新xml文件中的节点(数据)是远远不够的,今天在这里说一个简单的xml文件的更新,方法比较基础,很适合初学者看的,保证一看就懂 ...
testng.xml文件结构组成及节点属性说明
TestNG的DTD检查文件:http://testng.org/testng-1.0.dtd.PHP 更多testng配置及说明,请移步http://testdoc.org/docmaster?pi ...
节点文件将两个不同格式的XML文件，进行节点对照，并生成一个用于对照功能的XML
本文纯属个人见解,是对前面学习的总结,如有描述不正确的地方还请高手指正~ 经常有的需求是,需要将一种格式的XML转换成另一种XML.如果要实现这个功能首先需要将两个不同XML手动建立节点对比关系.然后 ...
使用jdom操作xml文件去除子节点带有命名空间
package com.soft.common; import java.util.HashMap; import java.util.Map; import org.jdom2.Namespace; ...
C#程序中：如何向xml文件中插入节点（数据）
向xml文件中动态的添加节点(数据)是一件很爽的事,可以给你的程序带来很多的方便,比如在web中,如果你的Flash用到了xml文件,这个方法可以让你在后台就轻轻松松的更新你的Flash内容哦!一起研 ...
读取XML文件的指定节点的值并转换为Item
cmb_State_Send.ItemsSource = null; XmlDocument doc = new XmlDocument(); doc.Load("D:\\模板\\Works ...

随机推荐

Spring MVC REST 风格的 URL
前言本文主要内容为 REST 风格的 URL. REST REST(Representational State Transfer).(资源)表现层状态转化.它是一种架构风格,用 url 来访问网络 ...
[转]十五天精通WCF——第十三天用WCF来玩Rest
在我们玩wcf的时候,都会潜意识的觉得wcf就是通过soap协议交换消息的,并且可以在basic,tcp,msmq等等绑定中任意切换, 牛逼的一塌糊涂,但是呢,如果说哪一天wcf不再使用soap协议, ...
HDU 5433
每次BC都好心酸... BFS+queue..状态可以设为p_val[x][y][k],加上斗志的值. #include <iostream> #include <cstdio> ...
Spring面试总结
Spring面试总结文件夹(?)[+] 1.什么是spring框架?Spring框架有哪些主要模块? Spring框架是一个为Java应用程序的开发提供了综合.广泛的基础性支持的Java平台.Spr ...
IOS_OC_Category
1.Category概述那的Category的使用场景有那些呢: 1.类包括了非常多个方法实现,而这些方法须要不同团队的成员来实现 2.当你在使用基础类库中的类时,你不想继承这些类而仅仅想加入一些方 ...
依据矩阵的二维相关系数进行OCR识别
我想通过简单的模板匹配来进行图像识别. 把预处理好的字符图片,分别与A到Z的样本图片进行模板匹配. 结果最大的表明相关性最大,就能够识别字符图片了. 在实际应用中.我用了openCV的matchTem ...
【BASH】bash shell的使用实例
************************************************************************ ****原文:blog.csdn.net/clark_ ...
linux sed 命令，sed -i
-i 参数 :直接在原文件上进行操作整条语句意思是将b.c文件里第一个匹配printa替换为printb
poj--2031--Building a Space Station（prime）
Building a Space Station Time Limit: 1000MS Memory Limit: 30000K Total Submissions: 6635 Accepte ...
杂项-Java：EL表达式
ylbtech-杂项-Java:EL表达式 EL(Expression Language) 是为了使JSP写起来更加简单.表达式语言的灵感来自于 ECMAScript 和 XPath 表达式语言,它提 ...

关于大XML文件与大节点处理(System.Xml.XmlTextReader)

关于大XML文件与大节点处理(System.Xml.XmlTextReader)的更多相关文章

随机推荐

热门专题