Python 基于xml.etree.ElementTree实现XML对比

测试环境

Python 3.6

Win10

代码实现

#!/usr/bin/env python 3.4.0

#-*- encoding:utf-8 -*-

__author__ = 'shouke'

import xml.etree.ElementTree as ET

def compare_xml_node_attributes(xml_node1, xml_node2):

    result = []

    node1_attributes_dict = xml_node1.attrib

    node2_attributes_dict = xml_node2.attrib

    for attrib1, value in node1_attributes_dict.items():

        value2 =  node2_attributes_dict.get(attrib1)

        if value == value2:

            node2_attributes_dict.pop(attrib1)

        else:

            if value2:

                attrib2 = attrib1

                node2_attributes_dict.pop(attrib2)

            else:

                attrib2 = '不存在'

            result.append('结点1属性：{attrib1} 值：{value1}，结点2属性：{attrib1} 值：{value2}'.format(attrib1=attrib1 or '不存在',

                                                                                         value1=value or '不存在',

                                                                                         attrib2=attrib2,

                                                                                         value2=value2 or '不存在'))

    for attrib2, value2 in node2_attributes_dict.items():

        result.append('结点1属性：{attrib1} 值：{value1}，结点2属性：{attrib1} 值：{value2}'.format(attrib1='不存在',

                                                                                         value1='不存在',

                                                                                         attrib2=attrib2,

                                                                                         value2=value2))

    return result

def compare_xml_node_children(xml_node1, xml_node2, node1_xpath, node2_xpath):

    def get_node_children(xml_node, node_xpath):

        result = {}

        for child in list(xml_node):

            if child.tag not in result:

                result[child.tag] = [{'node':child, 'xpath': '%s/%s[%s]' % (node_xpath, child.tag, 1)}]

            else:

                result[child.tag].append({'node':child, 'xpath': '%s/%s[%s]' % (node_xpath, child.tag, len(result[child.tag])+1)})

        return result

    result = []

    children_of_node1_dict = get_node_children(xml_node1, node1_xpath)

    children_of_node2_dict = get_node_children(xml_node2, node2_xpath)

    temp_list1 = []

    temp_list2 = []

    for child_tag, child_node_list in children_of_node1_dict.items():

        second_child_node_list = children_of_node2_dict.get(child_tag, [])

        if not second_child_node_list:

            # 获取xml1中比xml2中多出的子结点

            for i in range(0, len(child_node_list)):

                temp_list1.append('%s/%s[%s]' % (node1_xpath, child_node_list[i]['node'].tag, i+1))

            continue

        for first_child, second_child in zip(child_node_list, second_child_node_list):

            result.extend(compare_xml_nodes(first_child['node'], second_child['node'], first_child['xpath'], second_child['xpath']))

        # 获取xml2中对应结点比xml1中对应结点多出的同名子结点

        for i in range(len(child_node_list), len(second_child_node_list)):

            temp_list2.append('%s/%s[%s]' % (node2_xpath, second_child_node_list[i]['node'].tag, i+1))

        children_of_node2_dict.pop(child_tag)

    if temp_list1:

        result.append('子结点不一样：xml1结点(xpath：{xpath1})比xml2结点(xpath：{xpath2})多了以下子结点：\n{differences}'.format (xpath1=node1_xpath,

                                                                                                  xpath2=node2_xpath,

                                                                                                  differences='\n'.join(temp_list1)))

    # 获取xml2比xml1中多出的子结点

    for child_tag, child_node_list in children_of_node2_dict.items():

        for i in range(0, len(child_node_list)):

            temp_list2.append('%s/%s[%s]' % (node1_xpath, child_node_list[i]['node'].tag, i+1))

    if temp_list2:

        result.append('子结点不一样：xml1结点(xpath：{xpath1})比xml2结点(xpath：{xpath2})少了以下子结点：\n{differences}'.format (xpath1=node1_xpath,

                                                                                                  xpath2=node2_xpath,

                                                                                                  differences='\n'.join(temp_list2)))

    return result

def compare_xml_nodes(xml_node1, xml_node2, node1_xpath='', node2_xpath=''):

    result = []

    # 比较标签

    if xml_node1.tag !=  xml_node2.tag:

        result.append('标签不一样：xml1结点(xpath：{xpath1})：{tag1}，xml2结点(xpath：{xpath2})：{tag2}'.format (xpath1=node1_xpath,

                                                                                                  tag1=xml_node1.tag,

                                                                                                  xpath2=node2_xpath,

                                                                                                  tag2=xml_node2.tag))

    # 比较文本

    if xml_node1.text !=  xml_node2.text:

        result.append('文本不一样：xml1结点(xpath：{xpath1})：{text1}，xml2结点(xpath：{xpath2})：{text2}'.format (xpath1=node1_xpath,

                                                                                                  tag1=xml_node1.text or '',

                                                                                                  xpath2=node2_xpath,

                                                                                                  tag2=xml_node2.text or ''))

    # 比较属性

    res = compare_xml_node_attributes(xml_node1, xml_node2)

    if res:

        result.append('属性不一样：xml1结点(xpath：{xpath1})，xml2结点(xpath：{xpath2})：\n{differences}'.format (xpath1=node1_xpath,

                                                                                                  xpath2=node2_xpath,

                                                                                                  differences='\n'.join(res)))

    # 比较子结点

    res = compare_xml_node_children(xml_node1, xml_node2, node1_xpath, node2_xpath)

    if res:

        result.extend(res)

    return result

def compare_xml_strs(xml1_str, xml2_str, mode=3):

    '''

    @param: mode 比较模式，预留，暂时没用。目前默认 xml 子元素如果为列表，则列表有序列表，按序比较

    '''

    root1 = ET.fromstring(xml1_str.strip())

    root2 = ET.fromstring(xml2_str.strip())

    return compare_xml_nodes(root1, root2, '/%s' % root1.tag, '/%s' % root2.tag)

测试运行

xml_str1 = '''

<?xml version = "1.0" encoding="utf-8" ?>

<data>

    <country name="Liechtenstein">

        <rangk>1</rangk>

        <year>2008</year>

        <gdppc>141100</gdppc>

        <neighbor name="Austria" direction="E" ></neighbor>

        <neighbor name="Switzerland" direction="W" ></neighbor>

    </country>

    <country name="Singpore">

        <rank>4</rank>

        <year>2011</year>

        <gdppc>59900</gdppc>

        <neighbor name="Malaysia" direction="N" ></neighbor>

    </country>

    <country name="Panama">

        <rank>68</rank>

        <year>2011</year>

        <gdppc>13600</gdppc>

        <neighbor name="Costa Rica" direction="W" ></neighbor>

        <neighbor name="Colombia" direction="W" ></neighbor>

    </country>

</data>

'''

xml_str2 = '''

<?xml version = "1.0" encoding="utf-8" ?>

<data>

    <country name="Liechtenstein">

        <rangk>1</rangk>

        <year>2008</year>

        <gdppc>141100</gdppc>

        <neighbor name="Austria" direction="E" ></neighbor>

        <neighbor name="Switzerland" direction="W" ></neighbor>

    </country>

    <country name="Singpore">

        <rank>4</rank>

        <year>2011</year>

        <gdppc>59900</gdppc>

        <neighbor name="Malaysia" direction="N" ></neighbor>

    </country>

    <country name="Panama">

        <rank>68</rank>

        <year>2011</year>

        <gdppc>13600</gdppc>

        <neighbor name="Costa Rica" direction="W" ></neighbor>

        <neighbor name="Colombia" direction="W" ></neighbor>

    </country>

</data>

'''

xml_str3 = '''

<?xml version = "1.0" encoding="utf-8" ?>

<data>

    <class name="computer">

        <rangk>1</rangk>

        <year>unknow</year>

        <addr>sz</addr>

        <book name="java programming" price="10" ></book>

        <book name="python programming" price="10" ></book>

    </class>

    <class name="philosophy">

        <rangk>2</rangk>

        <year>unknown</year>

        <book name="A little history of philosophy" price="15" ></book>

        <book name="contemporary introduction" price="15" ></book>

    </class>

    <class name="history">

        <rangk>3</rangk>

        <year>unknown</year>

        <addr>other addr</addr>

        <book name="The South China Sea" price="10" ></book>

        <book name="Chinese Among Others" price="10" ></book>

    </class>

</data>

'''

xml_str4 = '''

<?xml version = "1.0" encoding="utf-8" ?>

<data>

    <class name="computer">

        <year>unknow</year>

        <addr>sz</addr>

        <book name="java programming" price="10" ></book>

        <book name="python programming" price="10" ></book>

    </class>

    <class name="philosophy">

        <year>unknown</year>

        <addr>other addr</addr>

        <book name="A little history of philosophy" price="15" ></book>

        <book name="contemporary introduction" price="16" ></book>

    </class>

</data>

'''

if __name__ == '__main__':

    res_list = compare_xml_strs(xml_str1, xml_str2)

    if res_list:

        print('xml1和xml2不一样:\n%s' % '\n'.join(res_list))

    else:

        print('xml1和xml2一样')

    res_list = compare_xml_strs(xml_str3, xml_str4)

    if res_list:

        print('xml3和xml4不一样:\n%s' % '\n'.join(res_list))

    else:

        print('xml3和xml4一样')

运行结果

xml1和xml2一样

xml3和xml4不一样:

子结点不一样：xml1结点(xpath：/data/class[1])比xml2结点(xpath：/data/class[1])多了以下子结点：

/data/class[1]/rangk[1]

属性不一样：xml1结点(xpath：/data/class[2]/book[2])，xml2结点(xpath：/data/class[2]/book[2])：

结点1属性：price 值：15，结点2属性：price 值：16

子结点不一样：xml1结点(xpath：/data/class[2])比xml2结点(xpath：/data/class[2])多了以下子结点：

/data/class[2]/rangk[1]

子结点不一样：xml1结点(xpath：/data/class[2])比xml2结点(xpath：/data/class[2])少了以下子结点：

/data/class[2]/addr[1]

Python 基于xml.etree.ElementTree实现XML对比的更多相关文章

Python中xml.etree.ElementTree读写xml文件实例
import osimport xml.etree.ElementTree as ET'''Python 标准库中,提供了6种可以用于处理XML的包,本文举实例说明第6种1.xml.dom2.xml. ...
python3.x中xml.etree.ElementTree解析xml举例
1.新建xml import xml.etree.ElementTree as ETa=ET.Element('elem')c=ET.SubElement(a,'child1')c.text=&quo ...
python xml.etree.ElementTree解析xml文件获取节点
<?xml version = "1.0" encoding = "utf-8"?> <root> <body name=&quo ...
python 解析xml遇到xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 4, column 34
在调试数字驱动用xml文件的方式时,包含读取xml文件的步骤,运行程序报错: d:\test\0629>python XmlUtil.pyTraceback (most recent call ...
python标准库xml.etree.ElementTree的bug
使用python生成或者解析xml的方法用的最多的可能就数python标准库xml.etree.ElementTree和lxml了,在某些环境下使用xml.etree.ElementTree更方便一些 ...
python模块：xml.etree.ElementTree
"""Lightweight XML support for Python. XML is an inherently hierarchical data format, ...
python xml.etree.ElementTree模块
使用的XML文件如下:file.xml <?xml version="1.0"?> <data name="ming"> <cou ...
Python 标准库之 xml.etree.ElementTree
Python 标准库之 xml.etree.ElementTree Python中有多种xml处理API,常用的有xml.dom.*模块.xml.sax.*模块.xml.parser.expat模块和 ...
python解析xml文件之xml.etree.cElementTree和xml.etree.ElementTree区别和基本使用
1.解析速度:ElementTree在 Python 标准库中有两种实现.一种是纯 Python 实现例如 xml.etree.ElementTree ,另外一种是速度快一点的 xml.etree.c ...
[python 学习] 使用 xml.etree.ElementTree 模块处理 XML
---恢复内容开始--- 导入数据(读文件和读字符串) 本地文件 country_data.xml <?xml version="1.0"?> <data> ...

随机推荐

FFmpeg开发笔记（二十四）Linux环境给FFmpeg集成AV1的编解码器
AV1是一种新兴的免费视频编码标准,它由开放媒体联盟(Alliance for Open Media,简称AOM)于2018年制定,融合了Google VP10.Mozilla Daala以及Cis ...
一款功能强大的Python工具，一键打包神器，一次编写、多平台运行！
1.项目介绍 Briefcase是一个功能强大的工具,主要用于将Python项目转化为多种平台的独立本地应用.它支持多种安装格式,使得Python项目能够轻松打包并部署到不同的操作系统和设备上,如ma ...
GPT-4o和GPT-4有什么区别？我们还需要付费开通GPT-4？
GPT-4o 是 OpenAI 最新推出的大模型,有它的独特之处.那么GPT-4o 与 GPT-4 之间的主要区别具体有哪些呢?今天我们就来聊聊这个问题. 目前来看,主要是下面几个差异. 响应速度 G ...
powerpoint 无法打开文件
PowerPoint 无法打开文件出现的问题今天下载老师放在学习通的ppt,居然不能打开,记录一下点击修复后出现: 这并不是文件损坏了,而是powerpoint出于安全的考虑,为了保护我们的计算 ...
ssh 端口转发实验
为什么会使用端口转发端口转发的优点: 安全性:通过隐藏实际服务(在这种情况下是监听在22端口的SSH服务)的真实端口号,增加了一层安全性.攻击者可能不知道真正的服务端口号,因此更难进行有针对性的攻击 ...
初识c语言—c语言的初步认识和一个简单的程序
C语言是什么编程语言(编程语言是控制计算机的一系列指令,他又固定的格式和词汇.同时也叫计算机语言(计算机语言是,人和计算机通讯的语言)) C语言的特点语言简洁,紧凑,使用方便运算符丰富数据类型 ...
（八十七）c#Winform自定义控件-朝上的瓶子
官网 http://www.hzhcontrols.com/ 前提入行已经7,8年了,一直想做一套漂亮点的自定义控件,于是就有了本系列文章. GitHub:https://github.com/kw ...
C# .NET 国密 SM2 签名默认USER ID
C# .NET 国密 SM2 签名默认USER ID: 1234567812345678 string userId = "1234567812345678"; byte[] b ...
Cannot set properties of undefined (setting 'dataIndex')""
前端写桑基图的时候碰到以上bug 原因是: 桑基图中的name值有重复的,把重复的name值去掉就好了
在线Base64转文件、文件转Base64工具
在线Base64转换神器,一键实现Base64编码与文件互转!支持图片.文档等各类文件,快速准确,安全无服务器存储.拖拽上传,轻松编码解码,提升开发效率.跨平台兼容,移动端友好,让数据转换再无障碍. ...

Python 基于xml.etree.ElementTree实现XML对比

测试环境

代码实现

测试运行

运行结果

Python 基于xml.etree.ElementTree实现XML对比的更多相关文章

随机推荐

热门专题