python 操作xml、html文件

简介

在一些项目中可能会使用到解析html文件，尤其是爬虫相关的，需要解析获取到的html内容，通常我们会使用lxml模块去进行html文件的解析。

html文件

当前存在一个简单的html

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">

    <title>Document</title>

</head>

<body>

    <div class="test">

        <ul class="ul-list">

            <li class="li-test">li-text</li>

            <li class="li-test">li-text2</li>

            <li class="li-test">li-text3</li>

            <li class="li-test">li-text4</li>

        </ul>

        <ul class="ul-list2">

            <li class="li-test">li-text</li>

            <li class="li-test">li-text2</li>

            <li class="li-test">li-text3</li>

            <li class="li-test">li-text4</li>

        </ul>

    </div>

</body>

</html>

获取html中的部分标签的属性及内容

from lxml import etree

import pathlib

html_path = pathlib.Path(__file__).parent.joinpath("test.html")

html = etree.parse(html_path, parser=etree.HTMLParser())

# xpath定位元素，此处为获取div class属性为test下面的所有class属性为ul-list的ul下面的class属性为li-test的所有li元素

content = html.xpath("//div[@class='test']/ul[@class='ul-list']/li[@class='li-test']")

for item in content:

    # 获取标签的名称

    print(item.tag)

    # 获取标签中间的文本内容

    print(item.text)

    # 获取标签的所有属性，以字典形式返回

    print(item.attrib)

li

li-text

{'class': 'li-test'}

li

li-text2

{'class': 'li-test'}

li

li-text3

{'class': 'li-test'}

li

li-text4

{'class': 'li-test'}

xml文件

存在如下xml文件

<component name="ProjectCodeStyleConfiguration">

  <code_scheme name="Project" version="173">

    <HTMLCodeStyleSettings>

      <option name="HTML_SPACE_INSIDE_EMPTY_TAG" value="true" />

      <option name="HTML_ENFORCE_QUOTES" value="true" />

    </HTMLCodeStyleSettings>

    <JSCodeStyleSettings version="0">

      <option name="FORCE_SEMICOLON_STYLE" value="true" />

      <option name="SPACE_BEFORE_FUNCTION_LEFT_PARENTH" value="false" />

      <option name="FORCE_QUOTE_STYlE" value="true" />

      <option name="ENFORCE_TRAILING_COMMA" value="Remove" />

      <option name="SPACES_WITHIN_OBJECT_LITERAL_BRACES" value="true" />

      <option name="SPACES_WITHIN_IMPORTS" value="true" />

    </JSCodeStyleSettings>

    <TypeScriptCodeStyleSettings version="0">

      <option name="FORCE_SEMICOLON_STYLE" value="true" />

      <option name="SPACE_BEFORE_FUNCTION_LEFT_PARENTH" value="false" />

      <option name="FORCE_QUOTE_STYlE" value="true" />

      <option name="ENFORCE_TRAILING_COMMA" value="Remove" />

      <option name="SPACES_WITHIN_OBJECT_LITERAL_BRACES" value="true" />

      <option name="SPACES_WITHIN_IMPORTS" value="true" />

    </TypeScriptCodeStyleSettings>

    <VueCodeStyleSettings>

      <option name="INTERPOLATION_NEW_LINE_AFTER_START_DELIMITER" value="false" />

      <option name="INTERPOLATION_NEW_LINE_BEFORE_END_DELIMITER" value="false" />

    </VueCodeStyleSettings>

    <codeStyleSettings language="HTML">

      <option name="SOFT_MARGINS" value="100" />

      <indentOptions>

        <option name="CONTINUATION_INDENT_SIZE" value="4" />

      </indentOptions>

    </codeStyleSettings>

    <codeStyleSettings language="JavaScript">

      <option name="SOFT_MARGINS" value="100" />

    </codeStyleSettings>

    <codeStyleSettings language="TypeScript">

      <option name="SOFT_MARGINS" value="100" />

    </codeStyleSettings>

    <codeStyleSettings language="Vue">

      <option name="SOFT_MARGINS" value="100" />

      <indentOptions>

        <option name="INDENT_SIZE" value="4" />

        <option name="TAB_SIZE" value="4" />

      </indentOptions>

    </codeStyleSettings>

  </code_scheme>

</component>

获取xml中的部分标签的属性及内容

from lxml import etree

import pathlib

xml_path = pathlib.Path(__file__).parent.joinpath("test.xml")

html = etree.parse(xml_path, parser=etree.XMLParser())

content = html.xpath(

    "/component[@name='ProjectCodeStyleConfiguration']/ \

    code_scheme[@name]/HTMLCodeStyleSettings//option"

)

for item in content:

    # 获取标签的名称

    print(item.tag)

    # 获取标签中间的文本内容

    print(item.text)

    # 获取标签的所有属性，以字典形式返回

    print(item.attrib)

option

None

{'name': 'HTML_SPACE_INSIDE_EMPTY_TAG', 'value': 'true'}

option

None

{'name': 'HTML_ENFORCE_QUOTES', 'value': 'true'}

与html解析类似，主要是对于xpath语法的熟悉

补充

以上均需要xpath语法支撑，详细可见:xpath语法

python 操作xml、html文件的更多相关文章

使用python操作XML增删改查
使用python操作XML增删改查什么是XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输 ...
python操作xml文件
一.什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0&q ...
三十二、python操作XML文件
'''XML:模块 xml总结 1.解析 str 文件 tree,ElementTree,type root,Element,type2.操作 Element: tag,text,find,iter, ...
如何用python操作XML文件
备注: 基于python3 背景:在统计覆盖率的时候希望绕属性name为test的节点具体实现源码如下所示,基本都是基于节点属性操作的,当然也就可以基于tag等其他标签去做,可根据需要调整 from ...
Python 操作 MS Excel 文件
利用 Python 对 Excel 文件进行操作需要使用第三方库: openpyxl,可执行 pip install openpyxl 进行安装 1. 导入 openpyxl 模块导入 openpy ...
python操作haproxy.cfg文件
需求 1.查输入:www.oldboy.org 获取当前backend下的所有记录 2.新建输入: arg = { 'bakend': 'www.oldboy.org', 'record':{ ' ...
python操作excel表格文件--使用xlrd模块
原文: http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html 引言: 实际工作中,可能很多情况下都会用到excel表格,像如果不需 ...
python操作上级子文件
. └── folder ├── data │ └── data.txt └── test1 └── test2 └── test.py import os '***获取当前目录***'print o ...
Python实现XML的操作
本文从以下两个方面, 用Python实现XML的操作: 一. minidom写入XML示例1 二. minidom写入XML示例2 三. ElementTree写入/修改示例四. ElementTr ...

随机推荐

《Java编程思想》读书笔记（二）
三年之前就买了<Java编程思想>这本书,但是到现在为止都还没有好好看过这本书,这次希望能够坚持通读完整本书并整理好自己的读书笔记,上一篇文章是记录的第一章到第十章的内容,这一次记录的是第 ...
Django学习——分页器基本使用、分页器终极用法、forms组件之校验字段、forms组件之渲染标签、forms组件全局钩子，局部钩子
内容 1 分页器基本使用 2 分页器终极用法 3 forms组件之校验字段 1 前端 <!DOCTYPE html> <html lang="en"> &l ...
原创工具14Finger-全能web指纹识别与分享平台
14Finger 功能齐全的Web指纹扫描和分享平台,基于vue3+django前后端分离的web架构,并集成了长亭出品的rad爬虫的功能,内置了一万多条互联网开源的指纹信息. Github:http ...
windows 10 21H1 顶部任务栏点击音量或其他图标不出弹框
右键任务栏,按照图片中描述操作
历经70+场面试，我发现了大厂面试的bug，并总结其中心得
想起了学弟在去年秋招时面试了50余家,加上暑期实习面试了20余家,加起来也面试了70余场. 基本把国内有名的互联网公司都面了一遍,不敢说自己的面试经验很丰富,但也是不差的. 这次专门把大厂的面试做了个 ...
前端2CSS2
内容概要伪元素选择器选择器优先级字体样式文字属性背景属性 display属性边框属性盒子模型浮动(重要) 解决浮动造成的影响内容详情伪元素选择器 """ ...
第6章字符串（上）——C风格字符串
6.1 C-strings(C 风格字符串) C风格字符串: 字符数组是元素为字符型的数组,字符串是以空字符'\0' 作为数组最后一个元素的字符数组. 如果指定了数组的大小,而字符串的长度又小于数组大 ...
如何写一个全局的 Notice 组件？
下面将会实现这样的效果: 组件动态创建脚本: NotificationBanner.js import Vue from "vue"; import Notice from &qu ...
【clickhouse专栏】对标mongodb存储类JSON数据文档统计分析
一.文档存储的需求很多的开发者都使用过mongodb,在mongodb中数据记录是以文档的形式存在的(类似于一种多级嵌套SQL的形式).比如下面的JSON数据结构:dev_ip表示某一台服务器的ip ...
论文解读（USIB）《Towards Explanation for Unsupervised Graph-Level Representation Learning》
论文信息论文标题:Towards Explanation for Unsupervised Graph-Level Representation Learning论文作者:Qinghua Zheng ...

python 操作xml、html文件

简介

html文件

当前存在一个简单的html

获取html中的部分标签的属性及内容

xml文件

存在如下xml文件

获取xml中的部分标签的属性及内容

补充

python 操作xml、html文件的更多相关文章

随机推荐

热门专题