python 操作xml、html文件

简介

在一些项目中可能会使用到解析html文件，尤其是爬虫相关的，需要解析获取到的html内容，通常我们会使用lxml模块去进行html文件的解析。

html文件

当前存在一个简单的html

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <meta http-equiv="X-UA-Compatible" content="IE=edge">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">

    <title>Document</title>

</head>

<body>

    <div class="test">

        <ul class="ul-list">

            <li class="li-test">li-text</li>

            <li class="li-test">li-text2</li>

            <li class="li-test">li-text3</li>

            <li class="li-test">li-text4</li>

        </ul>

        <ul class="ul-list2">

            <li class="li-test">li-text</li>

            <li class="li-test">li-text2</li>

            <li class="li-test">li-text3</li>

            <li class="li-test">li-text4</li>

        </ul>

    </div>

</body>

</html>

获取html中的部分标签的属性及内容

from lxml import etree

import pathlib

html_path = pathlib.Path(__file__).parent.joinpath("test.html")

html = etree.parse(html_path, parser=etree.HTMLParser())

# xpath定位元素，此处为获取div class属性为test下面的所有class属性为ul-list的ul下面的class属性为li-test的所有li元素

content = html.xpath("//div[@class='test']/ul[@class='ul-list']/li[@class='li-test']")

for item in content:

    # 获取标签的名称

    print(item.tag)

    # 获取标签中间的文本内容

    print(item.text)

    # 获取标签的所有属性，以字典形式返回

    print(item.attrib)

li

li-text

{'class': 'li-test'}

li

li-text2

{'class': 'li-test'}

li

li-text3

{'class': 'li-test'}

li

li-text4

{'class': 'li-test'}

xml文件

存在如下xml文件

<component name="ProjectCodeStyleConfiguration">

  <code_scheme name="Project" version="173">

    <HTMLCodeStyleSettings>

      <option name="HTML_SPACE_INSIDE_EMPTY_TAG" value="true" />

      <option name="HTML_ENFORCE_QUOTES" value="true" />

    </HTMLCodeStyleSettings>

    <JSCodeStyleSettings version="0">

      <option name="FORCE_SEMICOLON_STYLE" value="true" />

      <option name="SPACE_BEFORE_FUNCTION_LEFT_PARENTH" value="false" />

      <option name="FORCE_QUOTE_STYlE" value="true" />

      <option name="ENFORCE_TRAILING_COMMA" value="Remove" />

      <option name="SPACES_WITHIN_OBJECT_LITERAL_BRACES" value="true" />

      <option name="SPACES_WITHIN_IMPORTS" value="true" />

    </JSCodeStyleSettings>

    <TypeScriptCodeStyleSettings version="0">

      <option name="FORCE_SEMICOLON_STYLE" value="true" />

      <option name="SPACE_BEFORE_FUNCTION_LEFT_PARENTH" value="false" />

      <option name="FORCE_QUOTE_STYlE" value="true" />

      <option name="ENFORCE_TRAILING_COMMA" value="Remove" />

      <option name="SPACES_WITHIN_OBJECT_LITERAL_BRACES" value="true" />

      <option name="SPACES_WITHIN_IMPORTS" value="true" />

    </TypeScriptCodeStyleSettings>

    <VueCodeStyleSettings>

      <option name="INTERPOLATION_NEW_LINE_AFTER_START_DELIMITER" value="false" />

      <option name="INTERPOLATION_NEW_LINE_BEFORE_END_DELIMITER" value="false" />

    </VueCodeStyleSettings>

    <codeStyleSettings language="HTML">

      <option name="SOFT_MARGINS" value="100" />

      <indentOptions>

        <option name="CONTINUATION_INDENT_SIZE" value="4" />

      </indentOptions>

    </codeStyleSettings>

    <codeStyleSettings language="JavaScript">

      <option name="SOFT_MARGINS" value="100" />

    </codeStyleSettings>

    <codeStyleSettings language="TypeScript">

      <option name="SOFT_MARGINS" value="100" />

    </codeStyleSettings>

    <codeStyleSettings language="Vue">

      <option name="SOFT_MARGINS" value="100" />

      <indentOptions>

        <option name="INDENT_SIZE" value="4" />

        <option name="TAB_SIZE" value="4" />

      </indentOptions>

    </codeStyleSettings>

  </code_scheme>

</component>

获取xml中的部分标签的属性及内容

from lxml import etree

import pathlib

xml_path = pathlib.Path(__file__).parent.joinpath("test.xml")

html = etree.parse(xml_path, parser=etree.XMLParser())

content = html.xpath(

    "/component[@name='ProjectCodeStyleConfiguration']/ \

    code_scheme[@name]/HTMLCodeStyleSettings//option"

)

for item in content:

    # 获取标签的名称

    print(item.tag)

    # 获取标签中间的文本内容

    print(item.text)

    # 获取标签的所有属性，以字典形式返回

    print(item.attrib)

option

None

{'name': 'HTML_SPACE_INSIDE_EMPTY_TAG', 'value': 'true'}

option

None

{'name': 'HTML_ENFORCE_QUOTES', 'value': 'true'}

与html解析类似，主要是对于xpath语法的熟悉

补充

以上均需要xpath语法支撑，详细可见:xpath语法

python 操作xml、html文件的更多相关文章

使用python操作XML增删改查
使用python操作XML增删改查什么是XML? XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输 ...
python操作xml文件
一.什么是xml? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. abc.xml <?xml version="1.0&q ...
三十二、python操作XML文件
'''XML:模块 xml总结 1.解析 str 文件 tree,ElementTree,type root,Element,type2.操作 Element: tag,text,find,iter, ...
如何用python操作XML文件
备注: 基于python3 背景:在统计覆盖率的时候希望绕属性name为test的节点具体实现源码如下所示,基本都是基于节点属性操作的,当然也就可以基于tag等其他标签去做,可根据需要调整 from ...
Python 操作 MS Excel 文件
利用 Python 对 Excel 文件进行操作需要使用第三方库: openpyxl,可执行 pip install openpyxl 进行安装 1. 导入 openpyxl 模块导入 openpy ...
python操作haproxy.cfg文件
需求 1.查输入:www.oldboy.org 获取当前backend下的所有记录 2.新建输入: arg = { 'bakend': 'www.oldboy.org', 'record':{ ' ...
python操作excel表格文件--使用xlrd模块
原文: http://www.cnblogs.com/lhj588/archive/2012/01/06/2314181.html 引言: 实际工作中,可能很多情况下都会用到excel表格,像如果不需 ...
python操作上级子文件
. └── folder ├── data │ └── data.txt └── test1 └── test2 └── test.py import os '***获取当前目录***'print o ...
Python实现XML的操作
本文从以下两个方面, 用Python实现XML的操作: 一. minidom写入XML示例1 二. minidom写入XML示例2 三. ElementTree写入/修改示例四. ElementTr ...

随机推荐

Android开发“HelloWorld”项目
运行截图; 注:在activity_hello_world.xml文件中·可以改变显示内容,如图: 运行截图;
单例模式与pickle模块
目录设计模式之单例模式 pickle模块设计模式之单例模式设计模式是前辈们发明的经过反复验证用于解决固定问题的固定套路,在IT行业中设计模式总共有23种,可以分为三大类:创建型.结构型.行为型. ...
MongoDB 常用启动参数
每日一句 Once you choose your way of life, be brave to stick it out and never return. 生活的道路一旦选定,就要勇敢地走到底 ...
Primal_Dual 原始对偶
不是费用流都需要用 SPFA 吗. 众所周知,SPFA 去世了,然后网络流显然有负边.于是我们可以像 Johnson 全源最短路一样,给边加上势能,具体实现看我之前的博客啦. 然后对于每一次跑 D ...
我熬夜读完这份“高分宝典”，竟4面拿下字节跳动offer
前言怎样的契机? 实际上,目前毕业已经两年时间了,在大学时就已经开始关注字节跳动的发展.一开始,我是电气自动化专业的,大二清楚目标之后就转计算机了,大四进了一家小型的互联网公司实习,具体就不说哪家了 ...
第6章字符串（上）——C风格字符串
6.1 C-strings(C 风格字符串) C风格字符串: 字符数组是元素为字符型的数组,字符串是以空字符'\0' 作为数组最后一个元素的字符数组. 如果指定了数组的大小,而字符串的长度又小于数组大 ...
从局部信息推测基恩士的Removing BackGround Information算法的实现。
最近从一个朋友那里看到了一些基恩士的资料,本来是想看下那个比较有特色的浓淡补正滤波器的(因为名字叫Shading Correction Filter,翻译过来的意思有点搞笑),不过看到起相关文档的附近 ...
无法打开虚拟机“master”（D:\文档\Virtual Machines\master\master.vmx）:未找到文件。是否从库中移除“master”？
今天打开虚拟机的时候,出现了这样的弹窗提示: 无法打开虚拟机"master"(D:\文档\Virtual Machines\master\master.vmx):未找到文件.是否从 ...
SAP 定义用户组
SUGR,可进行创建.查看.删除等维护性操作,并可指定本组的用户
（数据科学学习手札139）geopandas 0.11版本重要新特性一览
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介大家好我是费老师,就在几天前,geopandas ...

python 操作xml、html文件

简介

html文件

当前存在一个简单的html

获取html中的部分标签的属性及内容

xml文件

存在如下xml文件

获取xml中的部分标签的属性及内容

补充

python 操作xml、html文件的更多相关文章

随机推荐

热门专题