lxml模块

lxml主要用xpath、css选择器等来提取xml格式文档，html也是xml格式文档的一种。

xpath方法返回列表的三种情况
- 返回空列表：没有找到任何元素
- 返回字符串列表：xpath规则匹配用了@属性或者text()等函数返回str（文本内容或某属性的值）
- 返回由_Element 对象构成的列表：xpath规则匹配到标签（如li、span等），列表中的_Element对象可以继续调用xpath进一步获取元素。

from lxml import etree

from lxml.etree import _Element as Ele

if __name__ == '__main__':

    text = '''

    <div>

    <ul>

      <li class="item-1">

        <a href="link1.html">first item</a>

      </li>

      <li class="item-1">

        <a href="link2.html">second item</a>

      </li>

      <li class="item-inactive">

        <a href="link3.html">third item</a>

      </li>

      <li class="item-1">

        <a href="link4.html">fourth item</a>

      </li>

      <li class="item-1">

        a href="link5.html">fifth item</a>

    </ul>

    </div>'''

    node: Ele = etree.HTML(text)

    info = dict()

    # 使用xpath提取出一个列表

    for item in node.xpath("//div/ul/li[@class='item-1']"):  # type: Ele

        if item is not None:

            try:

                name = item.xpath("./a/text()")[0]

                href = item.xpath("./a/@href")[0]

                info[name] = href

            except Exception as e:

                print(f"提取元素{item}出错,xpath语法:./a/text(), 元素标签名{item.tag}, 元素内容: {item.text}")

        else:

            print("item 为空")

    print(info)

lxml模块中etree.tostring函数的使用

from lxml import etree

html_str = '''

        <div>

        <ul>

          <li class="item-1"><a href="link1.html">first item</a></li>

          <li class="item-1"><a href="link2.html">second item</a></li>

          <li class="item-inactive"><a href="link3.html">third item</a></li>

          <li class="item-1"><a href="link4.html">fourth item</a></li>

          <li class="item-0"><a href="link5.html">fifth item</a>

        </ul>

        </div> '''

html = etree.HTML(html_str)

handeled_html_str = etree.tostring(html).decode()

print(handeled_html_str)

打印结果：

<html><body><div> <ul>

<li class="item-1"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a>

</li></ul> </div> </body></html>

结论：

lxml.etree.HTML(html_str)可以自动补全缺失的标签（beautifulsoap也有这个功能）
lxml.etree.tostring函数可以将转换为_Element对象再转换回html字符串
爬虫如果使用lxml来提取数据，应该以lxml.etree.tostring的返回结果作为提取数据的依据。

lxml模块的更多相关文章

洗礼灵魂，修炼python（71）--爬虫篇—【转载】xpath/lxml模块，爬虫精髓讲解
Xpath,lxml模块用法转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的原帖链接:传送门以下为转载内容: --------------------- ...
lxml模块(应用xpath技术)
一.lxml介绍第三方库lxml是第一款表现出高性能特征的python xml库,天生支持Xpath1.0.XSLT1.0.定制元素类,甚至python风格的数据绑定接口.lxml是通过Cpytho ...
Python爬虫基础——XPath语法的学习与lxml模块的使用
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂: XPath:语法简单,可以满足绝大部分的需求: 所以,如果你可以根据自己的需要进行选择. 一.首先,我们需要为 ...
爬虫(六)：XPath、lxml模块
1. XPath 1.1 什么是XPath XPath(XML Path Language) 是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 1.2 ...
python爬虫网页解析之lxml模块
08.06自我总结 python爬虫网页解析之lxml模块一.模块的安装 windows系统下的安装: 方法一:pip3 install lxml 方法二:下载对应系统版本的wheel文件:http ...
python3爬虫lxml模块的安装
1:在下载lxml之前,要先查看python的版本信息, 在CMD命令行输入python 再输入import pip; print(pip.pep425tags.get_supported()) -- ...
Python爬虫 XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
XPath语法和lxml模块
XPath语法和lxml模块什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. X ...
Python使用lxml模块和Requests模块抓取HTML页面的教程
Web抓取Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档.有时从中获取数据同时保持它的结构是有用的.web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的数 ...
python中的lxml模块
Python中自带了XML的模块,但是性能不太好,相比之下,LXML增加了很多实用的功能. lxml中主要有两部分, 1) etree,主要可以用来解析XML字符串, 内部有两个对象,etree._E ...

随机推荐

应用程序通过 Envoy 代理和 Jaeger 进行分布式追踪 —— Ingress Controller + Http服务 + Grpc服务（三）
1.概述在<应用程序通过 Envoy 代理和 Jaeger 进行分布式追踪(一)>这篇博文中,我们详细介绍了单个应用程序通过 Envoy 和 Jaeger 实现链路追踪的过程.通过这个示 ...
elasticsearch wildcard 慢查询原因分析(深入到源码!!!)
大家好,我是蓝胖子,前段时间线上elasticsearch集群遇到多次wildcard产生的性能问题, elasticsearch wildcard 一直是容易引发elasticsearch 容易宕机 ...
Solution -「洛谷 P5048」「YunoOI 2019 模拟赛」Yuno loves sqrt technology III
Description Link. 区间众数出现次数强制在线. Solution 三个 YLST 中比较清新的一个分块. 比较重点的地方在于询问散块的处理. 先离散化一下序列. 我们首先预处理出来一个 ...
SSM（Spring+SpringMVC+MyBatis）框架集成
引言进行SSM(Spring+SpringMVC+MyBatis)集成的主要原因是为了提高开发效率和代码可维护性.SSM是一套非常流行的Java Web开发框架,它集成了Spring框架.Sprin ...
destoon根据目录下的html文件生成地图索引
因为项目需要,destoon根据目录下的html文件生成地图索引,操作方法,代码如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 ...
前端三件套系例之JQuery——JQuery动画效果、JQuery插件、
文章目录 1 JQuery动画效果 1. 基本效果 2. 滑动效果 3 淡入淡出效果 4 自定义动画 5 动画控制 6 设置 7 事件 7-1 常用事件 7-2 事件绑定 7-3 移除事件 7-4 阻 ...
前端三件套系例之HTML——HTML文档结构、文档声明、主体结构标签、HEAD头部标签、meta元信息、Body内常用标签、6 其他了解
文章目录 HTML文档结构 1. 文档声明 2.主体结构标签 3.HEAD头部标签 4.meta元信息 5 Body内常用标签 5.1 基本标签(块级标签和内联标签) 5.2 div标签和span标签 ...
Bridge 桥接模式简介与 C# 示例【结构型2】【设计模式来了_7】
〇.简介 1.什么是桥接模式? 一句话解释: 通过一个类的抽象,与另一个类的抽象关联起来,当做桥.此后不管两个抽象类的实现有多少种,均可以通过这个桥来将两个对象联系起来. 桥接,顾名思义就是用桥来 ...
C#学习笔记--面向对象三大特征
C#核心面向对象--封装用程序来抽象现实世界,(万物皆对象)来编程实现功能. 三大特性:封装.继承.多态. 类与对象声明位置:namespace中样式:class 类名{} 命名:帕斯卡命名法 ...
ApiPost发送请求报错UT000036: Connection terminated parsing multipart data
发送请求报错Caused by: java.io.IOException: UT000036: Connection terminated parsing multipart data 这个报错是因为 ...

lxml模块

lxml模块中etree.tostring函数的使用

lxml模块的更多相关文章

随机推荐

热门专题