12.Python爬虫利器三之Xpath语法与lxml库的用法

LXML解析库使用的是Xpath语法：

XPath 是一门语言

XPath可以在XML文档中查找信息

XPath支持HTML

XPath通过元素和属性进行导航

XPath可以用来提取信息

XPath比正则表达式厉害

XPath比正则表达式简单

lxml使用方法：

from lxml import etree

text = '''

<div>

    <ul>

         <li class="item-0"><a href="link1.html">first item</a></li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-inactive"><a href="link3.html">third item</a></li>

         <li class="item-1"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a>

     </ul>

 </div>

'''

html = etree.HTML(text)  #使用etree.HTML初始化

result = etree.tostring(html) #将初始化的HTML转化成string

print result

首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。

其中，这里体现了 lxml 的一个非常实用的功能就是自动修正 html 代码，大家应该注意到了，最后一个 li 标签，其实我把尾标签删掉了，是不闭合的。不过，lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能。

所以输出结果是这样的

<html><body><div>

    <ul>

         <li class="item-0"><a href="link1.html">first item</a></li>

         <li class="item-1"><a href="link2.html">second item</a></li>

         <li class="item-inactive"><a href="link3.html">third item</a></li>

         <li class="item-1"><a href="link4.html">fourth item</a></li>

         <li class="item-0"><a href="link5.html">fifth item</a>

     </li></ul>

 </div>

</body></html>
#不仅补全了 li 标签，还添加了 body，html 标签。

如何使用XPATH：

安装lxml库

from lxml import etree

Selector = etree.HTML(网页源代码)

Selector.xpath(一段神奇的符号)

XPath与HTML结构

获取网页元素的Xpath

应用XPath提取内容

案例1：

html = '''<!DOCTYPE html>

<html>

<head lang="en">

    <meta charset="UTF-8">

    <title>测试-常规用法</title>

</head>

<body>

<div id="content">

    <ul id="useful">

        <li>这是第一条信息</li>

        <li>这是第二条信息</li>

        <li>这是第三条信息</li>

    </ul>

    <ul id="useless">

        <li>不需要的信息1</li>

        <li>不需要的信息2</li>

        <li>不需要的信息3</li>

    </ul>

    <div id="url">

        <a href="http://jikexueyuan.com">极客学院</a>

        <a href="http://jikexueyuan.com/course/" title="极客学院课程库">点我打开课程库</a>

    </div>

</div>

</body>

</html>

'''

selector = etree.HTML(html)

#提取文本  提取文本内容：/text()

content= selector.xpath('//ul[@id="useless"]/li/text()') #提取id属性为useless下面li标签的文本信息

content1 = selector.xpath('//ul/li/text()') #提取所有li标签的文本信息

content2 = selector.xpath('//div[@id="content"]/ul[@id="useful"]/li/text()') #提取id属性为useful下面li标签的文本信息

for each in content2:

    print each

#提取属性

link = selector.xpath('//a/@href')  #提取属性内容: /@xxxx

for each in link:

    print each

title = selector.xpath('//a/@title')  #提取属性内容: /@xxxx

print title[0]

xpath基本语法

//定位根节点

/往下层寻找

提取文本内容：/text()

提取属性内容: /@xxxx

===================

xpath的特殊用法

1.以相同的字符开头

2.标签套标签

案例1

html1 = '''

<!DOCTYPE html>

<html>

<head lang="en">

    <meta charset="UTF-8">

    <title>测试-特殊用法</title>

</head>

<body>

    <div id="test-1">需要的内容1</div>

    <div id="test-2">需要的内容2</div>

    <div id="testfault">需要的内容3</div>

</body>

</html>

'''

selector = etree.HTML(html1)

content = selector.xpath('//div[starts-with(@id,"test")]/text()')

for each in content:

    print each

案例2：

html2 = '''

<!DOCTYPE html>

<html>

<head lang="en">

    <meta charset="UTF-8">

    <title></title>

</head>

<body>

    <div id="test3">

        我左青龙，

        <span id="tiger">

            右白虎，

            <ul>上朱雀，

                <li>下玄武。</li>

            </ul>老牛在当中，

        </span>龙头在胸口。

    </div>

</body>

</html>

'''

selector1=etree.HTML(html2)

content1 = selector1.xpath('//div[@id="test3"]/text()')

for each in content1:

    print  each

data = selector1.xpath('//div[@id="test3"]')[0]

info = data.xpath('string(.)')

print info

12.Python爬虫利器三之Xpath语法与lxml库的用法的更多相关文章

Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
python爬虫（8）--Xpath语法与lxml库
1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...
芝麻HTTP：Python爬虫利器之Xpath语法与lxml库的用法
安装 pip install lxml 利用 pip 安装即可 XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPat ...
Xpath语法与lxml库的用法
BeautifulSoup 已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法. 1.安装 pip install lxml 2 ...
Xpath语法与lxml库
1. Xpath 1 )什么是XPath? xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 2) X ...
请求数据分析 xpath语法与lxml库
前情提要: 上节学过从网上获取请求,获取返回内容,带理获取内容之后,第二部就是获取请求的数据分析一:xpath 语法浏览器一般会自带xpatn 解析这里大概讲述一下xpath 的基本操作二: ...
Python爬虫利器六之PyQuery的用法
前言你是否觉得 XPath 的用法多少有点晦涩难记呢? 你是否觉得 BeautifulSoup 的语法多少有些悭吝难懂呢? 你是否甚至还在苦苦研究正则表达式却因为少些了一个点而抓狂呢? 你是否已经有 ...
Python 爬虫利器 Selenium 介绍
Python 爬虫利器 Selenium 介绍转 https://mp.weixin.qq.com/s/YJGjZkUejEos_yJ1ukp5kw 前面几节,我们学习了用 requests 构造页 ...
Python爬虫利器二之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Be ...

随机推荐

Flex动画效果的用法--Resize
Flex动画效果的用法--Resize FlexAdobeXML <?xml version="1.0" encoding="utf-8"?> & ...
php二分法查找
//二分查找(数组里查找某个元素) function bin_sch($array, $low, $high, $k) { if ($low <= $high) { $mid = intval( ...
原生JS实现瀑布流布局
瀑布流,又称瀑布流式布局.是比较流行的一种网站页面布局,视觉表现为参差不齐的多栏布局,随着页面滚动条向下滚动,这种布局还会不断加载数据块并附加至当前尾部. 1.首先瀑布流所有的图片应该保持宽度一致,高 ...
原生js实现放大镜
效果: 1. 鼠标放上去会有半透明遮罩.右边会有大图片局部图 2. 鼠标移动时右边的大图片也会局部移动放大镜的关键原理: 鼠标在小图片上移动时,通过捕捉鼠标在小图片上的位置,定位大图片的相应位置 ...
selenium 定时任务
Financiers Game CodeForces - 737D (博弈论)
直接暴力区间DP的话是$O(n^3)$, 关键注意到每步走的距离差不超过1, 所以差最大是$O(\sqrt{n})$的, 所以实际上有用的状态是$O(n^2)$的, 可以通过.
对偶图并查集 BZOJ4423
题目链接题目因为要根据上一次的输出结果来判断这次的输入,也就是要求我们强制在线,不能够把输入全部储存后处理如果不要求强制在线,我们可以先把所以输入储存起来,从最后开始处理,把删边改成加边,如果在加 ...
python-flask-配置文件的源码分析
方式一:app.config['xx'] = 'xxx'源码分析:#第1步:class Flask(_PackageBoundObject): self.config = self.make_c ...
CRM WEB UI 03搜索界面新建按钮调到详细界面
这个和上一个差不多,简单说下: 1.因为NEW是在创建搜索界面的时候加的,所以此时只需在结果界面重定义NEW事件: method EH_ONNEW. OP_NEW( ). endmethod. 2.结 ...
【LeetCode】Permutation全排列
1. Next Permutation 实现C++的std::next_permutation函数,重新排列范围内的元素,返回按照字典序排列的下一个值较大的组合.若其已经是最大排列,则返回最小排列 ...

12.Python爬虫利器三之Xpath语法与lxml库的用法

12.Python爬虫利器三之Xpath语法与lxml库的用法的更多相关文章

随机推荐

热门专题