非常全的一份Python爬虫的Xpath博文

Xpath 是 python 爬虫过程中非常重要的一个用来定位的一种语法。

一、开始使用

首先我们需要得到一个 HTML 源代码，用来模拟爬取网页中的源代码。

首先我们需要下载一下 lxml 包。

pip install lxml

准备一个HTML源代码。

from lxml import etree

doc='''

        <div>

            <ul>

                 <li class="item-0"><a href="link1.html">first item</a></li>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

             </ul>

         </div>

        '''

html = etree.HTML(doc)

result = etree.tostring(html)

print(str(result, 'utf-8'))

二、节点、元素、属性、内容

xpath 的思想是通过路径表达去寻找节点。节点包括元素，属性，和内容。

2.1 路径表达式

/   根节点，节点分隔符，

//  任意位置

.   当前节点

..  父级节点

@   属性

2.2 通配符

*   任意元素

@*  任意属性

node()  任意子节点（元素，属性，内容)

2.3 谓语

使用中括号来限定元素，称为谓语

//a[n] n为大于零的整数，代表子元素排在第n个位置的<a>元素

//a[last()]   last()  代表子元素排在最后个位置的<a>元素

//a[last()-]  和上面同理，代表倒数第二个

//a[position()<3] 位置序号小于3，也就是前两个，这里我们可以看出xpath中的序列是从1开始

//a[@href]    拥有href的<a>元素

//a[@href='www.baidu.com']    href属性值为'www.baidu.com'的<a>元素

//book[@price>2]   price值大于2的<book>元素

三、定位

3.1 匹配多个元素，返回列表

from lxml import etree

if __name__ == '__main__':

    doc='''

        <div>

            <ul>

                 <li class="item-0"><a href="link1.html">first item</a></li>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a>

             </ul>

         </div>

        '''

    html = etree.HTML(doc)

    print(html.xpath("//li"))

    print(html.xpath("//p"))

    print(etree.tostring(html.xpath("//li[@class='item-inactive']")[0]))

    print(html.xpath("//li[@class='item-inactive']")[0].text)

    print(html.xpath("//li[@class='item-inactive']/a")[0].text)

    print(html.xpath("//li[@class='item-inactive']/a/text()"))

    print(html.xpath("//li[@class='item-inactive']/.."))

    print(html.xpath("//li[@class='item-inactive']/../li[@class='item-0']"))

3.2 contains

有的时候，class作为选择条件的时候不合适@class='....' 这个是完全匹配，当网页样式发生变化时，class或许会增加或减少像active的class。用contains就能很方便

from lxml import etree

if __name__ == '__main__':

    doc='''

        <div>

            <ul>

                 <p class="item-0 active"><a href="link1.html">first item</a></p>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

             </ul>

         </div>

        '''

    html = etree.HTML(doc)

    print(html.xpath("//li[@class='item']"))

    print(html.xpath("//*[contains(@class,'item')]"))

3.3 starts-with

包含某个属性的第一个节点。

from lxml import etree

if __name__ == '__main__':

    doc='''

        <div>

            <ul class='ul items'>

                 <p class="item-0 active"><a href="link1.html">first item</a></p>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

             </ul>

         </div>

        '''

    html = etree.HTML(doc)

    print(html.xpath("//*[contains(@class,'item')]"))

    print(html.xpath("//*[starts-with(@class,'ul')]"))

3.4 text、last

from lxml import etree

if __name__ == '__main__':

    doc='''

        <div>

            <ul class='ul items'>

                 <p class="item-0 active"><a href="link1.html">first item</a></p>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

             </ul>

         </div>

        '''

    html = etree.HTML(doc)

    print(html.xpath("//li[last()]/a/text()"))

3.5 获取内容

刚刚已经提到过，可以使用.text和text()的方式来获取元素的内容



from lxml import etree

if __name__ == '__main__':

    doc='''

        <div>

            <ul class='ul items'>

                 <li class="item-0 active"><a href="link1.html">first item</a></li>

                 <li class="item-1"><a href="link2.html">second item</a></li>

                 <li class="item-inactive"><a href="link3.html">third item</a></li>

                 <li class="item-1"><a href="link4.html">fourth item</a></li>

                 <li class="item-0"><a href="link5.html">fifth item</a> # 注意，此处缺少一个 </li> 闭合标签

             </ul>

         </div>

        '''

    html = etree.XML(doc)

    print(html.xpath("//a/text()"))

    print(html.xpath("//a")[0].text)

    print(html.xpath("//ul")[0].text)

    print(len(html.xpath("//ul")[0].text))

    print(html.xpath("//ul/text()"))

3.6 获取属性

print(html.xpath("//a/@href"))

print(html.xpath("//li/@class"))

四、使用Xpath爬取豆瓣

import requests

from lxml import etree

def main():

    head = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"

    }

    baseurl = "https://movie.douban.com/top250?start="

    res = requests.get(url=baseurl, headers=head).text

    data = etree.HTML(res)

    # 电影排行榜

    txt = data.xpath('//*[@id="content"]/div/div[1]/ol/li')

    list = []

    for i in txt:

        vidow = {

            "title": "",

            "year": '',

            "score": 0,

            "num": 0

        }

        title_list = i.xpath('./div/div[2]/div[1]/a/span/text()')

        for item in title_list:

            vidow['title'] += item.replace("\n", "").replace("\xa0", " ")

        vidow['year'] = i.xpath('./div/div[2]/div[2]/p[1]/text()')[1].split("/")[0].replace("\n", "").replace("\xa0", " ").replace(" ", "")

        vidow['score'] = i.xpath('./div/div[2]/div[2]/div/span[2]/text()')[0]

        vidow['num'] = i.xpath('./div/div[2]/div[2]/div/span[4]/text()')[0].replace("人评价", "")

        list.append(vidow)

    print(list)

if __name__ == '__main__':

    main()

非常全的一份Python爬虫的Xpath博文的更多相关文章

Python爬虫之xpath语法及案例使用
Python爬虫之xpath语法及案例使用 ---- 钢铁侠的知识库 2022.08.15 我们在写Python爬虫时,经常需要对网页提取信息,如果用传统正则表达去写会增加很多工作量,此时需要一种对数 ...
python爬虫：XPath语法和使用示例
python爬虫:XPath语法和使用示例 XPath(XML Path Language)是一门在XML文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历. 选取节点 XPath使用路 ...
python爬虫中XPath和lxml解析库
什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要 ...
python爬虫之xpath的基本使用
一.简介 Xpath是一门在XML文档中查找信息的语言.Xpath可用来在XML文档中对元素和属性进行遍历.Xpath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于XPa ...
【python爬虫】Xpath
一.xml是什么 1.定义:可扩展标记性语言 2.特点:xml的是具有自描述结构的半结构化数据. 3.作用:xml主要设计宗旨是用来传输数据的.他还可以作为配置文件. 二.xml和html的区别 1. ...
python爬虫--用xpath爬豆瓣电影
步骤将目标网站下的页面抓取下来将抓取下来的数据根据一定规则进行提取具体流程将目标网站下的页面抓取下来 1. 倒库 import requests 2.头信息(有时候可不写) headers ...
Python爬虫：Xpath语法笔记
一.选取节点常用的路劲表达式: 表达式描述实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpat ...
Python 爬虫知识点 - XPath
http://cuiqingcai.com/2621.html 一.基础介绍 <bookstore> <book> <title>Harry Potter</ ...
python爬虫-使用xpath方法
#coding=utf-8 import re from lxml import etree import requests response = requests.get("http:// ...

随机推荐

AcWing 1248. 灵能传输蓝桥杯
蓝桥杯的一道题:灵能传输 https://www.acwing.com/problem/content/description/1250/ 首先是简化操作,将原数组转化为前缀和数组(下标都是从1开始) ...
Kubernetes Job Controller 原理和源码分析（二）
概述程序入口Job controller 的创建Controller 对象NewController()podControlEventHandlerJob AddFunc DeleteFuncJob ...
SpringBoot整合RabbitMQ实战附加死信交换机
前言使用springboot,实现以下功能,有两个队列1.2,往里面发送消息,如果处理失败发生异常,可以重试3次,重试3次均失败,那么就将消息发送到死信队列进行统一处理,例如记录数据库.报警等环境 ...
论文阅读 dyngraph2vec: Capturing Network Dynamics using Dynamic Graph Representation Learning
6 dyngraph2vec: Capturing Network Dynamics using Dynamic Graph Representation Learning207 link:https ...
Vue回炉重造之如何使用props、emit实现自定义双向绑定
下面我将使用Vue自带的属性实现简单的双向绑定. 下面的例子就是利用了父组件传给子组件(在子组件定义props属性,在父组件的子组件上绑定属性),子组件传给父组件(在子组件使用$emit()属性定义一 ...
WPF开发随笔收录-自定义图标控件
一.前言 1.在以前自学的过程中,软件需要使用到图标的时候,总是第一个想法是下载一个图片来充当图标使用,但实际得出来的效果会出现模糊的现象.后来网上学习了字体图标库的用法,可以在阿里云矢量图网站那里将 ...
【WPF】CAD工程图纸转WPF可直接使用的xaml代码技巧
前言:随着工业化的进一步发展,制造业.工业自动化等多领域,都可能用到上位监控系统.而WPF在上位监控系统方面,应该算是当下最流行的前端框架之一了.而随着监控体系的不断完善与更新迭代,监控画面会变得越来 ...
【前端面试】（四）JavaScript var let const的区别
视频链接: JavaScript var let const的区别 - Web前端工程师面试题讲解参考链接: JavaScript 变量 JavaScript Let JavaScript Cons ...
Graph Neural Networks：谱域图卷积
以下学习内容参考了:1,2, 0.首先回忆CNN,卷积神经网络的结构和特点处理的数据特征:具有规则的空间结构(Euclidean domains),都可以采用一维或者二维的矩阵描述.(Convolu ...
APISpace 空号检测API接口免费好用
空号检测也称空号在线过滤,在线筛号,号码在线清洗.空号检测平台借助第五代大数据空号检测系统,为用户提供高精准的空号检测.号码过滤.号码筛选.号码清洗等众多号码检测功能,让用户快速准确的检测出活跃号.空 ...

非常全的一份Python爬虫的Xpath博文

非常全的一份Python爬虫的Xpath博文

一、开始使用

二、节点、元素、属性、内容

2.1 路径表达式

2.2 通配符

2.3 谓语

三、定位

3.1 匹配多个元素，返回列表

3.2 contains

3.3 starts-with

3.4 text、last

3.5 获取内容

3.6 获取属性

四、使用Xpath爬取豆瓣

非常全的一份Python爬虫的Xpath博文的更多相关文章

随机推荐

热门专题