xpath库学习

xpath解析是我们在爬虫中最常用也是最通用的一种数据解析方式。

环境安装

pip install lxml

解析原理

使用通用爬虫爬取网页数据
实例化etree对象，且将页面数据加载到该对象中
使用xpath函数结合xpath表达式进行标签定位和指定数据提取

实例化etree对象

- 1.将本地的html文档中的源码数据加载到etree对象中：

            etree.parse(filePath)

- 2.可以将从互联网上获取的源码数据加载到该对象中

            etree.HTML('page_text')

xpath表达式

   - xpath表达式:

         - xpath('xpath表达式')

        - /:表示的是从根节点开始定位。表示的是一个层级。

        - //:表示的是多个层级。可以表示从任意位置开始定位。

        - 属性定位：//div[@class='song'] tag[@attrName="attrValue"]

        - 索引定位：//div[@class="song"]/p[3] 索引是从1开始的。

        - 取文本：

            - /text() 获取的是标签中直系的文本内容

            - //text() 标签中非直系的文本内容（所有的文本内容）

        - 取属性：

            /@attrName     ==>img/src

xpath使用案例

属性定位：

    #找到class属性值为song的div标签

    //div[@class="song"]

层级&索引定位：

    #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a

    //div[@class="tang"]/ul/li[2]/a

逻辑运算：

    #找到href属性值为空且class属性值为du的a标签

    //a[@href="" and @class="du"]

模糊匹配：

    //div[contains(@class, "ng")]

    //div[starts-with(@class, "ta")]

取文本：

    # /表示获取某个标签下的文本内容

    # //表示获取某个标签下的文本内容和所有子标签下的文本内容

    //div[@class="song"]/p[1]/text()

    //div[@class="tang"]//text()

取属性：

    //div[@class="tang"]//li[2]/a/@href

爬虫分析案例

解析58二手房的相关数据

import requests

from lxml import etree

# 需求：爬取58二手房中的房源信息

if __name__ == "__main__":

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

    }

    # 爬取到页面源码数据

    url = 'https://bj.58.com/ershoufang/'

    page_text = requests.get(url=url, headers=headers).text

    # 数据解析

    tree = etree.HTML(page_text)

    # 存储的就是li标签对象

    li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')

    fp = open('58.txt', 'w', encoding='utf-8')

    for li in li_list:

        # 局部解析

        title = li.xpath('./div[2]/h2/a/text()')[0]  # ./表示当前解析的li标签为源码参照物

        print(title)

        fp.write(title + '\n')

解析下载图片数据：

# 需求：解析下载图片数据 http://pic.netbian.com/4kbeijing/

import requests

from lxml import etree

import os

if __name__ == "__main__":

    url = 'http://pic.netbian.com/4kbeijing/'

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

    }

    response = requests.get(url=url, headers=headers)

    # 手动设定响应数据的编码格式

    # response.encoding = 'utf-8'

    page_text = response.text

    # 数据解析：src的属性值  alt属性

    tree = etree.HTML(page_text)

    li_list = tree.xpath('//div[@class="slist"]/ul/li')

    # 创建一个文件夹

    if not os.path.exists('./picLibs'):

        os.mkdir('./picLibs')

    for li in li_list:

        img_src = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]

        img_name = li.xpath('./a/img/@alt')[0] + '.jpg'

        # 通用处理中文乱码的解决方案

        # encode('iso-8859-1')

        # 是将gbk编码编码成unicode编码

        # decode(‘gbk’) 是从unicode编码解码成gbk字符串

        img_name = img_name.encode('iso-8859-1').decode('gbk')

        # print(img_name,img_src)

        # 请求图片进行持久化存储

        img_data = requests.get(url=img_src, headers=headers).content

        img_path = 'picLibs/' + img_name

        with open(img_path, 'wb') as fp:

            fp.write(img_data)

            print(img_name, '下载成功！！！')

解析出所有城市名称

# 项目需求：解析出所有城市名称https://www.aqistudy.cn/historydata/

import requests

from lxml import etree

if __name__ == "__main__":

    # headers = {

    #     'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

    # }

    # url = 'https://www.aqistudy.cn/historydata/'

    # page_text = requests.get(url=url,headers=headers).text

    #

    # tree = etree.HTML(page_text)

    # host_li_list = tree.xpath('//div[@class="bottom"]/ul/li')

    # all_city_names = []

    # #解析到了热门城市的城市名称

    # for li in host_li_list:

    #     hot_city_name = li.xpath('./a/text()')[0]

    #     all_city_names.append(hot_city_name)

    #

    # #解析的是全部城市的名称

    # city_names_list = tree.xpath('//div[@class="bottom"]/ul/div[2]/li')

    # for li in city_names_list:

    #     city_name = li.xpath('./a/text()')[0]

    #     all_city_names.append(city_name)

    #

    # print(all_city_names,len(all_city_names))

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

    }

    url = 'https://www.aqistudy.cn/historydata/'

    page_text = requests.get(url=url, headers=headers).text

    tree = etree.HTML(page_text)

    # 解析到热门城市和所有城市对应的a标签

    # //div[@class="bottom"]/ul/li/          热门城市a标签的层级关系

    # //div[@class="bottom"]/ul/div[2]/li/a  全部城市a标签的层级关系

    a_list = tree.xpath(

        '//div[@class="bottom"]/ul/li/a | //div[@class="bottom"]/ul/div[2]/li/a')

    all_city_names = []

    for a in a_list:

        city_name = a.xpath('./text()')[0]

        all_city_names.append(city_name)

    print(all_city_names, len(all_city_names))

爬取站长素材中免费简历模板

# 项目需求：爬取站长素材中免费简历模板 http://sc.chinaz.com/jianli/free.html

import requests

import os

from lxml import etree

if __name__ == "__main__":

    headers = {

        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'

    }

    url = 'http://sc.chinaz.com/jianli/free.html'

    # 创建一个文件夹jianlitemplates

    if not os.path.exists('./jianlitemplates'):

        os.mkdir('./jianlitemplates')

    for page in range(1, 4):  # 分页提取（2-3页)

        if page > 1:

            url = 'http://sc.chinaz.com/jianli/free_%s.html' % page

        # print(url)

        page_text = requests.get(url=url, headers=headers).text

        tree = etree.HTML(page_text)

        jianli_href_list = tree.xpath(

            '//div[@class="box col3 ws_block"]/a/@href')  # 模板链接

        jianli_name_list = tree.xpath(

            '//div[@class="box col3 ws_block"]/a/img/@alt')  # 模板标题

        title_list = [t.encode('iso-8859-1').decode('utf-8')

                      for t in jianli_name_list]  # 转中文

        for ind, h in enumerate(jianli_href_list):  # 抓取简历模板页

            con_text = requests.get(url=h, headers=headers).text

            con_tree = etree.HTML(con_text)

            con_href = con_tree.xpath(

                '//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')[0]  # 得到下载链接

            print(con_href, title_list[ind])

            wrd_path = 'jianlitemplates/' + title_list[ind] + '.rar'

            # 请求模板进行持久化存储

            wrd_data = requests.get(url=con_href, headers=headers).content

            with open(wrd_path, 'wb') as fp:  # 保存简历模板

                fp.write(wrd_data)

                print(title_list[ind], '下载成功！！！')

xpath库学习的更多相关文章

python爬虫解析库学习
一.xpath库使用: 1.基本规则: 2.将文件转为HTML对象: html = etree.parse('./test.html', etree.HTMLParser()) result = et ...
【转】XPath的学习
xpath的作用就是两个字“定位”,运用各种方法进行快速准确的定位,推荐两个非常有用的的firefox工具:firebug和xpath checker 定位 1.依靠自己属性,文本定位 //td[ ...
python 操作exls学习之路1-openpyxl库学习
这篇要讲到的就是如何利用Python与openpyxl结合来处理xlsx表格数据.Python处理表格的库有很多,这里的openpyxl就是其中之一,但是它是处理excel2007/2010的格式,也 ...
dlib库学习之一
dlib库学习之一 1.介绍跨平台 C++ 通用库 Dlib 发布 ,带来了一些新特性,包括概率 CKY 解析器,使用批量同步并行计算模型来创建应用的工具,新增两个聚合算法:中国低语 (Chines ...
python_库学习_01
一.python的库学习之财经数据接口包 1.安装ThShare 直接pip install tushare 可能会出现缺少依赖库的情况,依次安装,大概有lxml,pandas,bs4,reques ...
numpy, matplotlib库学习笔记
Numpy库学习笔记: 1.array() 创建数组或者转化数组例如,把列表转化为数组 >>>Np.array([1,2,3,4,5]) Array([1,2,3,4,5]) ...
【mmall】Guava库学习Collections
参考链接 Guava库学习:学习Collections(三)Sets
muduo网络库学习笔记(五) 链接器Connector与监听器Acceptor
目录 muduo网络库学习笔记(五) 链接器Connector与监听器Acceptor Connector 系统函数connect 处理非阻塞connect的步骤: Connetor时序图 Accep ...
muduo网络库学习笔记(四) 通过eventfd实现的事件通知机制
目录 muduo网络库学习笔记(四) 通过eventfd实现的事件通知机制 eventfd的使用 eventfd系统函数使用示例 EventLoop对eventfd的封装工作时序 runInLoo ...

随机推荐

send fd 无法传
string success = "1"; string urlstr = "http://localhost:8080/getfilecontent?filename= ...
201671010426 孙锦喆实验十四团队项目评审&课程学习总结
徐明锦徐明锦 2 95 2019-06-30T14:54:00Z 2019-06-30T14:54:00Z 9 608 3472 28 8 4072 14.00 Clean Clean false ...
【Linux】linux ln文件夹的链接（转）
1 文件的链接ln -s a.py b.pya.py 软链接到b.py (无论 b.py 文件存在与否都可以成功)2 文件夹的链接ln -s a ba文件夹软链接到b文件夹(b文件夹不能提前创建) ...
java 泛型类型作为参量 Class<T> transform
Class<T> transform T:作为类型,用于定义变量: transform:作为具体类的类:用于创建实例. 类型信息是脱敏的具体类: 可以使用class的具体功能: 不能使用具 ...
5-微信小程序开发(小程序页面跳转和布局说明)
https://www.cnblogs.com/yangfengwu/p/11605209.html 新建一个小程序咱现在新建个页面在pages 上右击,选择新建目录会自动添加这几个文件现在做 ...
VMware Tools安装后设置自动挂载解决共享文件夹无法显示的问题
一. 确保成功安装了VMware Tools 二. 使用如下命令 1.apt-get install open-vm-tools 2.vmhgfs-fuse .host:/ /mnt/hgfs ...
第03组 Alpha事后诸葛亮
组长博客项目Postmortem模板设想和目标 1.我们的软件要解决什么问题?是否定义得很清楚?是否对典型用户和典型场景有清晰的描述? 我们软件要解决的的问题是福州大学校园二手书的处理问题.应该定 ...
AS启动模拟器时报错的解决办法
问题描述 AS安装后之后,在AVD manager 中创建了一个模拟器,并且其他的配置都正确,但是在点击run时却出现了如下的错误: 这个问题一直在报Error while waiting for d ...
Visual Studio调试窗口一闪而过的解决方法
小编在用vs写程序时,经常碰到调试窗口一闪而过的情况,以至于根本无法查看程序输出结果. 为了解决这个问题,可以在程序的末尾加上一个系统调用语句: int main(){ printf("我不 ...
JavaScript 箭头函数
ES6新标准增加了一种新的函数,箭头函数. x=>x*x 相当于: function (x){ return x*x; } 如果参数不是一个,就需要用括号()括起来: // 两个参数:var t ...

xpath库学习

解析原理

实例化etree对象

xpath表达式

xpath使用案例

爬虫分析案例

解析58二手房的相关数据

解析下载图片数据：

解析出所有城市名称

爬取站长素材中免费简历模板

xpath库学习的更多相关文章

随机推荐

热门专题