数据解析之xpath

一、环境安装

下载lxml

pip install lxml

二、使用

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

常用xpath表达式：

属性定位：

    #找到class属性值为song的div标签

    //div[@class="song"]

层级&索引定位：

    #找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a

    //div[@class="tang"]/ul/li[2]/a

逻辑运算：

    #找到href属性值为空且class属性值为du的a标签

    //a[@href="" and @class="du"]

模糊匹配：

    //div[contains(@class, "ng")]

    //div[starts-with(@class, "ta")]

取文本：

    # /表示获取某个标签下的文本内容

    # //表示获取某个标签下的文本内容和所有子标签下的文本内容

    //div[@class="song"]/p[1]/text()

    //div[@class="tang"]//text()

取属性：

    //div[@class="tang"]//li[2]/a/@href

xpath解析原理(编码流程)：

- 实例化一个etree的对象，且将页面源码数据加载到该对象中
- 调用etree对象中的xpath方法实现标签定位和数据的提取
- 在xpath函数中必须作用xpath表达式

可以给浏览器安一个xpath插件--xpath.crx

安装方式，打开浏览器开发者模式，直接将xpath.crx 拖进去
xpath插件的开启和关闭的快捷键：
- ctrl+shift+x
可进行xpath表达式的校验

xpath解析案例

一、爬取煎蛋网图片数据http://jandan.net/ooxx
- 图片src是加密的，加密方式封装在标签调用的函数中
- 先爬取密文，然后根据加密方式解密。

# 需求，爬取煎蛋网图片数据, 图片的src加密了

import requests

from lxml import etree

import base64  # 对src加密的方法

from urllib import request

headers ={

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'

}

url = "http://jandan.net/ooxx/page-64#comments"

page_text = requests.get(url,headers=headers).text

# 解析图片src密文

tree = etree.HTML(page_text)

code_list = tree.xpath('//span[@class="img-hash"]/text()')  # 获取密文

# 解析密文

for code in code_list:

    img_url = "http:" + base64.b64decode(code).decode()

    imgName = img_url.split('/')[-1]

    request.urlretrieve(img_url, imgName)

    print(imgName,"下载成功")

二、站长素材简历模板爬取

报这个错：：连接池的错误，高频访问占用连接对象。
HTTPConnectionPool（host:XX）Max retries exceeded with url:
解决办法：
- 1. 请求头中设置 'Connection':'close'
  - 如何让请求结束后马上断开连接且释放池中的连接资源： 'Connection':'close' # 请求成功之后马上断开连接
- 2. 或使用代理ip

import requests

from lxml import etree

import random

import os

headers ={

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'，

    'Connection':'close'  # 请求成功之后马上断开连接

}

url_one = "http://sc.chinaz.com/jianli/free.html"

# 定制一个通用url摸版

url_demo = "http://sc.chinaz.com/jianli/free_%d.html"

start_page = int(input("开始页"))

end_page = int(input("结束页"))

for pageNum in range(start_page,end_page+1):

    if pageNum == 1:

        url = url_one

    else:

        url = format(url_demo%pageNum)

    response = requests.get(url=url,headers=headers)

    response.encoding = 'utf-8'  # 编码

    page_text = response.text

    # 解析简历详情页的url

    html = etree.HTML(page_text)

    div_list = html.xpath('//div[@id="container"]/div')

    for div in div_list:

        name = div.xpath('./p/a/text()')[0]

        url_detail = div.xpath('./p/a/@href')[0]

        #对详情页的url发起请求，获取详情页的源码数据

        detail_page_text = requests.get(url_detail,headers=headers).text

        tree = etree.HTML(detail_page_text)

        li_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li')

        #随机选取一个li标签（li标签中包含了下载地址的url）

        download_url = random.choice(li_list).xpath('./a/@href')[0]

         #进行简历数据的下载

        data = requests.get(url=download_url,headers=headers).content

        name = name+'.rar'  # 压缩包

        if not os.path.exists("./简历模板"):

            os.mkdir("./简历模板")

        with open(f"./简历模板/{name}", 'wb') as fp:

            fp.write(data)

        print(name,"下载成功")

数据解析之xpath的更多相关文章

Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...
Python爬虫：数据解析之 xpath
资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程 ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
爬虫-数据解析-xpath
xpath 解析模块安装 : pip install lxml xpath的解析原理实例化一个etree类型的对象,且将页面源码数据加载到该对象中需要调用该对象的xpath方法结合着不同形式的x ...
数据解析（XML和JSON数据结构）
一解析二 XML数据结构三 JSON 数据结构一解析 1 定义: 从事先规定好的格式中提取数据解析的前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照 ...
【原】iOS学习38网络之数据解析
1. 解析的基本的概念解析:从事先规定好的格式中提取数据解析前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照格式获取数据 iOS开发常见的解析:XML解析.JOSN解析 2. X ...
iOS - XML 数据解析
前言 @interface NSXMLParser : NSObject public class NSXMLParser : NSObject 1.XML 数据 XML(Extensible Mar ...

随机推荐

php文件上传总结
前言: 学习php中 1.表单代码: <html> <head> <title>文件上传</title> </head> <body ...
python并发之multiprocessing
由于GIL(全局解释锁)的问题,python多线程并不能充分利用多核处理器.如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程.multiprocessing可以给每个进程赋 ...
最长公共子序列（lcs)
给出两个字符串A B,求A与B的最长公共子序列(子序列不要求是连续的). 比如两个串为: abcicba abdkscab ab是两个串的子序列,abc也是,abca也是,其中abca是这两个字符 ...
ubuntu安装vsftpd
使用以下命令安装vsftpd: apt-get install vsftpd 安装完成后,文件服务器已经开启了. 然后就可以连接,可以使用xftp等工具,在上传和下载的时候要注意权限,不然会失败.
[转]SQLServer添加UPDATE回滚日志(update/delete/insert)
下面直接上代码(copy到你的数据库里面直接就可以运行): CREATE PROCEDURE [dbo].[SP_UPDATE_LOG] ) AS BEGIN SET NOCOUNT ON; IF N ...
java基础之多线程五：实现Runnable的原理
实现Runnable接口的原理. 背景: 多线程的第一种实现方式是::继承Thread类, 因为我们自定义的类(MyThread)是Thread类的子类, 所以MyThread类的对象调用start( ...
thinkphp对mysql的CURD操作
利用thinkphp(3.2.3)来操作数据库,首先要连接数据库.我们需要对某数据库写一个配置文件,thinkphp会根据该配置文件自动连接上数据库.而model文件就不用自定义,内置的即可解决问题. ...
WebFlux04 SpringBootWebFlux集成MongoDB之Windows版本、WebFlux实现CRUD、WebFlux实现JPA、参数校验
1 下载并安装MongoDB 1.1 MongoDB官网 1.2 下载 solutions -> download center 1.3 安装双击进入安装即可 1.3.1 安装时常见bug01 ...
Luogu 1580 [NOIP2016] 换教室
先用Floyed做亮点之间的最短路,设计dp,记dp[i][j][0]为到第i节课,换了j次课,当前有没有换课达到的期望耗费体力最小值方程(太长了还是看代码吧):dp[i][j][0]<-dp ...
数据库 MySQL 之表操作、存储引擎
数据库 MySQL 之表操作.存储引擎浏览目录创建(复制) 删除修改查询存储引擎介绍一.创建(复制) 1.语法: 1 2 3 4 5 CREATE TABLE 表名( 字段名1 ...

数据解析之xpath

一、环境安装

二、使用

xpath解析案例

数据解析之xpath的更多相关文章

随机推荐

热门专题