一、环境安装

下载lxml

pip install lxml

二、使用

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

常用xpath表达式:

属性定位:
#找到class属性值为song的div标签
//div[@class="song"]
层级&索引定位:
#找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
//div[@class="tang"]/ul/li[2]/a
逻辑运算:
#找到href属性值为空且class属性值为du的a标签
//a[@href="" and @class="du"]
模糊匹配:
//div[contains(@class, "ng")]
//div[starts-with(@class, "ta")]
取文本:
# /表示获取某个标签下的文本内容
# //表示获取某个标签下的文本内容和所有子标签下的文本内容
//div[@class="song"]/p[1]/text()
//div[@class="tang"]//text()
取属性:
//div[@class="tang"]//li[2]/a/@href

xpath解析原理(编码流程):

  • - 实例化一个etree的对象,且将页面源码数据加载到该对象中
  • - 调用etree对象中的xpath方法实现标签定位和数据的提取
  • - 在xpath函数中必须作用xpath表达式

可以给浏览器安一个xpath插件--xpath.crx

  • 安装方式,打开浏览器开发者模式,直接将xpath.crx 拖进去
  • xpath插件的开启和关闭的快捷键:
    • ctrl+shift+x
  • 可进行xpath表达式的校验

xpath解析案例

  • 一、爬取煎蛋网图片数据http://jandan.net/ooxx

    • 图片src是加密的,加密方式封装在标签调用的函数中
    • 先爬取密文,然后根据加密方式解密。
# 需求,爬取煎蛋网图片数据, 图片的src加密了
import requests
from lxml import etree
import base64 # 对src加密的方法
from urllib import request
headers ={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36'
}
url = "http://jandan.net/ooxx/page-64#comments"
page_text = requests.get(url,headers=headers).text # 解析图片src密文
tree = etree.HTML(page_text)
code_list = tree.xpath('//span[@class="img-hash"]/text()') # 获取密文
# 解析密文
for code in code_list:
img_url = "http:" + base64.b64decode(code).decode()
imgName = img_url.split('/')[-1]
request.urlretrieve(img_url, imgName)
print(imgName,"下载成功")

二、站长素材简历模板爬取

  • 报这个错::连接池的错误,高频访问占用连接对象。
  • HTTPConnectionPool(host:XX)Max retries exceeded with url:
  • 解决办法:
    • 1. 请求头中设置 'Connection':'close'

      • 如何让请求结束后马上断开连接且释放池中的连接资源: 'Connection':'close' # 请求成功之后马上断开连接
    • 2. 或使用代理ip
import requests
from lxml import etree
import random
import os
headers ={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.12 Safari/537.36',
'Connection':'close' # 请求成功之后马上断开连接
}
url_one = "http://sc.chinaz.com/jianli/free.html" # 定制一个通用url摸版
url_demo = "http://sc.chinaz.com/jianli/free_%d.html"
start_page = int(input("开始页"))
end_page = int(input("结束页")) for pageNum in range(start_page,end_page+1):
if pageNum == 1:
url = url_one
else:
url = format(url_demo%pageNum) response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8' # 编码
page_text = response.text # 解析简历详情页的url
html = etree.HTML(page_text)
div_list = html.xpath('//div[@id="container"]/div')
for div in div_list:
name = div.xpath('./p/a/text()')[0]
url_detail = div.xpath('./p/a/@href')[0]
#对详情页的url发起请求,获取详情页的源码数据
detail_page_text = requests.get(url_detail,headers=headers).text
tree = etree.HTML(detail_page_text)
li_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li')
#随机选取一个li标签(li标签中包含了下载地址的url)
download_url = random.choice(li_list).xpath('./a/@href')[0]
#进行简历数据的下载
data = requests.get(url=download_url,headers=headers).content
name = name+'.rar' # 压缩包
if not os.path.exists("./简历模板"):
os.mkdir("./简历模板")
with open(f"./简历模板/{name}", 'wb') as fp:
fp.write(data)
print(name,"下载成功")

数据解析之xpath的更多相关文章

  1. Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)

    引入 回顾requests实现数据爬取的流程 指定url 基于requests模块发起请求 获取响应对象中的数据 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...

  2. python爬虫数据解析之xpath

    xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点 首先 ...

  3. Python爬虫:数据解析 之 xpath

    资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程 ...

  4. python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)

    一.数据类型及解析方式 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据 和 结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...

  5. python爬虫数据解析的四种不同选择器Xpath,Beautiful Soup,pyquery,re

    这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆 主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...

  6. 爬虫-数据解析-xpath

    xpath 解析 模块安装 : pip install lxml xpath的解析原理 实例化一个etree类型的对象,且将页面源码数据加载到该对象中 需要调用该对象的xpath方法结合着不同形式的x ...

  7. 数据解析(XML和JSON数据结构)

    一   解析 二 XML数据结构 三 JSON 数据结构     一 解析 1  定义: 从事先规定好的格式中提取数据     解析的前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照 ...

  8. 【原】iOS学习38网络之数据解析

    1. 解析的基本的概念 解析:从事先规定好的格式中提取数据 解析前提:提前约定好格式,数据提供方按照格式提供数据.数据获取方则按照格式获取数据 iOS开发常见的解析:XML解析.JOSN解析 2. X ...

  9. iOS - XML 数据解析

    前言 @interface NSXMLParser : NSObject public class NSXMLParser : NSObject 1.XML 数据 XML(Extensible Mar ...

随机推荐

  1. Python Twisted系列教程8:使用Deferred的诗歌下载客户端

    作者:dave@http://krondo.com/deferred-poetry/  译者:杨晓伟(采用意译) 可以从这里从头开始阅读这个系列. 客户端4.0 我们已经对deferreds有些理解了 ...

  2. SSD知识

    不管什么接口的SSD,一般都由以下部分组成:主控,Flash,板,壳,品牌.下面本佬就这些部分一一发帖,仅供娱乐参考,不作任何推荐和偏向,有不同见解请直接发表,有任何错误,请直接指正,不为吵架,只为娱 ...

  3. 委托小结及Func用法

    首先,委托是一种类型,由关键字delegate声明.确切的说,委托是一种可用于封装命名或者匿名方法的引用类型.  它类似于 C++ 中的函数指针,而且是类型安全和可靠的.       委托类型的声明与 ...

  4. Nodejs开发Office插件

    如果使用Nodejs开发Office插件,需要借助Yeoman包去生成Office插件 yeoman地址是:http://yeoman.io/generators/,输入office 源码地址是:ht ...

  5. linux下的定时或计时操作(gettimeofday等的用法,秒,微妙,纳秒(转载)

    一.用select()函数实现非阻塞时的等待时间,用到结构体struct timeval {},这里就不多说了. 二.用gettimeofday()可获得微妙级(0.000001秒)的系统时间,调用两 ...

  6. Emgu学习之(一)----Emgu简介

    OpenCV OpenCV是一个开源的跨平台的计算机视觉库,它的设计目标时执行速度尽量快,主要关注实时应用.可以运行在Linux.Windows.Mac OS.Android.IOS.Maemo.Fr ...

  7. 10-EasyNetQ之控制队列名称

    EasyNetQ默认行为,当生成队列的名称时,使用消息类型名+subscription Id.例如:PartyInvitation 这个消息类型,命名空间为 EasyNetQ.Tests.Integr ...

  8. Scala语言简介和开发环境配置

    Scala语言的简介和开发环境搭建 Scala是一门结合了面向对象特征和函数式编程特征的语言,它是一个创新的编程语言产品.Scala可以做脚本(就像shell脚本一样),可以做服务端编程语言,可以写数 ...

  9. 详解PHP执行定时任务的实现思路

    PHP本身是没有定时功能的,PHP也不能多线程.PHP的定时任务功能必须通过和其他工具结合才能实现,例如WordPress内置了wp-cron的功能,很厉害. 一.Linux服务器上使用CronTab ...

  10. GBK/ UTF-8/ UNICODE(字符编码)

    在python2中:如果执行程序,在编译器中,因为默认的编码是ASCII码(英文),所以如果输入中文就会出现乱码,因此为了避免这种乱码的情况发生,在输入中文字符串之后,必须进行手动转码,将GBK/ U ...