# 解析原理:
# - 获取页面源码数据
# - 实例化一个etree对象,并且将页面源码数据加载到该对象中
# - 调用该对象的xpath方法进行指定标签定位
# - xpath函数必须结合着xpath表达式进行标签定位和内容捕获
# xpath表达式:
# - 属性定位: //div[@class="song"] 找到class属性值为song的div 返回一个列表
# - 索引层级定位: //div[@class="tang"]/ul/li[2]/a
# - 逻辑运算: //a[@href="" and @class="du"] 并且
# - 模糊匹配: //div[contains(@class, 'ng')] class包含 ng 的div
# //div[startwith(@class, 'ta')] class以 ta 开头的div
# - 取文本: //div[@class="song"]/p[1]/text() div下的文本内容
# //div[@class="tang"]//text() div下以及字标签下的文本内容 返回列表
# - 取属性: // div[@class="tang"]//a[1]/@href

下面上几个小案例:

import requests
from lxml import etree url = 'https://bj.58.com/ershoufang/?utm_source=sem-sales-baidu-pc&spm=85077276202.21974091622&utm_campaign=sell&utm_medium=cpc&showpjs=pc_fg' headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
} page_text = requests.get(url=url, headers=headers).text tree = etree.HTML(page_text)
li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') # 返回的是Element对象
fp = open('58.csv', 'w', encoding='utf8')
for li in li_list:
title = li.xpath('./div[2]/h2/a/text()')[0] # 局部页面解析要加'.'
price1 = li.xpath('./div[3]//text()')
price = ''.join(price1)
fp.write(title+":"+price+'\n')
fp.close()
print('over')

爬取 58二手房信息

xpath 解析图片资源

import requests
from lxml import etree url = "http://pic.netbian.com/4kmeinv/" headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
page_text = requests.get(url=url, headers=headers).text tree = etree.HTML(page_text)
# etree.parse(page_text) 解析本地文件推荐使用
li_list = tree.xpath('//div[@class="slist"]/ul/li')
for li in li_list:
image_name = li.xpath('./a/b/text()')[0]
image_name = image_name.encode('iso-8859-1').decode('gbk')
image_url = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]
image_path = './img/'+image_name+'.jpg'
img = requests.get(image_url).content
with open(image_path, 'wb') as f:
f.write(img)
print(image_path+'下载成功')

图片怎么爬取呢?

import requests
import base64
from lxml import etree headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
url = 'http://jandan.net/top'
response = requests.get(url=url, headers=headers)
page_text = response.text
tree = etree.HTML(page_text)
code_list = tree.xpath('//span[@class="img-hash"]/text()')
for img_code in code_list:
img_url = 'http:'+base64.b64decode(img_code).decode()
img_name = img_url.split('/')[-1]
img_path = f'./jd_img/{img_name}'
print(img_url)
content = requests.get(img_url).content
with open(img_path, 'wb') as f:
f.write(content)
print(img_name+'成功')
print('over')

有的时候我找不到我要的图片链接呀

上面是煎蛋网采用了js的方法对图片链接地址进行了base64的加密

# 简历模板爬取(ip禁用问题)
# 解决方法:
# ip代理,
# 请求头中添加Connection字段:close
import requests
import random
from lxml import etree url = 'http://sc.chinaz.com/jianli/free.html' headers = {
'Connection': 'close', # 每次请求成功之后,发马上断开连接(修改后有几率无法立即生效,出现Httppool...错误- 重新运行)
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'
}
page_text = requests.get(url=url, headers=headers).text
tree = etree.HTML(page_text)
a_list = tree.xpath('//div[@id="container"]/div/a[1]')
for a in a_list:
title = a.xpath('./img/@alt')[0].encode('iso-8859-1').decode('utf-8')
detail_url = a.xpath('./@href')[0]
detail_text = requests.get(url=detail_url, headers=headers).text
d_tree = etree.HTML(detail_text)
down_url_list = d_tree.xpath('//div[@class="down_wrap"]//li/a/@href')
down_url = random.choice(down_url_list)
data = requests.get(down_url,headers=headers).content
with open(f'./简历模板/{title}.rar', 'wb') as f:
f.write(data)
print(title+'完成')
print('over')

站长之家模板资源爬取下载

爬虫之lxml - etree - xpath的使用的更多相关文章

  1. lxml etree xpath

    from lxml import etree #####################基本用法: ##################### html = ''' <h1 class=&quo ...

  2. Python爬虫利器三之Xpath语法与lxml库的用法

    前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...

  3. python爬虫(8)--Xpath语法与lxml库

    1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...

  4. Python爬虫教程-22-lxml-etree和xpath配合使用

    Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器 官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...

  5. 爬虫解析库:XPath

    XPath     XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的 ...

  6. 爬虫之 BeautifulSoup与Xpath

    知识预览 BeautifulSoup xpath BeautifulSoup 一 简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: '' ...

  7. Python爬虫之lxml-etree和xpath的结合使用

    本篇文章给大家介绍的是Python爬虫之lxml-etree和xpath的结合使用(附案例),内容很详细,希望可以帮助到大家. lxml:python的HTML / XML的解析器 官网文档:http ...

  8. lxml etree的一个问题

    <div> <a href="xxxx">123</a> <a href="xxxx">45</a> ...

  9. 【译】:lxml.etree官方文档

    本文翻译自:http://lxml.de/tutorial.html, 作者:Stefan Behnel 这是一个关于使用lxml.etree进行XML处理的教程.它简要介绍了ElementTree ...

随机推荐

  1. 01Trie树 CF923C Perfect Security

    CF923C Perfect Security 上下各n个数,求一种排列p,使上面的数i异或pi成为新的数i,求方案另字典序最小,输出该结果 01Trie树. 记录每个节点经过多少次. 每一次查询的时 ...

  2. Machine learning 吴恩达第二周coding作业(必做题)

    1.warmUpExercise: function A = warmUpExercise() %WARMUPEXERCISE Example function in octave % A = WAR ...

  3. 海思hi35xx 开发学习(3):视频输入

    视频输入(VI)模块实现的功能:通过 MIPI Rx(含 MIPI 接口.LVDS 接口和 HISPI 接口),SLVS-EC,BT.1120,BT.656,BT.601,DC 等接口接收视频数据.V ...

  4. selenium(python)用HTMLTestRunner导出报告(断言)信息的显示

    导出报告如图所示,没有显示相关信息 修改HTMLTestRunner.py文件的763-768行,注释掉if else,保留else 的uo = o 再次运行可看到信息(测试用例中的print信息也会 ...

  5. python正则表达式记录

    元字符: *  星号   它指定前一个字符可以被匹配零次或更多次 >>> re.match('a[bcd]*b', 'abcbdabcd').group() 'abcb' >& ...

  6. alpha-beta搜索算法

    alpha-beta搜索(min-max搜索): 简称mfs,用来解决双方最优决策博弈问题. 核心思想:在搜索树中,下一层越小,对当前层越有利,由于取max,一旦下一层出现了比其他孩子结果更大的值,那 ...

  7. CAN2.0A帧格式 与 LIN帧格式 简单说明

    一.标准的2.0A帧格式 各字段解释:SOF帧开始标志比特是一个显性比特(0),由一个或多个准备发送帧的节点传输.SOF标志着帧的开始(或仲裁发送帧的权利),并用于“硬同步”总线上的设备.只有在开始发 ...

  8. NEXIQ 125032 USB Link Diesel Truck Diagnose Interface Introduction

    What are the features of nexiq usb link? 1.Compatible with applications that diagnose engines, trans ...

  9. [前后端分离项目]thinkphp返回给前端数据为字符串

    写在前面:现在项目大多是采用前后端分离的模式进行开发,这种模式下的开发大大的提高了工作效率,而进行前后端数据交互传输的格式基本以json为主,毕业设计中兼顾前端开发和后端开发(后端小白一个),前端业务 ...

  10. js验证码有效时间倒计时

    js验证码有效时间倒计时 <!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type& ...