爬虫之lxml - etree - xpath的使用

# 解析原理:

# - 获取页面源码数据

# - 实例化一个etree对象,并且将页面源码数据加载到该对象中

# - 调用该对象的xpath方法进行指定标签定位

# - xpath函数必须结合着xpath表达式进行标签定位和内容捕获

# xpath表达式:

# - 属性定位: //div[@class="song"] 找到class属性值为song的div 返回一个列表

# - 索引层级定位: //div[@class="tang"]/ul/li[2]/a

# - 逻辑运算: //a[@href="" and @class="du"] 并且

# - 模糊匹配: //div[contains(@class, 'ng')] class包含 ng 的div

#            //div[startwith(@class, 'ta')] class以 ta 开头的div

# - 取文本: //div[@class="song"]/p[1]/text() div下的文本内容

#          //div[@class="tang"]//text() div下以及字标签下的文本内容 返回列表

# - 取属性: // div[@class="tang"]//a[1]/@href

下面上几个小案例:

import requests

from lxml import etree

url = 'https://bj.58.com/ershoufang/?utm_source=sem-sales-baidu-pc&spm=85077276202.21974091622&utm_campaign=sell&utm_medium=cpc&showpjs=pc_fg'

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

page_text = requests.get(url=url, headers=headers).text

tree = etree.HTML(page_text)

li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') # 返回的是Element对象

fp = open('58.csv', 'w', encoding='utf8')

for li in li_list:

    title = li.xpath('./div[2]/h2/a/text()')[0] # 局部页面解析要加'.'

    price1 = li.xpath('./div[3]//text()')

    price = ''.join(price1)

    fp.write(title+":"+price+'\n')

fp.close()

print('over')

爬取 58二手房信息

xpath 解析图片资源

import requests

from lxml import etree

url = "http://pic.netbian.com/4kmeinv/"

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

page_text = requests.get(url=url, headers=headers).text

tree = etree.HTML(page_text)

# etree.parse(page_text) 解析本地文件推荐使用

li_list = tree.xpath('//div[@class="slist"]/ul/li')

for li in li_list:

    image_name = li.xpath('./a/b/text()')[0]

    image_name = image_name.encode('iso-8859-1').decode('gbk')

    image_url = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]

    image_path = './img/'+image_name+'.jpg'

    img = requests.get(image_url).content

    with open(image_path, 'wb') as f:

        f.write(img)

    print(image_path+'下载成功')

图片怎么爬取呢?

import requests

import base64

from lxml import etree

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

url = 'http://jandan.net/top'

response = requests.get(url=url, headers=headers)

page_text = response.text

tree = etree.HTML(page_text)

code_list = tree.xpath('//span[@class="img-hash"]/text()')

for img_code in code_list:

    img_url = 'http:'+base64.b64decode(img_code).decode()

    img_name = img_url.split('/')[-1]

    img_path = f'./jd_img/{img_name}'

    print(img_url)

    content = requests.get(img_url).content

    with open(img_path, 'wb') as f:

        f.write(content)

    print(img_name+'成功')

print('over')

有的时候我找不到我要的图片链接呀

上面是煎蛋网采用了js的方法对图片链接地址进行了base64的加密

# 简历模板爬取(ip禁用问题)

# 解决方法:

#       ip代理,

#       请求头中添加Connection字段:close

import requests

import random

from lxml import etree

url = 'http://sc.chinaz.com/jianli/free.html'

headers = {

          'Connection': 'close', # 每次请求成功之后,发马上断开连接(修改后有几率无法立即生效,出现Httppool...错误- 重新运行)

          'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

}

page_text = requests.get(url=url, headers=headers).text

tree = etree.HTML(page_text)

a_list = tree.xpath('//div[@id="container"]/div/a[1]')

for a in a_list:

    title = a.xpath('./img/@alt')[0].encode('iso-8859-1').decode('utf-8')

    detail_url = a.xpath('./@href')[0]

    detail_text = requests.get(url=detail_url, headers=headers).text

    d_tree = etree.HTML(detail_text)

    down_url_list = d_tree.xpath('//div[@class="down_wrap"]//li/a/@href')

    down_url = random.choice(down_url_list)

    data = requests.get(down_url,headers=headers).content

    with open(f'./简历模板/{title}.rar', 'wb') as f:

        f.write(data)

    print(title+'完成')

print('over')

站长之家模板资源爬取下载

爬虫之lxml - etree - xpath的使用的更多相关文章

lxml etree xpath
from lxml import etree #####################基本用法: ##################### html = ''' <h1 class=&quo ...
Python爬虫利器三之Xpath语法与lxml库的用法
前面我们介绍了 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法.如果大家对 Beau ...
python爬虫（8）--Xpath语法与lxml库
1.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath 可用来在 XML 文档中对元素和属性进行遍历.XPath 是 W3C XSLT 标准的主要元素,并且 XQuery ...
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-22-lxml-etree和xpath配合使用 lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/ 使用前,需要安装安 lxml 包 ...
爬虫解析库：XPath
XPath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的 ...
爬虫之 BeautifulSoup与Xpath
知识预览 BeautifulSoup xpath BeautifulSoup 一简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: '' ...
Python爬虫之lxml-etree和xpath的结合使用
本篇文章给大家介绍的是Python爬虫之lxml-etree和xpath的结合使用(附案例),内容很详细,希望可以帮助到大家. lxml:python的HTML / XML的解析器官网文档:http ...
lxml etree的一个问题
<div> <a href="xxxx">123</a> <a href="xxxx">45</a> ...
【译】：lxml.etree官方文档
本文翻译自:http://lxml.de/tutorial.html, 作者:Stefan Behnel 这是一个关于使用lxml.etree进行XML处理的教程.它简要介绍了ElementTree ...

随机推荐

Mac 更改/usr/bin 目录权限失败
对于Mac OS X 10.11 El Capitan用户,由于系统启用了SIP(System Integrity Protection), 导致root用户也没有权限修改/usr/bin目录.按如下 ...
关于window.open在不同浏览器的不同点
菜鸟教程: http://www.runoob.com/jsref/met-win-open.html 一.基本语法:window.open(URL,name,specs,replace)其中:URL ...
【Python】二进制转ASCII码小脚本
#coding:utf-8 #developed by carrypan! import binascii import optparse def main(): usage="%prog ...
Jmeter实例
我们在性能测试过程中,首先应该去设计测试场景,模拟真实业务发生的情境,然后针对这些场景去设计测试脚本.为了暴露出性能问题,要尽可能的去模拟被测对象可能存在瓶颈的测试场景. 我在本地部署了一个项目,可以 ...
oracle12c之一控制-PDB的磁盘I/O(IOPS,MBPS)资源管理
在以前的版本中,没有简单的方法来控制单个PDB使用的磁盘I / O量. 因此,某个PDB可能耗尽大量磁盘I / O,并影响同一实例中的其他PDB的性能. Oracle 12c R2可以控制PDB使用的 ...
flow类型检查
https://blog.csdn.net/tangxiujiang/article/details/80778627 Flow的简单介绍 2018年06月22日 21:54:25 tangxiuji ...
Delphi导出word
//导出Wordprocedure TFrm_Computing.ExportWord;varwordApp, WordDoc, WrdSelection, wrdtable, wrdtable1, ...
mysql优化和sql语句优化总结
mysql性能优化 1. EXPLAIN 你的 SELECT 查询.使用 EXPLAIN 关键字可以让你知道MySQL是如何处理你的SQL语句的.这可以帮你分析你的查询语句或是表结构的性能瓶颈. 2. ...
emacs窗口半透明
转自 http://blog.csdn.net/dsjlzh/article/details/7804733 ;; transform window;; Anchor: March Liu (刘鑫) ...
SSL评测
首先在这个网站上测试一下自己的服务器究竟处于什么水平 https://www.ssllabs.com/ssltest/

爬虫之lxml - etree - xpath的使用

爬虫之lxml - etree - xpath的使用的更多相关文章

随机推荐

热门专题