爬虫 xpath 获取方式

回顾 bs4

实例化bs对象,将页面源码数据加载到该对象中
定位标签:find('name',class_='xxx') findall() select()
将标签中的文本内容获取 string text get_text() a['href']

xpath

环境安装: pip install lxml

原理解析:

获取页面的源码数据

实例化etree对象,并将页面源码数据加载到该对象中

调用该对象xpath方法进行指定标签的定位

注意:xpath必须结合者xpath的表达式进行标签定位和内容捕获

/html/head/title
//head/title
//title

通过xpath进行获取数据

#项目需求：解析58二手房的相关数据

import requests

from lxml import etree

url = 'https://bj.58.com/shahe/ershoufang/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.BDPCPZ_BT&PGTID=0d30000c-0047-e4e6-f587-683307ca570e&ClickID=1'

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'

}

page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)

li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')

fp = open('58.csv','w',encoding='utf-8')

for li in li_list:

    title = li.xpath('./div[2]/h2/a/text()')[0]

    price = li.xpath('./div[3]//text()')

    price = ''.join(price)

    fp.write(title+":"+price+'\n')

fp.close()

print('over')

#调用xpath 返回的是一个列表结构,使用索引

利用xpath处理中文乱码

# ctrl+shift+x

# - 解析图片数据：http://pic.netbian.com/4kmeinv/

import requests

from lxml import etree

import os

import urllib

url = 'http://pic.netbian.com/4kmeinv/'

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'

}

response = requests.get(url=url,headers=headers)

#response.encoding = 'utf-8'

if not os.path.exists('./imgs'):

    os.mkdir('./imgs')

page_text = response.text

tree = etree.HTML(page_text)

li_list = tree.xpath('//div[@class="slist"]/ul/li')

for li in li_list:

    img_name = li.xpath('./a/b/text()')[0]

    #处理中文乱码

    img_name = img_name.encode('iso-8859-1').decode('gbk')

    img_url = 'http://pic.netbian.com'+li.xpath('./a/img/@src')[0]

    img_path = './imgs/'+img_name+'.jpg'

    urllib.request.urlretrieve(url=img_url,filename=img_path)

    print(img_path,'下载成功!')

print('over!!!')

#通过encode('iso-8859-1').decode('gbk')编译
#或使用response.encoding = 'utf-8'

xpath在遇到加密base64时解决加密a标签

#【重点】下载煎蛋网中的图片数据：http://jandan.net/ooxx

#数据加密  (反爬机制)

import requests

from lxml import etree

import base64

import urllib

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'

}

url = 'http://jandan.net/ooxx'

page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)

img_hash_list = tree.xpath('//span[@class="img-hash"]/text()')

for img_hash in img_hash_list:

    img_url = 'http:'+base64.b64decode(img_hash).decode()

    img_name = img_url.split('/')[-1]

    urllib.request.urlretrieve(url=img_url,filename=img_name)

xpath获取两次a标签进行获取及分页判断

#爬取站长素材中的简历模板

import requests

import random

from lxml import etree

headers = {

    'Connection':'close', #当请求成功后,马上断开该次请求(及时释放请求池中的资源)

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'

}

url = 'http://sc.chinaz.com/jianli/free_%d.html'

for page in range(1,4):

    if page == 1:

        new_url = 'http://sc.chinaz.com/jianli/free.html'

    else:

        new_url = format(url%page)

    response = requests.get(url=new_url,headers=headers)

    response.encoding = 'utf-8'

    page_text = response.text

    tree = etree.HTML(page_text)

    div_list = tree.xpath('//div[@id="container"]/div')

    for div in div_list:

        detail_url = div.xpath('./a/@href')[0]

        name = div.xpath('./a/img/@alt')[0]

        detail_page = requests.get(url=detail_url,headers=headers).text

        tree = etree.HTML(detail_page)

        download_list  = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')

        download_url = random.choice(download_list)

        data = requests.get(url=download_url,headers=headers).content

        fileName = name+'.rar'

        with open(fileName,'wb') as fp:

            fp.write(data)

            print(fileName,'下载成功')

            //*[@id="down"]/div[2]/ul/li[6]/a

xpath 利用 | 实现并集获取数据

#解析所有的城市名称

import requests

from lxml import etree

headers = {

    'Connection':'close', #当请求成功后,马上断开该次请求(及时释放请求池中的资源)

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'

}

url = 'https://www.aqistudy.cn/historydata/'

page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)

li_list = tree.xpath('//div[@class="bottom"]/ul/li |  //div[@class="bottom"]/ul/div[2]/li')

for li in li_list:

    city_name = li.xpath('./a/text()')[0]

    print(city_name)

proxies 代理设置

#设置请求的代理ip: www.goubanjia.com  快代理  西祠代理

#代理ip的类型必须和请求url的协议头保持一致

url = 'https://www.baidu.com/s?wd=ip'

page_text = requests.get(url=url,headers=headers,proxies={'https':'61.7.170.240:8080'}).text

with open('./ip.html','w',encoding='utf-8') as fp:

    fp.write(page_text)

防卫机制:
robots

数据加密

懒加载

代理ip

爬虫 xpath 获取方式的更多相关文章

Scrapy：运行爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...
放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...
Appium根据xpath获取控件
如文章< Appium基于安卓的各种FindElement的控件定位方法实践>所述,Appium拥有众多获取控件的方法.其中一种就是根据控件所在页面的XPATH来定位控件. 本文就是尝试通 ...
Appium依据xpath获取控件实例随笔
如文章<Appium基于安卓的各种FindElement的控件定位方法实践>所述,Appium拥有众多获取控件的方法.当中一种就是依据控件所在页面的XPATH来定位控件. 本文就是尝试通过 ...
【转】Appium根据xpath获取控件实例随笔
原文地址:http://blog.csdn.net/zhubaitian/article/details/39754233 如文章<Appium基于安卓的各种FindElement的控件定位方法 ...
Appium根据xpath获取控件实例随笔
如文章<Appium基于安卓的各种FindElement的控件定位方法实践>所述,Appium拥有众多获取控件的方法.其中一种就是根据控件所在页面的XPATH来定位控件. 本文就是尝试通过 ...
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接
使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...
爬虫，获取登录者的外网IP
笔者学习了一下用爬虫, 获取登录者的外网IP. 首先导入Jsoup的jar包 public class RetrivePage { private static String url="ht ...
[转]Android SHA1与Package获取方式
转自高德地图LBS Android SHA1与Package获取方式获取应用包名打开Android 应用工程的 AndroidManifest.xml配置文件,package 属性所对应的内容为应 ...

随机推荐

Linux查看文件系统的挂载时间浅析
我们在Linux系统中如何找到文件系统的挂载时间呢,下面实验测试环境为RHEL 6.6,其它Linux版本没有验证测试.这个简单测试了一下常用的ext3/4.xfs.nfs文件系统. ext文件系统 ...
微信小程序API交互反馈,wx.showToast显示消息提示框
导读:wx.showToast(OBJECT) 显示消息提示框. OBJECT参数说明: 参数类型必填说明最低版本 title String 是提示的内容 icon String 否图标, ...
python之海龟绘图
1. 基本功能介绍在海龟作图中,我们可以编写指令让一个虚拟的(想象中的)海龟在屏幕上来回移动.这个海龟带着一只钢笔,我们可以让海龟无论移动到哪都使用这只钢笔来绘制线条.通过编写代码,以各种很酷的模式 ...
洛谷 P3373 【模板】线段树 2
洛谷 P3373 [模板]线段树 2 洛谷传送门题目描述如题,已知一个数列,你需要进行下面三种操作: 将某区间每一个数乘上 xx 将某区间每一个数加上 xx 求出某区间每一个数的和输入格式第一 ...
C语言中，字符型数字与常数型数字的加减实现
char in-str[10],out-str[10]; for(int i=0;i<10;i++) { out-str[i]=9-(in-str[i]-'0')+'0'; }
java启动参数
java命令启动应用所使用的参数,基本是用于JVM的,某种程度上也叫做JVM参数.总的来说,java启动参数共分为三大类,分别是: 标准参数(-):相对稳定的参数,每个版本的JVM都可用. 非标准X参 ...
使用csv模块读写csv格式文件
import csv class HandleCsv: ''' csv文件处理类 ''' def __init__(self, filename): ''' 构造器 :param filename: ...
netty ByteBuf与String相互转换
String转为ByteBuf 1)使用String.getBytes(Charset),将String转为byte[]类型 2)使用Unpooled.wrappedBuffer(byte[]),将b ...
爬取bilibili首页菜单获取li内容
代码: import requests from bs4 import BeautifulSoup def html_save(s): with open('哔哩哔哩.csv','a')as f: f ...
MySQL（10）---自定义函数
MySQL(10)---自定义函数之前讲过存储过程,存储过程和自定义函数还是非常相似的,其它的可以认为和存储过程是一样的,比如含义,优点都可以按存储过程的优点来理解. 存储过程相关博客: 1.MyS ...

爬虫 xpath 获取方式

xpath

爬虫 xpath 获取方式的更多相关文章

随机推荐

热门专题