爬虫--XPATH解析

今天说一下关于爬取数据解析的方式---->XPATH,XPATH是解析方式中最重要的一种方式

1.安装：pip install lxml

2.原理

　　1. 获取页面源码数据

　　2.实例化一个etree的对象，并且将页面源码数据加载到该对象中

　　3.调用该对象的xpath方法进行指定标签的定位

　　4.注意：xpath函数必须结合着xpath表达式进行标签定位和内容捕获

说了也不明白，直接上例子！！！！

1.解析58二手房的相关数据

#引用requests

import requests

#引用lxml

from lxml import etree

#地址

url = 'https://bj.58.com/ershoufang/sub/l16/s2242/?utm_source=market&spm=u-2d2yxv86y3v43nkddh1.bdpcpz_bt&PGTID=0d30000c-0000-1139-b00c-643d0d315a04&ClickID=1'

#伪装的请求头，证明我是浏览器

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

#获取当前整个页面

page_text = requests.get(url,headers=headers).text

#作用于当前页面之后再解析数据

tree = etree.HTML(page_text)

#//ul[@class="house-list-wrap"]/li这就是lxml解析，//代表前面的层次

li_list = tree.xpath('//ul[@class="house-list-wrap"]/li')

# print(li_list)#得到每一个<Element li at 0x202a8c62288>这玩意

#再次循环

for li in li_list:

#再次解析得到准确的数据！！！

    title = li.xpath('./div[2]/h2[1]/a/text()')[0]

    print(title)

2.福利福利！！！！下载彼岸图网中的图片数据

import os

import requests

from lxml import etree

#这里注意，这是python3中的写法！！！

import urllib.request

url = 'http://pic.netbian.com/4kmeinv/'

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

#二话不说直接发情再说

response = requests.get(url,headers=headers)

#如果当前根目录下没有imgs文件夹，就创建！！！

if not os.path.exists('./imgs'):

    os.mkdir('./imgs')

#得到请求数据

page_text = response.text

#作用当前页面

tree = etree.HTML(page_text)

#lxml解析

li_list = tree.xpath('//div[@class="slist"]/ul/li')

#循环得到准确的数据

for li in li_list:

    img_name = li.xpath('./a/b/text()')[0]

    # 处理中文乱码！不要理解记住就ok

    img_name = img_name.encode('ISO-8859-1').decode('gbk')

    #拼接完整的地址

    img_url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0]

    #图片的名字

    img_path = './imgs/' + img_name + '.jpg'

    #这里避免打开文件就用urllib直接写入

    urllib.request.urlretrieve(url=img_url,filename=img_path)

3.解析所有城市名称（https://www.aqistudy.cn/historydata/）

import requests

from lxml import etree

url = 'https://www.aqistudy.cn/historydata/'

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

res = requests.get(url=url, headers=headers).text

tree = etree.HTML(res)

city_list = tree.xpath('//div[@class="bottom"]/ul/li/a/text() | //div[@class="bottom"]/ul/div[2]/li/a/text()')        # 逻辑运算符，这里 | 表示或的关系

city = ''.join(city_list)

4.煎蛋网的爬去图片

# 煎蛋网图片

import requests

from lxml import etree

#base对于加魔数据进行解密

import base64

import os

import urllib.request

if not os.path.exists('./jiandan'):

    os.mkdir('./jiandan')

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

url = 'http://jandan.net/ooxx'

res1 = requests.get(url, headers=headers).text

tree = etree.HTML(res1)

span_list = tree.xpath('//span[@class="img-hash"]/text()')

for span_hash in span_list:

    #对于加密数据进行解密，编码是utf-8并且拼接完整的url

    img_url = 'http:' + base64.b64decode(span_hash).decode('utf8')

    #得到具体的数据

    img_data = requests.get(url=img_url, headers=headers).content

    filepath = './jiandan/' + img_url.split('/')[-1]

    urllib.request.urlretrieve(url=img_url, filename=filepath)

    print(filepath, '下载完成！')

print('over')

5.爬去简历模板

import requests

from lxml import etree

import random

import os

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

if not os.path.exists('./jianli'):

    os.mkdir('./jianli')

#爬去前4页的数据

for i in range(1, 4):

    if i == 1:

        #第一页数据

        url = 'http://sc.chinaz.com/jianli/free.html'

    else:

        #不是第一页的数据，进行数据的拼接

        url = 'http://sc.chinaz.com/jianli/free_%s.html' % (i)

    response = requests.get(url=url, headers=headers)

    #字符编码改一下,否则出现这种问题：æ±èçµåçç®ååè´¹ä¸è½½ 下载完成！

    response.encoding = 'utf8'

    res = response.text

    tree = etree.HTML(res)

    a_list = tree.xpath('//a[@class="title_wl"]')

    for a in a_list:

        name = a.xpath('./text()')[0]

        jl_url = a.xpath('./@href')[0]

        response = requests.get(url=jl_url, headers=headers)

        response.encoding = 'utf8'

        res1 = response.text

        tree = etree.HTML(res1)

        download_url_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href')

        download_url = random.choice(download_url_list)

        res3 = requests.get(url=download_url, headers=headers).content

        filepath = './jianli/' + name + '.rar'

        #如果上边是content，写入的时候记得’wb'

        with open(filepath, 'wb') as f:

            f.write(res3)

        print(name, '下载完成！')

print('over')

6.站长直接图片下载，图片懒加载

import requests

from lxml import etree

import os

import urllib

import urllib.request

if not os.path.exists('./tupian'):

    os.mkdir('./tupian')

url = 'http://sc.chinaz.com/tupian/'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

response = requests.get(url=url, headers=headers)

response.encoding = 'utf8'

res = response.text

tree = etree.HTML(res)

url_list = tree.xpath('//div[@id="container"]/div/div/a/img/@src2')  # img标签是伪属性src2，当图片滚动到视野内时变为 src

for url in url_list:

    filepath = './tupian/' + url.rsplit('/', 1)[-1]

    urllib.request.urlretrieve(url, filepath)

    print(filepath, '下载完成！')

print('over')

爬虫--XPATH解析的更多相关文章

【XPath Helper：chrome爬虫网页解析工具 Chrome插件】XPath Helper：chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插件网
[XPath Helper:chrome爬虫网页解析工具 Chrome插件]XPath Helper:chrome爬虫网页解析工具 Chrome插件下载_教程_安装 - 开发者插件 - Chrome插 ...
爬虫系列二(数据清洗--->xpath解析数据)
一 xpath介绍 XPath 是一门在 XML 文档中查找信息的语言.XPath 用于在 XML 文档中通过元素和属性进行导航. XPath 使用路径表达式在 XML 文档中进行导航 XPath 包 ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
爬虫——网页解析利器--re & xpath
正则解析模块re re模块使用流程方法一 r_list=re.findall('正则表达式',html,re.S) 方法二创建正则编译对象 pattern = re.compile('正则表达式 ...
python爬虫三大解析库之XPath解析库通俗易懂详讲
目录使用XPath解析库 @(这里写自定义目录标题) 使用XPath解析库 1.简介 XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言. ...
python爬虫使用xpath解析页面和提取数据
XPath解析页面和提取数据一.简介关注公众号"轻松学编程"了解更多. XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言.X ...
爬虫-数据解析-xpath
xpath 解析模块安装 : pip install lxml xpath的解析原理实例化一个etree类型的对象,且将页面源码数据加载到该对象中需要调用该对象的xpath方法结合着不同形式的x ...
爬虫——xpath
1.什么是xpath? Xpath,全称XML Path Language,即XML路径语言.它是一门在XML之后查找信息的语言,也同样适用于HTML文档的搜索.在做爬虫的时候,我们用XPath语言来 ...
Scrapy基础(六)————Scrapy爬取伯乐在线一通过css和xpath解析文章字段
上次我们介绍了scrapy的安装和加入debug的main文件,这次重要介绍创建的爬虫的基本爬取有用信息通过命令(这篇博文)创建了jobbole这个爬虫,并且生成了jobbole.py这个文件,又写 ...

随机推荐

【转载】SQL注入攻防入门详解
滴答…滴答…的雨,欢迎大家光临我的博客. 学习是快乐的,教育是枯燥的. 博客园首页博问闪存联系订阅管理随笔-58 评论-2028 文章-5 trackbacks-0 站长 ...
金牌选手zzy的卡常头文件
一定要粘上去啊,亲测快两倍 #pragma GCC diagnostic error "-std=c++11" #pragma GCC optimize("-fdelet ...
Android-bindService远程服务(Aidl)-初步
之前上一篇讲解到本地服务,本地服务只能在自身APP中Activity访问Service,调用Service里面到方法等操作如果想A应用访问B应用里面的方法,属于跨进程调用,如果Android不特供这 ...
'System.ValueTuple, Version=0.0.0.0 required for Add-Migration on .NET 4.6.1 Class Library
https://stackoverflow.com/questions/45978173/system-valuetuple-version-0-0-0-0-required-for-add-migr ...
oracle 触发器序列号自增
步骤:1.创建表 table 2.创建序列 SEQUENCE 3.创建触发器截图实例:
unity面试准备
最近有换工作的打算所以上网看下面试题自己做下总结 Q:ArrayList 和 List区别 A: 1:List大家都知道初始化的时候需要定义其类型,例如 List<int> listT ...
ML.NET Cookbook --- 1.如何从文本文件中加载数据？
使用ML.NET中的TextLoader扩展方法从文本文件中加载数据.你需要知道在文本文件中数据列在那里,它们的类型是什么,在文本文件中什么位置可以找到它们. 请注意:对于ML.NET只读取文件的某些 ...
nexus3
Maven 介绍 Apache Maven 是一个创新的软件项目管理和综合工具. Maven 提供了一个基于项目对象模型(POM)文件的新概念来管理项目的构建,可以从一个中心资料片管理项目构建,报告和 ...
如何为 smartraiden 贡献代码
如何为 smartRaiden 贡献代码 1.Fork 项目登录 github 账号,并访问https://github.com/SmartMeshFoundation/SmartRaiden,然后 ...
SDOI2013 淘金
题目链接:戳我昨天做的题了,今天补一发题解. 是一个比较奇怪的数位DP.详细的我还是写代码注释里好了,感觉直接说不好描述. 代码如下: #include<iostream> #inclu ...

爬虫--XPATH解析

爬虫--XPATH解析的更多相关文章

随机推荐

热门专题