前言

上一篇文章中爬取了爬虫练习平台的所有 ssr 网站,都是比较简单的,没有反爬措施,这次来爬一下后面的 spa 系列。

环境准备

这里沿用了上篇文章的环境和设置,就不重新搭建环境了。

开始爬取

spa1

spa1 说明如下:

电影数据网站,无反爬,数据通过 Ajax 加载,页面动态渲染,适合 Ajax 分析和动态页面渲染爬取。

还是无反爬,Ajax 加载数据,那么最简单的方法就是打开 Chrome 控制台, 找 xhr 请求。

 
image

一共有两个请求,第一个请求经过了 301 重定向,所以实际接收到数据的是第二个请求。

 
image

查看数据,基本数据都有了,但是没有作者信息,随便点击一个电影,查看详细信息,查找接口。

 
image
 
image

通过 id 和另一个 API 接口获取详细信息,可以找到作者,OK,开始写代码。

其他代码和之前从 HTML 中解析数据的逻辑一致,只是在解析方法上不一样。

class SPA1Spider(scrapy.Spider):
name = "spa1" def start_requests(self):
urls = [
f'https://spa1.scrape.center/api/movie/?limit=10&offset={a}' for a in range(0, 100, 10)
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse) def parse(self, response, **kwargs):
result = response.json()
for a in result['results']:
item = SPA1Item()
item['title'] = a['name'] + a['alias']
item['fraction'] = a['score']
item['country'] = '、'.join(a['regions'])
item['time'] = a['minute']
item['date'] = a['published_at']
yield Request(url=response.urljoin(f'/api/movie/{a["id"]}/'), callback=self.parse_person,
meta={'item': item}) def parse_person(self, response):
result = response.json()
item = response.meta['item']
item['director'] = result['directors'][0]['name']
yield item

因为是通过 API 接口进行遍历的,所以使用总的页数进行循环就可以得到所有的起始 URL。

然后通过读取 JSON 格式的响应,依次循环获取数据,然后进入到详情页获取作者信息,最后返回数据。

完整代码详见https://github.com/libra146/learnscrapy/tree/spa1

spa2

spa2 说明如下:

电影数据网站,无反爬,数据通过 Ajax 加载,数据接口参数加密且有时间限制,适合动态页面渲染爬取或 JavaScript 逆向分析。

和 spa1 相比多了一个数据接口参数加密,先打开控制台看一下多了什么参数。

 
image

接口没有变,只是多了一个 token 参数,接下来来寻找一下这个 token 是怎么生成的。

既然是网络请求,而且 URL 中包含 token,那么分析 token 来源就要从 URL 断点入手。

 
image

下断点,凡是包含 token 字符串的 URL 全部会断下,刷新页面,断点断下,格式化 js 代码,可以看到断下的位置为 send 函数,用来发送请求。

 
image
 
image

按照右侧调用栈依次往下看,发现在 onFetchData 函数附近发现了 token 参数,取消 URL 断点,在 token 的生成位置下断点。重新刷新页面,断点断下。

 
image

选中断下的这行代码,看下 e 的值正好就是 token,单步进入代码查看具体执行了什么。

 
image

看不到具体的信息,应该是在执行 Object(i["a"]),步出,继续单步跟。

 
image

前边的 Object(i["a"]) 执行后应该是一个函数,传入的参数是当前的 URL,单步进入。

 
image

进入到了新的代码块,这次可以看到 sha1 函数和 base64 函数,应该是加密函数所在位置了,单步走一下看都用到了什么信息。

 
image
 
image

首先获取了当前的时间戳信息,然后从 arguments 中获取传入的 URL 参数。

 
image

循环完之后将当前的 URL 和时间戳都压入 r 这个数组中。

 
image
 
image

将数组使用逗号连接起来,计算 sha1 值。

 
image
 
image

将计算结果和时间戳再次使用逗号连接起来,然后通过 base64 编码得到 token。

别急,还没完,获取首页信息的 token 算法已经有了,但是获取详细信息的页面 URL 是这样的:

 
image

token 应该和上一个请求是一样的,但是红框中这一段信息上个请求没有返回,那么只可能是本地生成的,我解码看了下,结果是:ef34#teuq0btua#(-57w1q5o5--j@98xygimlyfxs*-!i-0-mb1 一堆看起来像乱码的东西,还得分析它是怎么来的,既然都用到了 token,那么它在计算完前边这段信息之后肯定会去计算 token 的,所以继续下 token 断点然后往前找就可以了,话不多说继续下断点。

 
image
 
image

仍然是断在了 send 函数上,继续寻找熟悉的 onFetchData 函数,熟悉的 token,取消 URL 断点,在 token 生成这一行下断点,刷新页面。

 
image

可以看到在计算 token 时 URL 已经被计算好了,然后网上看,正好 URL 的值来自于 e 这个变量,e 的值来自于 o 这个函数,OK,重新下断点,刷新页面。

 
image
 
image
 
image

断下,但是看样子 o 函数只是格式化了 key 参数,key 是在之前就计算好了,这里并没有计算 key 的流程,看了下其他的调用栈,应该是 vue 被混淆之后的样子,太乱了,此路不通,换条路走。

既然 key 是提前计算好的,那么全局搜索 key,看看是在哪个函数中给 key 赋值的。

 
image

一共 9 个匹配,挨个找也不多,其他的都排除掉了,找到了这个,熟悉的 router-link(这不是 vue 中生成 a 标签方法嘛),熟悉的 detail(URL 中包含这个字符串),熟悉的 key,应该是它没错了,下断点,刷新页面。

 
image

传入了当前电影的 id 值,因为我点击的是第一个电影,所以它的 id 是 1,单步步入。

 
image

加密方式一目了然,这串乱码竟然是硬编码进去的,哈哈,很坑有木有。所以加密方式就是这串硬编码的字符串加上电影的 id 然后使用 base64 编码即可。

好了, 两个加密方法都分析好了,可以写代码了,完整代码如下:

class SPA2Spider(scrapy.Spider):
name = "spa2" @staticmethod
def sign(url):
t = str(int(time.time()) - random.randint(1, 20))
s = ','.join([url, t])
return base64.b64encode(','.join([sha1(s.encode()).hexdigest(), t]).encode()).decode() def start_requests(self):
urls = [
f'http://spa2.scrape.center/api/movie/?limit=10&offset={a}&token={self.sign("/api/movie")}' for a in
range(0, 100, 10)
]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse) def parse(self, response, **kwargs):
result = response.json()
for a in result['results']:
item = SPA2Item()
item['title'] = a['name'] + a['alias']
item['fraction'] = a['score']
item['country'] = '、'.join(a['regions'])
item['time'] = a['minute']
item['date'] = a['published_at']
s = 'ef34#teuq0btua#(-57w1q5o5--j@98xygimlyfxs*-!i-0-mb'
detail = base64.b64encode((s + str(a["id"])).encode()).decode()
yield Request(url=response.urljoin(f'/api/movie/{detail}/?token={self.sign("/api/movie/" + detail)}'),
callback=self.parse_person,
meta={'item': item}) def parse_person(self, response):
result = response.json()
item = response.meta['item']
item['director'] = result['directors'][0]['name']
yield item

为了防止爬取时时间戳都是一样的,加了一点的随机偏移。

完整代码详见https://github.com/libra146/learnscrapy/tree/spa2

spa3

spa3 说明如下:

电影数据网站,无反爬,数据通过 Ajax 加载,无页码翻页,下拉至底部刷新,适合 Ajax 分析和动态页面渲染爬取。

无加密,无反爬,但是也没有页码,也就是说不能直接构造好所有的起始 URL,要在爬取的过程中去计算,代码如下:

class SPA3Spider(scrapy.Spider):
name = "spa3"
offset = 0
url = 'https://spa3.scrape.center/api/movie/?limit=10&offset=%s' def start_requests(self):
urls = [self.url % self.offset]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse) def parse(self, response, **kwargs):
result = response.json()
for a in result['results']:
item = SPA3Item()
item['title'] = a['name'] + a['alias']
item['fraction'] = a['score']
item['country'] = '、'.join(a['regions'])
item['time'] = a['minute']
item['date'] = a['published_at']
yield Request(url=response.urljoin(f'/api/movie/{a["id"]}/'), callback=self.parse_person,
meta={'item': item})
if self.offset < result['count']:
# 因为每次请求限制10条数据,所以每次将偏移量+10
self.offset += 10
yield Request(url=self.url % self.offset, callback=self.parse) def parse_person(self, response):
result = response.json()
item = response.meta['item']
item['director'] = result['directors'][0]['name']
yield item

由于没有页码,所以起始 URL 的偏移只能从 0 开始,根据 limit 逐渐增大,停止条件就是偏移量大于响应中的 count 字段的值。其他的逻辑和 spa1 是一样的,不多说。

完整代码详见https://github.com/libra146/learnscrapy/tree/spa3

spa4

spa4 说明如下:

新闻网站索引,无反爬,数据通过 Ajax 加载,无页码翻页,适合 Ajax 分析和动态页面渲染抓取以及智能页面提取分析。

spa4 和 spa3 基本上的逻辑是一致的,只是爬取内容不一样。

class SPA4Spider(scrapy.Spider):
name = "spa4"
offset = 0
limit = 100
url = f'https://spa4.scrape.center/api/news/?limit={limit}&offset=%s' def start_requests(self):
urls = [self.url % self.offset]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse) def parse(self, response, **kwargs):
result = response.json()
print(response.url)
for a in result['results']:
item = SPA4Item()
item['code'] = a['code']
item['published_at'] = a['published_at']
item['title'] = a['title']
item['updated_at'] = a['updated_at']
item['url'] = a['url']
item['website'] = a['website']
# 新闻网址都是外部链接,抓取方式都不一样,就不抓取具体信息了
yield item
if int(result['count']) > self.offset:
self.offset += self.limit
yield Request(url=self.url % self.offset, callback=self.parse)

由于 spa4 数据量太大,这里为了学习就不全部爬取了,点到为止。

完整代码详见https://github.com/libra146/learnscrapy/tree/spa4

spa5

spa5 说明如下:

图书网站,无反爬,数据通过 Ajax 加载,有翻页,适合大批量动态页面渲染抓取。

图书网站,需要爬取的内容又不一样了,需要新建一个新的 item,其他的内容和上面的爬取方法是一致的。

class SPA5Spider(scrapy.Spider):
name = "spa5"
offset = 0
limit = 18
url = f'https://spa5.scrape.center/api/book/?limit={limit}&offset=%s' def start_requests(self):
urls = [self.url % self.offset]
for url in urls:
yield scrapy.Request(url=url, callback=self.parse) def parse(self, response, **kwargs):
result = response.json()
print(response.url)
for a in result['results']:
item = SPA5Item()
item['title'] = a['name']
item['author'] = '/'.join(a['authors'] or [])
yield Request(url=f'https://spa5.scrape.center/api/book/{a["id"]}/', callback=self.parse2,
meta={'item': item})
if int(result['count']) > self.offset:
self.offset += self.limit
yield Request(url=self.url % self.offset, callback=self.parse) def parse2(self, response):
item = response.meta['item']
result = response.json()
item['price'] = result['price'] or 0
item['time'] = result['published_at']
item['press'] = result['publisher']
item['page'] = result['page_number']
item['isbm'] = result['isbn']
yield item

先从基本数据中记录下 title 和 author,然后再进入到详细信息页面获取到书本的其他信息,最后存储到数据库。

完整代码详见https://github.com/libra146/learnscrapy/tree/spa5

spa6

spa6 说明如下:

电影数据网站,数据通过 Ajax 加载,数据接口参数加密且有时间限制,源码经过混淆,适合 JavaScript 逆向分析。

经过分析及测试,sp6 和 spa2 貌似是一样的接口,直接使用 spa2 的代码就可以获取到数据,所以就不重复写了。

scrapy学习之爬虫练习平台35的更多相关文章

  1. scrapy学习之爬虫练习平台22

    前言 上一篇文章中爬取了爬虫练习平台的所有 ssr 网站,都是比较简单的,没有反爬措施,这次来爬一下后面的 spa 系列. 环境准备 这里沿用了上篇文章的环境和设置,就不重新搭建环境了. 开始爬取 s ...

  2. python爬虫之Scrapy学习

    在爬虫的路上,学习scrapy是一个必不可少的环节.也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习.开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框架,上来不知从何学 ...

  3. 爬虫管理平台以及wordpress本地搭建

    爬虫管理平台以及wordpress本地搭建 学习目标: 各爬虫管理平台了解 scrapydweb gerapy crawlab 各爬虫管理平台的本地搭建 Windows下的wordpress搭建 爬虫 ...

  4. 转载一个不错的Scrapy学习博客笔记

    背景: 最近在学习网络爬虫Scrapy,官网是 http://scrapy.org 官方描述:Scrapy is a fast high-level screen scraping and web c ...

  5. 【Python】【爬虫】如何学习Python爬虫?

    如何学习Python爬虫[入门篇]? 路人甲 1 年前 想写这么一篇文章,但是知乎社区爬虫大神很多,光是整理他们的答案就够我这篇文章的内容了.对于我个人来说我更喜欢那种非常实用的教程,这种教程对于想直 ...

  6. Scrapy:学习笔记(2)——Scrapy项目

    Scrapy:学习笔记(2)——Scrapy项目 1.创建项目 创建一个Scrapy项目,并将其命名为“demo” scrapy startproject demo cd demo 稍等片刻后,Scr ...

  7. scrapy 学习笔记1

    最近一段时间开始研究爬虫,后续陆续更新学习笔记 爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架( ...

  8. Qt 学习之路 2(35):文件

    Qt 学习之路 2(35):文件 豆子 2013年1月5日 Qt 学习之路 2 12条评论 文件操作是应用程序必不可少的部分.Qt 作为一个通用开发库,提供了跨平台的文件操作能力.从本章开始,我们来了 ...

  9. Python学习网络爬虫--转

    原文地址:https://github.com/lining0806/PythonSpiderNotes Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 另外,比较常用的爬虫框架Scra ...

随机推荐

  1. 微信小程序项目wx-store代码详解

    这篇文章会很长,非常长,特别长,无敌长. 真的是挤牙膏般的项目进度,差不多是8月底有开始这个项目的想法,时至今日都1个多月了,抛去频繁的加班时间,王者时间,羽毛球时间...见缝插针的写这个项目,我竟然 ...

  2. Java爬取同花顺股票数据(附源码)

    最近有小伙伴问我能不能抓取同花顺的数据,最近股票行情还不错,想把数据抓下来自己分析分析.我大A股,大家都知道的,一个概念火了,相应的股票就都大涨. 如果能及时获取股票涨跌信息,那就能在刚开始火起来的时 ...

  3. C#文件反序列化

    前言 最近,为了实现Unity游戏数据的加密,我都把注意力放到了C#的加密方式身上,最简单的莫过于C#的序列化了,废话不多说,直接开始 准备工作 在使用文件反序列化前我们得先引用命名空间 using ...

  4. 使用PL/SQL Developer 学习pl/sql

    1.创建表并且插入一些数据 (这里表名为test): 2. New 一个SQL Window敲下如下代码(--为注释部分): declare   --declare:用于plsql中的声明变量,和be ...

  5. SpringMVC中ModelAndView的两个jar包引起的思考servlet和portlet

    在使用ModelAndView时,需要去导包,但是有两个包. 检查前台form表单提交的也正确,后台这也没有问题. 后来发现竟然时导包导错误了. 到此,如果是因为到错包问题,应该就解决了. 但是,深入 ...

  6. 【总结】jvm

    一.jvm体系结构 1.jvm整体结构 jvm总体上是由类装载子系统(ClassLoader).运行时数据区.执行引擎三个部分组成. (jvm本质上就是一个java进程) 2.jvm生命周期 (1)j ...

  7. Java学习的第三十九天

    1.例3.7 100~200之间全部素数 package bgio; public class cjava { public static void main(String[]args) { int ...

  8. 初始化vue项目

    1.创建vue项目命令 vue init webpack deaxios # 使用脚手架创建项目 deaxios(项目名,随便取得) cd deaxios # 进入项目 npm install axi ...

  9. Linux 系统编程 学习:11-线程:线程同步

    Linux 系统编程 学习:11-线程:线程同步 背景 上一讲 我们介绍了线程的属性 有关设置.这一讲我们来看线程之间是如何同步的. 额外安装有关的man手册: sudo apt-get instal ...

  10. typeerror object of type ‘decimal‘ is not json serializable jsonify

    当使用flask的jsonify返回json数据时,由于数据库有些字段类型使用decimal,而jsonify无法处理 解决方案 导入下面的包即可解决 pip install simplejson