一个基于Scrapy框架的pixiv爬虫

源码 https://github.com/vicety/Pixiv-Crawler，功能什么的都在这里介绍了

说几个重要的部分吧

登录部分

困扰我最久的部分，网上找的其他pixiv爬虫的登录方式大多已经不再适用或者根本就没打算登录……

首先，登录时显然要提交FormData，一开始我请求的是 https://accounts.pixiv.net/login?lang=zh 这个页面

这个postkey可以发现和网页代码中的这个部分(下图)中是一样的，但是用这个postKey是登录不上去的，结果见下图

登录可以成功（收到异常登录邮件），但无论你访问什么页面，它都会无限重定向回这个页面，一开始以为是header填得不完整，可是怎么改都不对

后来发现request请求 http://www.pixiv.net 得到的页面中也有一个postKey（不太明白上一个postKey的含义，难道是特意骗我们一下……）

改用这个，成功登录，剩下应该不是什么问题了

日榜部分

对于日榜的获取（虽然还没有写进去）也值得提一下，日榜的展现是下拉到底端自动获取下一页式的，分析网络请求，发现这一条的链接应该指向的就是下一页，并且去除后面的&tt=96a6bd8c731d3a46a9388f1e8cd90edf也是一样可以访问的

我们进入链接，发现是一个json文件，对于我们来说其实更加易于处理

另外说一下，这里推荐Chrome浏览器的JSONView插件，自动解析JSON成方便看的模式，火狐似乎自带这个功能

import json 

js = json.loads(response.text)

url = js["content"][""]["url”]

可以使用类似这样的代码方便地读取json文件

另外注意load和loads函数的区别，loads用于处理字符串而load用于处理文件，对于将文件或是字符串转为json则有dump和dumps函数，就像下面这个例子

import json

data = {

    'a': '',

    'b': True,

    'c': None,

    'd': 456,

    }

with open("test.json", 'w') as f:

    json.dump(data, f)

# test.json 内容

# {"a": "123", "b": true, "c": null, "d": 456}

搜索部分

在完成按tag搜索的部分时发现，图片div的class都是这种奇怪的格式，尽管在我的电脑上搜索了其他几个tag这些class的名字都是一样的，但是看这种class的名字就有种莫名的不安啊……可能在换个环境class也是会动态变化的

另外发现网页中的这个部分data-items的结构就是json，于是剩下的部分又变得方便很多了

图片获取

在pipeline中获取图片时header中一定要记得带referer，否则会触发p站的防盗链机制，返回403

重要的部分差不多就这些，其他按scrapy的套路走就行

最后，本来想做个GUI的，尝试用pyqt5，发现分离GUI线程和爬虫线程好像挺难解决的，两个线程间用signal通信也很困难，毕竟临时学的qypt，解决不了也正常，于是放弃做GUI的打算……

渣代码，轻喷，欢迎交流指教

一个基于Scrapy框架的pixiv爬虫的更多相关文章

基于scrapy框架的分布式爬虫
分布式概念:可以使用多台电脑组件一个分布式机群,让其执行同一组程序,对同一组网络资源进行联合爬取. 原生的scrapy是无法实现分布式调度器无法被共享管道无法被共享基于 scrapy+redi ...
python基于scrapy框架的反爬虫机制破解之User-Agent伪装
user agent是指用户代理,简称 UA. 作用:使服务器能够识别客户使用的操作系统及版本.CPU 类型.浏览器及版本.浏览器渲染引擎.浏览器语言.浏览器插件等. 网站常常通过判断 UA 来给不同 ...
基于Scrapy框架的Python新闻爬虫
概述该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地详细代码下载:http://www.demoda ...
基于scrapy框架的爬虫
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. scrapy 框架高性能的网络请求高性能的数据解析高性能的 ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
基于Scrapy的B站爬虫
基于Scrapy的B站爬虫最近又被叫去做爬虫了,不得不拾起两年前搞的东西. 说起来那时也是突发奇想,想到做一个B站的爬虫,然后用的都是最基本的Python的各种库. 不过确实,实现起来还是有点麻烦的 ...
基于scrapy框架的爬虫基本步骤
本文以爬取网站代码的边城为例 1.安装scrapy框架详细教程可以查看本站文章点击跳转 2.新建scrapy项目生成一个爬虫文件.在指定的目录打开cmd.exe文件,输入代码 scrapy ...
python学习之-用scrapy框架来创建爬虫(spider)
scrapy简单说明 scrapy 为一个框架框架和第三方库的区别: 库可以直接拿来就用, 框架是用来运行,自动帮助开发人员做很多的事,我们只需要填写逻辑就好命令: 创建一个项目 : cd 到需 ...
Scrapy框架——CrawlSpider类爬虫案例
Scrapy--CrawlSpider Scrapy框架中分两类爬虫,Spider类和CrawlSpider类. 此案例采用的是CrawlSpider类实现爬虫. 它是Spider的派生类,Spide ...

随机推荐

Treeview控件如何获得子节点的所有父节点的名称
Delphi或c++ 的treeview控件,比如一个节点上面有个父节点,这个父节点上面还有一个父节点,如何获得这两个父节点的名字呢?请给出实现代码先定义一个nodevarnode:TTreeNod ...
Can't create a new thread (errno 11) 解决办法 mysql无法连接
问题的现象: 错误信息: ERROR 1135 (00000): Can't create a new thread (errno 11); if you are not out of availab ...
DB2存储过程简单示例
在这个示例中,我们将在DB2中创建一个名为DEMO1201的存储过程. 该存储过程的输入参数IN_NAME和IN_CREDITCARD,表示用户的姓名和身份证号. 该存储过程的作用是根据身份证号来新建 ...
金仓Kingbase数据库网页数据维护分析工具
金仓Kingbase是优秀的国产数据库产品,在能源,政务,国防等领域广泛使用, 现在TreeSoft数据库管理系统已支持Kingbase了,直接在浏览器中就可以操作查看Kingbase数据了,十分方便 ...
7个步骤让PC网站自动适配手机网页
传统的网站如何完成向移动设备的快速转型? 通过移动适配技术可以实现,切图网是国内首家基于web技术服务的公司,而移动适配主要通过底层的web技术开发手段来完成,下面切图网将从技术角度来告诉你通过7个步 ...
LC 206. Reverse Linked List
题目描述 Reverse a singly linked list. Example: Input: 1->2->3->4->5->NULL Output: 5-> ...
GBK字符集
GBK字库编辑同义词 GBK一般指GBK字库 GBK全称<汉字内码扩展规范>(GBK即“国标”.“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Sp ...
Python学习5——抽象，涉及抽象和结构、函数的自定义、参数、作用域、递归
此处将抽象和结构.自定义函数.参数的使用.作用域.递归放在一起学习,看起来很怪是不是? 但实际上这几者之间是有紧密联系的,不然Python基础教程(第三版)的作者为什么会把它们放在一起哪?手动滑稽好 ...
css 样式合集
td换行: style="word-wrap:break-word;word-break:break-all;" 超长省略号: table { table-layout: fixe ...
easyui实现树形菜单Tab功能、layout布局
一:常见三种前端ui框架在初学者入门的状态下,我们常见的前端框架有三种且都有自己的官方网站: 1.easyui:官方网站(http://www.jeasyui.net/) 基于jquery的用户页面 ...

一个基于Scrapy框架的pixiv爬虫

一个基于Scrapy框架的pixiv爬虫的更多相关文章

随机推荐

热门专题