第7章 Scrapy突破反爬虫的限制

7-1 爬虫和反爬的对抗过程以及策略

Ⅰ、爬虫和反爬虫基本概念

爬虫：自动获取网站数据的程序，关键是批量的获取。
反爬虫：使用技术手段防止爬虫程序的方法。
误伤：反爬虫技术将普通用户识别为爬虫，如果误伤过高，效果再高也不能用。
成本：反爬虫需要的人力和机器成本。
拦截：成功拦截爬虫，一般拦截率越高，误伤率越高。

Ⅱ、反爬虫的目的

初级爬虫----简单粗暴，不管服务器压力，容易弄挂网站。
数据保护
失控的爬虫----由于某些情况下，忘记或者无法关闭的爬虫。
商业竞争对手

Ⅲ、爬虫和反爬虫对抗过程

7-2 scrapy架构源码分析

原理图：

我最早接触scrapy的时候就是看这张原理图，如下图

现在有新的原理图，更加直观，如下图

看了视频讲的源码解析，看一遍根本看不懂，后期还要多看叫上项目的练习才行。

7-3 Requests和Response介绍

可以看scrapy文档： http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html 查看相关的说明即可。

模拟登陆后，Request会自动传递cookies,不用我们添加。

7-4~5 通过downloadmiddleware随机更换user-agent

这是个模版以后直接拿来用即可

 #middlewares.py文件

 from fake_useragent import UserAgent #这是一个随机UserAgent的包，里面有很多UserAgent

 class RandomUserAgentMiddleware(object):

     def __init__(self, crawler):

         super(RandomUserAgentMiddleware, self).__init__()

         self.ua = UserAgent()

         self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random') #从setting文件中读取RANDOM_UA_TYPE值

     @classmethod

     def from_crawler(cls, crawler):

         return cls(crawler)

     def process_request(self, request, spider):

         def get_ua():

             '''Gets random UA based on the type setting (random, firefox…)'''

             return getattr(self.ua, self.ua_type) 

         user_agent_random=get_ua()

         request.headers.setdefault('User-Agent', user_agent_random) #这样就是实现了User-Agent的随即变换

 #settings.py文件

 DOWNLOADER_MIDDLEWARES = {

    'Lagou.middlewares.RandomUserAgentMiddleware': 543,

    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None, #这里要设置原来的scrapy的useragent为None，否者会被覆盖掉

 }

 RANDOM_UA_TYPE='random'

7-6~8 scrapy实现ip代理池

这是个模版以后直接拿来用即可

 #middlewares.py文件

 class RandomProxyMiddleware(object):

     '''动态设置ip代理'''

     def process_request(self,request,spider):

         get_ip = GetIP() #这里的函数是传值ip的

         request.meta["proxy"] = get_ip

         #例如

         #get_ip = GetIP() #这里的函数是传值ip的

         #request.meta["proxy"] = 'http://110.73.54.0:8123'

 #settings.py文件

 DOWNLOADER_MIDDLEWARES = {

    'Lagou.middlewares.RandomProxyMiddleware':542,

    'Lagou.middlewares.RandomUserAgentMiddleware': 543,

    'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None, #这里要设置原来的scrapy的useragent为None，否者会被覆盖掉

 }

1.sql语言取出随机记录：在此是随机取出一条记录是ip和端口组成代理IP

 select ip,port from proxy_ip

 order by rand()

 limit 1

2.使用xpath选择器：

可以使用scrapy中的selector，代码如下：

 from scrapy.selector import Selector

 html=requests.get(url)

 Selector=Selector(text=html.text)

 Selector.xpath()

3.if __name__ == "__main__"问题

如果没有这个，调用时会默认运行以下命令

  if __name__ == "__main__":

      get_ip=GetIp()

      get_ip.get_random_ip()

7-9 云打码实现验证码识别

验证码识别方法

编码实现（tesseract-ocr）
在线打码----打码平台（云打码、若快）
人工打码

7-10 cookie禁用、自动限速、自定义spider的settings

如果用不到cookies的，就不要让对方知道你的cookies--设置---COOKIES_ENABLED = False

自定义setting中的参数可以这样写：

 #在spider.py文件中

 custom_settings={

      "COOKIES_ENABLED":True,

       "":"",

       "":"",

 }

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6762636.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第7章 Scrapy突破反爬虫的限制的更多相关文章

Python Scrapy突破反爬虫机制（项目实践）
对于 BOSS 直聘这种网站,当程序请求网页后,服务器响应内容包含了整个页面的 HTML 源代码,这样就可以使用爬虫来爬取数据.但有些网站做了一些“反爬虫”处理,其网页内容不是静态的,而是使用 Jav ...
Scrapy突破反爬虫的限制
随机切换UserAgent https://github.com/hellysmile/fake-useragent scrapy使用fake-useragent 在全局配置文件中禁用掉默认的UA,将 ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
自动更改IP地址反爬虫封锁，支持多线程(转)
8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信机房,能跨省跨市更好,我这里写好的断线重拨组件,你可以直接使用. ADSL拨号上网使用动态IP地址,每一次拨号得到的IP ...
深入细枝末节，Python的字体反爬虫到底怎么一回事
内容选自即将出版的<Python3 反爬虫原理与绕过实战>,本次公开书稿范围为第 6 章——文本混淆反爬虫.本篇为第 6 章中的第 4 小节,其余小节将逐步放送 . 字体反爬虫开篇概 ...
Python Scrapy反爬虫常见解决方案（包含5种方法）
爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫.比如前面介绍的通过 User-Agent 请求头验证是否为浏览器.使用 JavaScript ...
第三百四十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
scrapy反反爬虫
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...

随机推荐

python--内置模块(二) os sys pickle json
1.os模块常用方法: os.makedirs('dirname1/dirname2') 可生成多层递归目录 os.removedirs('dirname1') 若目录为空,则删除,并递归到上一级目 ...
正则表达式的Wed验证应用（40）
电子邮件地址的校验 <?php /* 校验邮件地址*/ function checkMail($email) { //用户名,由“\w”格式字符.“-”或“.”组成 $email_name= & ...
在线编辑器Ckeditor （2） - php （31）
接上一篇 3 in-page(页内)配置,在使用Ckeditor的界面里进行直接配置页内配置效果特点:配置项完全属于某个特定的Ckeditor实例,不可重用三种配置方式比较定制方式特点说 ...
Zipper（动态规划）
点击打开链接描述 Given three strings, you are to determine whether the third string can be formed by combin ...
junit所需要的jar包
hamcrest-core-1.1.jar junit-4.12.jar http://central.maven.org/maven2/org/hamcrest/hamcrest-core/1.3/ ...
Wannafly挑战赛26题解
为啥混进了几道不是魔禁的题--出题人太不敬业了-- 传送门 $A$ 御坂网络为啥没有番外个体和整体意志呢暴力模拟就好了,这个要是都打错我干脆滚回去学文化课算了 //minamoto #incl ...
windows文件名太长无法删除的解决办法
安装nodejs 的模块hexo后,由于香重新安装,在删除的时候却提示文件名太长无法删除,dos命令.回收站各种都无法搞定,后来找到解决办法: 1.进入这些文件的所在目录的上层目录,右键这些文件的所在 ...
TPS和QPS定义以及影响TPS的因素
一.TPS:Transactions Per Second(每秒传输的事物处理个数),即服务器每秒处理的事务数.TPS包括一条消息入和一条消息出,加上一次用户数据库访问.(业务TPS = CAPS × ...
火焰图定位dbproxy问题
https://blog.csdn.net/oujiangping/article/details/78580450 https://blog.csdn.net/gatieme/article/det ...
图的最短路径---迪杰斯特拉(Dijkstra)算法浅析
什么是最短路径在网图和非网图中,最短路径的含义是不一样的.对于非网图没有边上的权值,所谓的最短路径,其实就是指两顶点之间经过的边数最少的路径. 对于网图,最短路径就是指两顶点之间经过的边上权值之和最 ...