Scrapy———反爬蟲的一些基本應對方法

1. IP地址驗證

　　背景：有些網站會使用IP地址驗證進行反爬蟲處理，檢查客戶端的IP地址，若同一個IP地址頻繁訪問，則會判斷該客戶端是爬蟲程序。

　　解決方案:

　　　　1. 讓Scrapy不斷隨機更換代理服務器的IP地址，如在middlewares.py中添加如下類:

1 class RandomProxyMiddleware(object):

2     def process request(self,request,spider):

3         request.meta['proxy]=get_random_proxy()

　　　　2.在setting.py中啓用自定義middleware,添加如下代碼：

DOWNLOADER MIDDLEWARES={

     'YourSpiderName.middlewares.RandomProxyMidderware' : 543

}

2. 禁用cookie

　　背景: 有些網站可以通過跟蹤Cookie來識別是否是同一個客戶端。Scrapy默認開啓了cookie.

　　解決方案: 若爬取的網站不需要登陸，可通過禁用Cookie以反識別：

　　1. 在setting.py中，添加以下代碼：

1 cookies_enabled=False

3. 違反爬蟲規則文件

　　背景：一般網站都有robots.txt文件，Scrapy會識別並遵從其爬蟲規則。

　　解決方案：讓爬蟲違反爬蟲規則文件的限制，强行爬取站點信息：

　　1. 在setting.py中設置：

1 　　ROBOTSTXT OBEY=False

4. 限制訪問頻率

　　背景：當同一個IP地址，同一個客戶端訪問目標網站過於頻繁時，很可能會被當成機器程序（爬蟲）禁止訪問。

　　解決方案：模擬正常用戶訪問的速度，限制Scrapy的訪問頻率

　　1. 在setting.py中添加以下代碼:

#開啓訪問頻率限制

AUTOTHROTTLE ENABLED=True

#設置訪問開始的延遲

AUTOTHROTTLE START DELAY=5

#設置訪問之間的最大延遲

AUTOTHTOTTLE MAX DELAY=60

#設置Scrapy并行發給每臺遠程服務器的請求數量

AUTOTHROTTLE TARGET CONCUTTENCY=1.0

#設置下載之後的自動高延遲

DOWNLOAD DELAY=3

5. 圖形驗證碼

　　背景：某些網站在同一IP,同一個客戶端訪問次數超過限制后會要求輸入圖形驗證碼，只有成功輸入的圖形驗證碼才能繼續訪問。

　　解決方案：

　　1. 使用PIL,Libsvrn等庫自己開發程序來識別圖形驗證碼；

　　2. 使用第三方識別，即那些圖形驗證碼的在綫識別網站，不過可能需要收費。

Scrapy———反爬蟲的一些基本應對方法的更多相关文章

Scrapy反爬
1,随机更换 user-agent: 将足够多的user-agent放在settings中,在parse方法中调用缺点:每一个request中都要调用这个方法这个是scrapy的流程图. 既然每一 ...
Python Scrapy反爬虫常见解决方案（包含5种方法）
爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫.比如前面介绍的通过 User-Agent 请求头验证是否为浏览器.使用 JavaScript ...
使用scrapy爬虫,爬取17k小说网的案例-方法二
楼主准备爬取此页面的小说,此页面一共有125章我们点击进去第一章和第一百二十五章发现了一个规律我们看到此链接的 http://www.17k.com/chapter/271047/6336386 ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
第三百四十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制
第三百四十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用.自动限速.自定义spider的settings,对抗反爬机制 cookie禁用就是在Scrapy的配置文件set ...
第三百四十五节，Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
二十四 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图
1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scrapy架构源码分析图
scrapy——4 —反爬措施—logging—重要参数—POST请求发送实战
scrapy——4 常用的反爬虫策略有哪些怎样使用logging设置 Resquest/Response重要参数有哪些 Scrapy怎么发送POST请求动态的设置User-Agent(随即切换Us ...
Scrapy中的反反爬、logging设置、Request参数及POST请求
常用的反反爬策略通常防止爬虫被反主要有以下几策略: 动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息.) 禁用cookies(也就是不启用cookies midd ...

随机推荐

netsniff恶意流量识别和匹配解读
代码整体框架流量扫描函数调用加载配置文件的代码调用获取扫描的条数重点匹配函数流量eg:'\x00\x04\x00\x01\x00\x06\x00\x16>\x10\x1d>SW\ ...
android 使用 Lottie
1.添加依赖 dependencies { implementation 'com.airbnb.android:lottie:2.5.5'//lottie } 2.1layout实现 <?xm ...
Java 类型转换精度问题
基本数据类型占用内存大小最近项目中修复了一个关于类型转换精度丢失的问题,以前对于类型转换会丢失精度只知其然,不知其所以然,这次了解了下相关原理,也分享给大家.先来回顾一下 Java 的基本数据类型中 ...
[LeetCode]172. Factorial Trailing Zeroes阶乘尾随0的个数
所有的0都是有2和45相乘得'到的,而在1-n中,2的个数是比5多的,所以找5的个数就行但是不要忘了25中包含两个5,125中包含3个5,以此类推所以在找完1-n中先找5,再找25,再找125.. ...
【wp】2020XCTF_逆向
前几天的XCTF最后一场终于打完了,三场比赛下来对逆向部分的大概感觉是从第一场的啥都不会做(一道lua+一道apk)到后来的终于能有参与度,至少后两场的题目都是pc逆向,虽然特殊架构但好歹能做(tcl ...
windows使用sdelete安全的删除文件
SDelete是一款来自于微软Sysinternals[1]的应用.使用SDelete可以安全的删除现有文件,以及安全地擦除磁盘的未分配部分中存在的数据(包括已经删除或加密的文件).SDelete使用 ...
swap是干嘛的？
本文截取自:http://hbasefly.com/2017/05/24/hbase-linux/ swap是干嘛的? 在Linux下,SWAP的作用类似Windows系统下的"虚拟内存&q ...
vue项目中使用日期获取今日，昨日，上周，下周，上个月，下个月的数据
今日公司项目接口要求获取动态的上周数据,经过不断的寻找,找到此方法. 该方法使用的是Moment.js JavaScript日期处理类库一:安装依赖 npm install moment --sav ...
ES6模板字符串及字符串的扩展方法
一.ES6模板字符串传统定义字符串的方式是: const str='hello es2015,this is a string' ES6新增了一种定义字符串的方式用反引号进行标识 const str ...
深入理解Kafka必知必会（1）
Kafka的用途有哪些?使用场景如何? 消息系统: Kafka 和传统的消息系统(也称作消息中间件)都具备系统解耦.冗余存储.流量削峰.缓冲.异步通信.扩展性.可恢复性等功能.与此同时,Kafka 还 ...

Scrapy———反爬蟲的一些基本應對方法

Scrapy———反爬蟲的一些基本應對方法的更多相关文章

随机推荐

热门专题