如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）

　　我们在做scrapy爬虫的时候，爬虫经常被ban是常态。然而前面的文章如何让你的scrapy爬虫不再被ban，介绍了scrapy爬虫防屏蔽的各种策略组合。前面采用的是禁用cookies、动态设置user agent、代理IP和VPN等一系列的措施组合来防止爬虫被ban。除此以外官方文档还介绍了采用Google cache和crawlera的方法。这里就着重介绍一下如何利用crawlera来达到爬虫不被ban的效果。crawlera是一个利用代理IP地址池来做分布式下载的第三方平台，除了scrapy可以用以外，普通的java、php、python等都可以通过curl的方式来调用。好了，下面入正题。

　　说明：

　　本文章是基于前面的一系列文章完成的，如果您错过了。可以在此查看：

　　安装python爬虫scrapy踩过的那些坑和编程外的思考

　　scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据

　　scrapy爬虫成长日记之将抓取内容写入mysql数据库

　　如何让你的scrapy爬虫不再被ban

　　crawlera官方网址：http://scrapinghub.com/crawlera/

　　crawlera帮助文档：http://doc.scrapinghub.com/crawlera.html

　　一、注册crawlera账号，获取crawlera API KEY

　　1、注册一个crawlera账号并激活

　　https://dash.scrapinghub.com/account/signup/

　　填写好用户名，邮件和密码点击sign up即完成注册，收到注册确认邮件确认即可。

　　2、创建一个Organizations

　　3、创建完Organizations后添加crawlera user

　　4、查看API key

　　点击crawlera user的名称jack就可以查看API的详细信息了（key）

　　至此，crawlera API的信息已经获取到了。

　　二、修改scrapy项目

　　下面看看怎么添加到scrapy项目

　　1、安装scrapy-crawlera

pip install scrapy-crawlera

　　2、修改settings.py

　　DOWNLOADER_MIDDLEWARES下添加配置项

'scrapy_crawlera.CrawleraMiddleware': 600

　　其他配置项

CRAWLERA_ENABLED = True

CRAWLERA_USER = '<API key>'

CRAWLERA_PASS = '你crawlera账号的密码'

　　注意：由于之前的项目用了自定义代理的方式，因此DOWNLOADER_MIDDLEWARES下的

#'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110, #代理需要用到

#'cnblogs.middlewares.ProxyMiddleware': 100, #代理需要用到

　　这两个配置项要注释掉。

　　3、测试crawlera的抓取是否可用

scrapy crawl CnblogsSpider

　　4、查看结果

　　这里可以看到crawlera已经正常工作了。

　　5、另外crawlera官网也可以查看抓取结果

　　scrapy运用crawlera进行抓取就介绍到这里。另外crawlera还提供付费定制服务，如果经费充足也可以考虑付费定制scrapy的爬虫。

　　代码更新至此：https://github.com/jackgitgz/CnblogsSpider（提交到github的代码将api和password去掉了，如果想运行需要添加自己的key和password）

　　三、题外话：

　　如果你不是scrapy爬虫，而仅仅是想python调用，crawlera也提供了python直接调用的方法

　　1、通过request的方式

import requests

url = "http://twitter.com"

proxy = "paygo.crawlera.com:8010"

proxy_auth = "<API KEY>:"

proxies = {

    "http": "http://{0}@{1}/".format(proxy_auth, proxy)

}

headers = {

    "X-Crawlera-Use-HTTPS": 1

}

r = requests.get(url, proxies=proxies, headers=headers)

print("""

Requesting [{}]

through proxy [{}]

Response Time: {}

Response Code: {}

Response Headers:

{}

Response Body:

{}

""".format(url, proxy, r.elapsed.total_seconds(), r.status_code, r.headers, r.text))

　　2、request代理重写url

import requests

from requests.auth import HTTPProxyAuth

url = "https://twitter.com"

headers = {}

proxy_host = "paygo.crawlera.com"

proxy_auth = HTTPProxyAuth("<API KEY>", "")

proxies = {"http": "http://{}:8010/".format(proxy_host)}

if url.startswith("https:"):

    url = "http://" + url[8:]

    headers["X-Crawlera-Use-HTTPS"] = ""

r = requests.get(url, headers=headers, proxies=proxies, auth=proxy_auth)

print("""

Requesting [{}]

through proxy [{}]

Response Time: {}

Response Code: {}

Response Headers:

{}

Response Body:

{}

""".format(url, proxy_host, r.elapsed.total_seconds(), r.status_code,

           r.headers, r.text))

　　crawlera就介绍到这里，更多关于crawlera的内容可以参考官方文档：http://doc.scrapinghub.com/index.html

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）的更多相关文章

如何让你的scrapy爬虫不再被ban
前面用scrapy编写爬虫抓取了自己博客的内容并保存成json格式的数据(scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据)和写入数据库(scrapy爬虫成长日记之将抓取内容写入 ...
python 爬虫newspaper3k 新闻爬去方法利用第三方库
from newspaper import Article url = '你想要爬取的网站url' news = Article(url, language='zh') news .download( ...
第三百五十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码
第三百五十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码 scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开 ...
Scrapy项目 - 实现百度贴吧帖子主题及图片爬取的爬虫设计
要求编写的程序可获取任一贴吧页面中的帖子链接,并爬取贴子中用户发表的图片,在此过程中使用user agent 伪装和轮换,解决爬虫ip被目标网站封禁的问题.熟悉掌握基本的网页和url分析,同时能灵活使 ...
python爬虫常见面试题（二）
前言之所以在这里写下python爬虫常见面试题及解答,一是用作笔记,方便日后回忆:二是给自己一个和大家交流的机会,互相学习.进步,希望不正之处大家能给予指正:三是我也是互联网寒潮下岗的那批人之一,为 ...
Python爬虫个人记录（四）利用Python在豆瓣上写一篇日记
涉及关键词:requests库 requests.post方法 cookies登陆 version 1.5(附录):使用post方法登陆豆瓣,成功! 缺点:无法获得登陆成功后的cookie,要使用js ...
python爬虫之urllib库（二）
python爬虫之urllib库(二) urllib库超时设置网页长时间无法响应的,系统会判断网页超时,无法打开网页.对于爬虫而言,我们作为网页的访问者,不能一直等着服务器给我们返回错误信息,耗费 ...
Python爬虫之旅（一）：小白也能懂的爬虫入门
Python爬虫之旅(一):小白也能懂的爬虫入门爬虫是什么爬虫就是按照一定的规则,去抓取网页中的信息.爬虫流程大致分为以下几步: 向目标网页发送请求获取请求的响应内容按照一定的规则解析返回 ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...

随机推荐

【ZOJ 3870】 Team Formation
题意 n个数,找出有几对a.b 符合 a ^ b > max(a,b) .^表示异或号分析对于数a,如果它的二进制是: 1 0 1 0 0 1,那么和它 ^ 后能比他大的数就是: 0 1 ...
poj 3233 矩阵快速幂+YY
题意:给你矩阵A,求S=A+A^1+A^2+...+A^n sol:直接把每一项解出来显然是不行的,也没必要. 我们可以YY一个矩阵: 其中1表示单位矩阵然后容易得到: 可以看出这个分块矩阵的左下角 ...
DNS安全浅议、域名A记录(ANAME)，MX记录，CNAME记录
相关学习资料 http://baike.baidu.com/link?url=77B3BYIuVsB3MpK1nOQXI-JbS-AP5MvREzSnnedU7F9_G8l_Kvbkt_O2gKqFw ...
UVA294DIvisors(唯一分解定理+约数个数）
题目链接题意:输入两个整数L,U(L <= U <= 1000000000, u - l <= 10000),统计区间[L,U]的整数中哪一个的正约数最多,多个输出最小的那个本来 ...
提示用户一直输入数字（默认为正整数），当用户输入end的时候显示当前输入数字中的最大值。
string input = ""; ; while (input != "end") { Console.WriteLine("请输入一个正整数,输 ...
js正则表达式中的问号几种用法小结
这篇文章主要介绍了js正则表达式中的问号几种用法,比如+?,*?,{2,3}?可以停止匹配的贪婪模式,感兴趣的朋友可以参考下在表示重复的字符后面加问号,比如+?,*?,{2,3}?可以停止匹配的贪婪 ...
C语言绘制余弦函数图象
#include"stdio.h" #include"math.h" void main() { double y; int x,m; for(y=1;y> ...
远程桌面连接不上|windows server 2003 sp2 termdd.sys（转载）
远程桌面连接不上|windows server 2003 sp2 termdd.sys.请教一个问题,为什么 Windows Server 2003 打上SP2补丁,就不能通过远程桌面连接上去了?服务 ...
spring mvc实现登录+异常
登录页面login.jsp在webroot下 <body> <form action="user/login" method="post"&g ...
Android Studio-设置override及getter/setter方法
默认是Alt+Insert,可以修改成与Eclipse保持一致,Alt+Shift+S

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）

如何让你的scrapy爬虫不再被ban之二（利用第三方平台crawlera做scrapy爬虫防屏蔽）的更多相关文章

随机推荐

热门专题