Scrapy系列教程(6)------怎样避免被禁
避免被禁止(ban)
有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。
与这些规则打交道并不easy,须要技巧,有时候也须要些特别的基础。 假设有疑问请考虑联系 商业支持 。
以下是些处理这些网站的建议(tips):
- 使用user agent池。轮流选择之中的一个来作为user agent。
池中包括常见的浏览器的user agent(google一下一大堆) 
- 禁止cookies(參考 COOKIES_ENABLED),有些网站会使用cookies来发现爬虫的轨迹。
- 设置下载延迟(2或更高)。
參考 DOWNLOAD_DELAY 设置。 
- 假设可行,使用 Google cache 来爬取数据,而不是直接訪问网站。
- 使用IP池。比如免费的 Tor项目 或付费服务(ProxyMesh)。
- 使用高度分布式的下载器(downloader)来绕过禁止(ban),您就仅仅须要专注分析处理页面。这种样例有: Crawlera
Scrapy系列教程(6)------怎样避免被禁的更多相关文章
- Scrapy系列教程(2)------Item(结构化数据存储结构)
		Items 爬取的主要目标就是从非结构性的数据源提取结构性数据,比如网页. Scrapy提供 Item 类来满足这种需求. Item 对象是种简单的容器.保存了爬取到得数据. 其提供了 类似于词典(d ... 
- Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
		Spiders Spider类定义了怎样爬取某个(或某些)站点.包含了爬取的动作(比如:是否跟进链接)以及怎样从网页的内容中提取结构化数据(爬取item). 换句话说.Spider就是您定义爬取的动作 ... 
- Scrapy系列教程(1)------命令行工具
		默认的Scrapy项目结构 在開始对命令行工具以及子命令的探索前,让我们首先了解一下Scrapy的项目的文件夹结构. 尽管能够被改动,但全部的Scrapy项目默认有类似于下边的文件结构: scrapy ... 
- 《Python爬虫学习系列教程》学习笔记
		http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ... 
- python 爬虫系列教程方法总结及推荐
		爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页 ... 
- [转]《Python爬虫学习系列教程》
		<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ... 
- Angular2入门系列教程7-HTTP(一)-使用Angular2自带的http进行网络请求
		上一篇:Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数 感觉这篇不是很好写,因为涉及到网络请求,如果采用真实的网络请求,这个例子大家拿到手估计还要自己写一个web ... 
- Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数
		上一篇:Angular2入门系列教程5-路由(一)-使用简单的路由并在在路由中传递参数 之前介绍了简单的路由以及传参,这篇文章我们将要学习复杂一些的路由以及传递其他附加参数.一个好的路由系统可以使我们 ... 
- Angular2入门系列教程5-路由(一)-使用简单的路由并在在路由中传递参数
		上一篇:Angular2入门系列教程-服务 上一篇文章我们将Angular2的数据服务分离出来,学习了Angular2的依赖注入,这篇文章我们将要学习Angualr2的路由 为了编写样式方便,我们这篇 ... 
随机推荐
- 国外物联网平台初探(一) ——亚马逊AWS IoT
			平台定位 AWS IoT是一款托管的云平台,使互联设备可以轻松安全地与云应用程序及其他设备交互. AWS IoT可支持数十亿台设备和数万亿条消息,并且可以对这些消息进行处理并将其安全可靠地路由至 AW ... 
- 在android中读写文件
			在android中读写文件 android中只有一个盘,正斜杠/代表根目录. 我们常见的SDK的位置为:/mnt/sdcard 两种最常见的数据存储方式: 一.内存 二.本地 1.手机内部存储 2.外 ... 
- Java数组和内存控制
			1.数组初始化 1.1 Java数组是静态的 Java语言是典型的静态语言,因此Java的数组是静态的,即当数组被初始化之后,该数组的长度是不可变的.Java程序中的数组必须经初始化才可使用.所谓初始 ... 
- 一篇个人感觉比较好的lua入门的文章
			原文转自www.cppprog.com,由三篇文章组成 Lua是一个嵌入式的脚本语言,它不仅可以单独使用还能与其它语言混合调用.Lua与其它脚本语言相比,其突出优势在于: 1. 可扩展性.Lua的扩 ... 
- Oracle性能优化——总体介绍
			最近参加Oracle的培训,对Oracle有了更加深入的认识,在此做个学习总结. 1.Oracle数据库调优不能仅指望修改几项数据库参数就能有明显效果,问题更多出在应用方面,教育开发者正确地使用数据库 ... 
- C#中DBNull问题
			当数据库中一个字段不是必填项时,在往数据库中插入数据的时候往往会插入一个空字符串就草草了事了.在这里用DBNull可以解决这个问题 /// <summary> /// 插入数据 /// & ... 
- c++中的强制转换
			一.C语言的强制转换1.1 隐性转换 不同数据类型之间赋值和运算,函数调用传递参数等等,由编译器完成 int nTmp = 10; short sTmp ... 
- Java基础6一面向对象
			面向对象的编程思想:是以事物的整体的为基本单位,从事物的属性和行为两个方面进行描述. 特点: Java来源于生活服务于生活 用面向对象的思想能够接近正常的思维方式. 面向对象语言中有设计模式一说. 在 ... 
- Java中从控制台输入数据的几种常用方法(转转)
			原文博客地址:https://www.cnblogs.com/SzBlog/p/5404246.html 一.使用标准输入串System.in //System.in.read()一次只读入一个字节 ... 
- javascript中作用域
			<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ... 
