scrapy 伪装代理和fake_userAgent的使用

伪装浏览器代理在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。

第一中方法：

1.在setting.py文件中加入以下内容，这是一些浏览器的头信息

USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/',
                    'Xaldon_WebSpider/2.0.b1',
                    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',
                    'Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)',
                    'Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)',
                    'Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)',
                    'Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)',
                    'Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)',
                    'Speedy Spider (Beta/1.0; www.entireweb.com)',
                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',
                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)',
                    'Speedy Spider (http://www.entireweb.com)',
                    'Sosospider+(+http://help.soso.com/webspider.htm)',
                    'sogou spider',
                    'Nusearch Spider (www.nusearch.com)',
                    'nuSearch Spider (compatible; MSIE 4.01; Windows NT)',
                    'lmspider (lmspider@scansoft.com)',
                    'lmspider lmspider@scansoft.com',
                    'ldspider (http://code.google.com/p/ldspider/wiki/Robots)',
                    'iaskspider/2.0(+http://iask.com/help/help_index.html)',
                    'iaskspider',
                    'hl_ftien_spider_v1.1',
                    'hl_ftien_spider',
                    'FyberSpider (+http://www.fybersearch.com/fyberspider.php)',
                    'FyberSpider',
                    'everyfeed-spider/2.0 (http://www.everyfeed.com)',
                    'envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)',
                    'envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)',
                    'Baiduspider+(+http://www.baidu.com/search/spider_jp.html)',
                    'Baiduspider+(+http://www.baidu.com/search/spider.htm)',
                    'BaiDuSpider',
                    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',
                   ]
2.在spider同级目录下建立一个MidWare文件价里面写一个HeaderMidWare.py文件 内容为

 # encoding: utf-8

 from scrapy.utils.project import get_project_settings

 import random

 settings = get_project_settings()

 class ProcessHeaderMidware():

     """process request add request info"""

     def process_request(self, request, spider):

         """

         随机从列表中获得header， 并传给user_agent进行使用

         """

         ua = random.choice(settings.get('USER_AGENT_LIST'))

         spider.logger.info(msg='now entring download midware')

         if ua:

             request.headers['User-Agent'] = ua

             # Add desired logging message here.

             spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))

         pass

3.在setting.py文件中添加

DOWNLOADER_MIDDLEWARES = {
    'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,
}

第二种方法：fake_userAgent的使用

fake_userAgent是github上的开源项目
1.安装fake_userAgent

pip install fake-useragent

2.在spider同级目录下建立一个MidWare文件价里面写一个user_agent_middlewares.py文件内容为

 # -*- coding: utf-8 -*-

 from fake_useragent import UserAgent

 class RandomUserAgentMiddlware(object):

     #随机跟换user-agent

     def __init__(self,crawler):

         super(RandomUserAgentMiddlware,self).__init__()

         self.ua = UserAgent()

         self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')#从setting文件中读取RANDOM_UA_TYPE值

     @classmethod

     def from_crawler(cls,crawler):

         return cls(crawler)

     def process_request(self,request,spider):  ###系统电泳函数

         def get_ua():

             return getattr(self.ua,self.ua_type)

         # user_agent_random=get_ua()

         request.headers.setdefault('User_Agent',get_ua())

         pass

3.在setting.py中添加

　　RANDOM_UA_TYPE = 'random'##random chrome

　　DOWNLOADER_MIDDLEWARES = {

　　'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543,

　 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

}

fake_userAgent伪装代理就配置好了，与第一种方法相比不用写一大串的浏览器头，那些浏览器头会在

https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。

在第一次启用fake_userAgent的时候会有一些错，我认为是项目请求网络时需要缓存一些内容而导致的。

github地址：https://github.com/sea1234/fake-useragent

scrapy 伪装代理和fake_userAgent的使用的更多相关文章

Scrapy框架--代理和cookie
如何发起post请求? 代理和cookie: cookie:豆瓣网个人登录,获取该用户个人主页这个二级页面的页面数据. 如何发起post请求? 一定要对start_requests方法进行重写. 1. ...
JAVA高级架构师基础功:Spring中AOP的两种代理方式:动态代理和CGLIB详解
在spring框架中使用了两种代理方式: 1.JDK自带的动态代理. 2.Spring框架自己提供的CGLIB的方式. 这两种也是Spring框架核心AOP的基础. 在详细讲解上述提到的动态代理和CG ...
JDK动态代理和CGLIB的区别
Aspect默认情况下不用实现接口,但对于目标对象,在默认情况下必须实现接口如果没有实现接口必须引入CGLIB库我们可以通过Advice中添加一个JoinPoint参数,这个值会由spring自动 ...
JDK动态代理和CGLib动态代理简单演示
JDK1.3之后,Java提供了动态代理的技术,允许开发者在运行期间创建接口的代理实例. 一.首先我们进行JDK动态代理的演示. 现在我们有一个简单的业务接口Saying,如下: package te ...
总结两种动态代理jdk代理和cglib代理
动态代理上篇文章讲了什么是代理模式,为什么用代理模式,从静态代理过渡到动态代理. 这里再简单总结一下什么是代理模式,给某个对象提供一个代理对象,并由代理对象控制对于原对象的访问,即客户不直接操控原 ...
SpringAOP-JDK 动态代理和 CGLIB 代理
在 Spring 中 AOP 代理使用 JDK 动态代理和 CGLIB 代理来实现,默认如果目标对象是接口,则使用 JDK 动态代理,否则使用 CGLIB 来生成代理类. 1.JDK 动态代理那么接 ...
通过一个工具类更深入理解动态代理和Threadlocal
动态代理和Threadlocal 一个代理类返回指定的接口,将方法调用指定的调用处理程序的代理类的实例.返回的是一个代理类,由指定的类装载器的定义和实现指定接口指定代理实例调用处理程序最近用到一个工具 ...
基于JDK动态代理和CGLIB动态代理的实现Spring注解管理事务（@Trasactional）到底有什么区别。
基于JDK动态代理和CGLIB动态代理的实现Spring注解管理事务(@Trasactional)到底有什么区别. 我还是喜欢基于Schema风格的Spring事务管理,但也有很多人在用基于@Tras ...
Spring 静态代理+JDK动态代理和CGLIB动态代理
代理分为两种:静态代理动态代理静态代理:本质上会在硬盘上创建一个真正的物理类动态代理:本质上是在内存中构建出一个类. 如果多个类需要进行方法增强,静态代理则需要创建多个物理类,占用磁盘空间.而动 ...

随机推荐

canvas实现鼠标拖拽矩形移动改变大小
项目的一个新需求,动态生成矩形框,鼠标点击拖动改变矩形框的位置,并可以调整大小. 之前做过一个小demo,需求类似,但是在canvas内只有一个矩形框,拖动移动,当时记得是用isPointInPath ...
angular 当使用ng-repeat 时出现 $$hashKey的键值对
小问题把: ng-repeat="item in items " 改成 : ng-repeat="item in items track by $index"
【Bitset】重识
---------------------------------------------------------------------------- 一题题目: 一题题解: 这个题目哪来入门再好不 ...
centos7里没有ifcfg-eth0只有 ifcfg-ens33(没有Eth0网卡)
https://www.cnblogs.com/feixiangtk/p/6819118.html CentOS7系统安装完毕之后,输入ifconfig命令发现没有eth0,不符合我们的习惯.而且也无 ...
关闭多个screen
由于开了很多个screen同时工作,关闭是一个一个比较麻烦,写个命令在这以便日后想不起来时可以用到. 1.先看看有多少个screen screen -ls |awk '/Socket/'|awk ...
hdu4678 Mine 规律或者博弈。（博弈的sg函数不懂我是找的规律）
链接:题意就是告诉你一个扫雷图里面每个雷的位置,有两个人,每个人都知道雷的确切位置,每个人一次可以点一部,问你谁能赢. 链接:http://acm.hdu.edu.cn/showproblem.php ...
SSM整合Redis
前言服务端缓存的意义大多数在于减轻数据库压力,提供响应速度,而缺点也是显而易见的,会带来缓存与数据库一致性问题.当然,Redis还可以作为分布式锁. Redis 想在项目中使用Redis需要做的事情 ...
LeetCode OJ ： Different Ways to Add Parentheses（在不同位置增加括号的方法）
Given a string of numbers and operators, return all possible results from computing all the differen ...
Error:java: Compilation failed: internal java compiler error（转）
set中java complier 设置的问题 ,项目中有人用jdk1.6 有人用jdk1.7 版本不一样会一起这个错误进行如下操作: 原文链接:http://blog.csdn.net/ ...
ant+jmeter+jenkins+git持续集成以及邮件报告展示
前序准备工作: ant--下载地址:http://ant.apache.org/bindownload.cgi jmeter--下载地址:http://jmeter.apache.org/downlo ...

scrapy 伪装代理和fake_userAgent的使用

scrapy 伪装代理和fake_userAgent的使用的更多相关文章

随机推荐

热门专题