scrapy 伪装代理和fake_userAgent的使用

伪装浏览器代理在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。

第一种方法：

1.在setting.py文件中加入以下内容，这是一些浏览器的头信息

USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/',

                    'Xaldon_WebSpider/2.0.b1',

                    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Beta/1.0; www.entireweb.com)',

                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (http://www.entireweb.com)',

                    'Sosospider+(+http://help.soso.com/webspider.htm)',

                    'sogou spider',

                    'Nusearch Spider (www.nusearch.com)',

                    'nuSearch Spider (compatible; MSIE 4.01; Windows NT)',

                    'lmspider (lmspider@scansoft.com)',

                    'lmspider lmspider@scansoft.com',

                    'ldspider (http://code.google.com/p/ldspider/wiki/Robots)',

                    'iaskspider/2.0(+http://iask.com/help/help_index.html)',

                    'iaskspider',

                    'hl_ftien_spider_v1.1',

                    'hl_ftien_spider',

                    'FyberSpider (+http://www.fybersearch.com/fyberspider.php)',

                    'FyberSpider',

                    'everyfeed-spider/2.0 (http://www.everyfeed.com)',

                    'envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)',

                    'envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)',

                    'Baiduspider+(+http://www.baidu.com/search/spider_jp.html)',

                    'Baiduspider+(+http://www.baidu.com/search/spider.htm)',

                    'BaiDuSpider',

                    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',

                ]

2.在spider同级目录下建立一个MidWare文件价里面写一个HeaderMidWare.py文件内容为

# encoding: utf-8

from scrapy.utils.project import get_project_settings

import random

settings = get_project_settings()

class ProcessHeaderMidware():

    """process request add request info"""

    def process_request(self, request, spider):

        """

        随机从列表中获得header， 并传给user_agent进行使用

        """

        ua = random.choice(settings.get('USER_AGENT_LIST'))

        spider.logger.info(msg='now entring download midware')

        if ua:

            request.headers['User-Agent'] = ua

            # Add desired logging message here.

            spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))

        pass

3.在setting.py文件中添加

DOWNLOADER_MIDDLEWARES = {

'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,

}

第二种方法：fake_userAgent的使用

fake_userAgent是github上的开源项目

1.安装fake_userAgent

pip install fake-useragent

2.在spider同级目录下建立一个MidWare文件价里面写一个user_agent_middlewares.py文件内容为

# -*- coding: utf-8 -*-

from fake_useragent import UserAgent

class RandomUserAgentMiddlware(object):

    #随机跟换user-agent

    def __init__(self,crawler):

        super(RandomUserAgentMiddlware,self).__init__()

        self.ua = UserAgent()

        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')#从setting文件中读取RANDOM_UA_TYPE值

    @classmethod

    def from_crawler(cls,crawler):

        return cls(crawler)

    def process_request(self,request,spider):  ###系统电泳函数

        def get_ua():

            return getattr(self.ua,self.ua_type)

        # user_agent_random=get_ua()

        request.headers.setdefault('User_Agent',get_ua())

        pass

3.在setting.py中添加

RANDOM_UA_TYPE = 'random'##random    chrome

DOWNLOADER_MIDDLEWARES = {

'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543, 

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

}

fake_userAgent伪装代理就配置好了，与第一种方法相比不用写一大串的浏览器头，那些浏览器头会在https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。

在第一次启用fake_userAgent的时候会有一些错，我认为是项目请求网络时需要缓存一些内容而导致的。

github地址：https://github.com/sea1234/fake-useragent

Python_爬虫伪装_ scrapy中fake_userAgent的使用的更多相关文章

Python_面试题_更新中
Python-面试题线上操作系统 centos py2和py3的区别每种数据类型,列举你了解的方法 3 or 9 and 8 字符串的反转 is 和 == 的区别? git流程 v = (1) / ...
第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详 ...
三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
爬虫开发12.selenium在scrapy中的应用
selenium在scrapy中的应用阅读量: 370 1 引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝 ...
fake-useragent，python爬虫伪装请求头
在编写爬虫进行网页数据的时候,大多数情况下,需要在请求是增加请求头,下面介绍一个python下非常好用的伪装请求头的库:fake-useragent,具体使用说明如下: 1.在scrapy中的使用第 ...
Python_爬虫笔记_2018.3.19
Python_爬虫_笔记 1.前言 1.1爬虫用途: 网站采集.接口采集(地图(jis 热力学屋里端口/协议).微信.知乎.) 1.2基本流程:网页下载(requests)+网页解析+爬虫调度网页 ...

随机推荐

【最短路】CF 938D Buy a Ticket
题目大意流行乐队"Flayer"将在$n$个城市开演唱会,这$n$个城市的人都想去听演唱会,每个城市的票价不同,于是这些人就想是否能去其他城市听演唱会更便宜,但是去其他的 ...
数据查询语句：DQL（Data Query Language）
一.基础查询 1.语法:select 查询列表 from 表名; 2.特点:1.通过select查询完的结果,是一个虚拟的表格,不是真实存在 2.查询列表可以是:字段.表达式.常量.函数等 3 ...
Logstash 国内加速下载转
Logstash. 国内直接从官网(https://www.elastic.co)下载比较困难,需要一些技术手段.这里提供一个国内的镜像下载地址列表,方便网友下载. 找不到想要的版本?您可以访问索引 ...
selenium 提取天猫网页数据
from time import sleep from selenium import webdriver br = webdriver.Chrome() url = "https://ww ...
sql ROW_NUMBER() 排序函数
1.使用row_number()函数进行编号:如 1 select email,customerID, ROW_NUMBER() over(order by psd) as rows from QT_ ...
Linux命令之{ }花括号
括号扩展:{ } {} 可以实现打印重复字符串的简化形式 [10:04:14 root@C8[ 2020-06-16DIR]#echo file{1,3,5} file1 file3 file5 [1 ...
HashMap循环中Remove带来的问题
HashMap在循环中执行remove操作会报错,引发了并发修改异常. 解决办法很多: 1.复制一个Map,在Map副本中循环,Map本体执行remove方法. 2.使用迭代器移除当前迭代元素,ite ...
image restoration（IR） task
一般的,image restoration(IR)任务旨在从观察的退化变量$y$(退化模型,如式子1)中,恢复潜在的干净图像$x$ $y \text{} =\text{}\textbf{H}x\tex ...
走在深夜的小码农 Fifth Day
Css3 Fifth Day writer:late at night codepeasant 学习大纲: 一.css三大特性 1.层叠性相同选择器给设置相同的样式,此时一个样式就会覆盖(层叠) ...
Luogu P5087 数学
题意给定一个长度为 $n$ 的序列 $a_i$,求出在这个序列中所有选出 $k$ 个元素方案中元素的乘积之和. \(\texttt{Data Range:}1\leq n\leq 10^ ...

Python_爬虫伪装_ scrapy中fake_userAgent的使用

scrapy 伪装代理和fake_userAgent的使用

第一种方法：

第二种方法：fake_userAgent的使用

Python_爬虫伪装_ scrapy中fake_userAgent的使用的更多相关文章

随机推荐

热门专题