scrapy 伪装代理和fake_userAgent的使用

伪装浏览器代理在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。

第一种方法：

1.在setting.py文件中加入以下内容，这是一些浏览器的头信息

USER_AGENT_LIST = ['zspider/0.9-dev http://feedback.redkolibri.com/',

                    'Xaldon_WebSpider/2.0.b1',

                    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Mozilla/5.0 (compatible; Speedy Spider; http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Speedy Spider (Entireweb; Beta/1.3; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.2; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.1; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Entireweb; Beta/1.0; http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (Beta/1.0; www.entireweb.com)',

                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)',

                    'Speedy Spider (http://www.entireweb.com/about/search_tech/speedyspider/)',

                    'Speedy Spider (http://www.entireweb.com)',

                    'Sosospider+(+http://help.soso.com/webspider.htm)',

                    'sogou spider',

                    'Nusearch Spider (www.nusearch.com)',

                    'nuSearch Spider (compatible; MSIE 4.01; Windows NT)',

                    'lmspider (lmspider@scansoft.com)',

                    'lmspider lmspider@scansoft.com',

                    'ldspider (http://code.google.com/p/ldspider/wiki/Robots)',

                    'iaskspider/2.0(+http://iask.com/help/help_index.html)',

                    'iaskspider',

                    'hl_ftien_spider_v1.1',

                    'hl_ftien_spider',

                    'FyberSpider (+http://www.fybersearch.com/fyberspider.php)',

                    'FyberSpider',

                    'everyfeed-spider/2.0 (http://www.everyfeed.com)',

                    'envolk[ITS]spider/1.6 (+http://www.envolk.com/envolkspider.html)',

                    'envolk[ITS]spider/1.6 ( http://www.envolk.com/envolkspider.html)',

                    'Baiduspider+(+http://www.baidu.com/search/spider_jp.html)',

                    'Baiduspider+(+http://www.baidu.com/search/spider.htm)',

                    'BaiDuSpider',

                    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) AddSugarSpiderBot www.idealobserver.com',

                ]

2.在spider同级目录下建立一个MidWare文件价里面写一个HeaderMidWare.py文件内容为

# encoding: utf-8

from scrapy.utils.project import get_project_settings

import random

settings = get_project_settings()

class ProcessHeaderMidware():

    """process request add request info"""

    def process_request(self, request, spider):

        """

        随机从列表中获得header， 并传给user_agent进行使用

        """

        ua = random.choice(settings.get('USER_AGENT_LIST'))

        spider.logger.info(msg='now entring download midware')

        if ua:

            request.headers['User-Agent'] = ua

            # Add desired logging message here.

            spider.logger.info(u'User-Agent is : {} {}'.format(request.headers.get('User-Agent'), request))

        pass

3.在setting.py文件中添加

DOWNLOADER_MIDDLEWARES = {

'projectName.MidWare.HeaderMidWare.ProcessHeaderMidware': 543,

}

第二种方法：fake_userAgent的使用

fake_userAgent是github上的开源项目

1.安装fake_userAgent

pip install fake-useragent

2.在spider同级目录下建立一个MidWare文件价里面写一个user_agent_middlewares.py文件内容为

# -*- coding: utf-8 -*-

from fake_useragent import UserAgent

class RandomUserAgentMiddlware(object):

    #随机跟换user-agent

    def __init__(self,crawler):

        super(RandomUserAgentMiddlware,self).__init__()

        self.ua = UserAgent()

        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE','random')#从setting文件中读取RANDOM_UA_TYPE值

    @classmethod

    def from_crawler(cls,crawler):

        return cls(crawler)

    def process_request(self,request,spider):  ###系统电泳函数

        def get_ua():

            return getattr(self.ua,self.ua_type)

        # user_agent_random=get_ua()

        request.headers.setdefault('User_Agent',get_ua())

        pass

3.在setting.py中添加

RANDOM_UA_TYPE = 'random'##random    chrome

DOWNLOADER_MIDDLEWARES = {

'projectName.MidWare.user_agent_middlewares.RandomUserAgentMiddlware': 543, 

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware':None,

}

fake_userAgent伪装代理就配置好了，与第一种方法相比不用写一大串的浏览器头，那些浏览器头会在https://fake-useragent.herokuapp.com/browsers/0.1.7 中得到。

在第一次启用fake_userAgent的时候会有一些错，我认为是项目请求网络时需要缓存一些内容而导致的。

github地址：https://github.com/sea1234/fake-useragent

Python_爬虫伪装_ scrapy中fake_userAgent的使用的更多相关文章

Python_面试题_更新中
Python-面试题线上操作系统 centos py2和py3的区别每种数据类型,列举你了解的方法 3 or 9 and 8 字符串的反转 is 和 == 的区别? git流程 v = (1) / ...
第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详 ...
三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
爬虫开发12.selenium在scrapy中的应用
selenium在scrapy中的应用阅读量: 370 1 引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝 ...
fake-useragent，python爬虫伪装请求头
在编写爬虫进行网页数据的时候,大多数情况下,需要在请求是增加请求头,下面介绍一个python下非常好用的伪装请求头的库:fake-useragent,具体使用说明如下: 1.在scrapy中的使用第 ...
Python_爬虫笔记_2018.3.19
Python_爬虫_笔记 1.前言 1.1爬虫用途: 网站采集.接口采集(地图(jis 热力学屋里端口/协议).微信.知乎.) 1.2基本流程:网页下载(requests)+网页解析+爬虫调度网页 ...

随机推荐

C++11——chrono库开发高精度计！我们可能学的不是同一门语言~
一.前言在我们写程序过程中,有时候需要测试我们的程序语句执行时间的耗时,当前也是有很多的库提供我们去使用,一直没有良好的跨平台的库可以提供出来:而且一般这种代码也是由我们程序员自己调用系统的库来进行 ...
go 多协程爬取图片
package main import ( "fmt" "github.com/antchfx/htmlquery" "golang.org/x/ne ...
linux(centos8):prometheus使用mtail监控错误日志
一,mtail的用途? mtail :从应用程序日志中提取指标以导出到时间序列数据库或时间序列计算器它是一个google开发的日志提取工具,用途就是: 实时读取应用程序的日志. 再通过自己编写的脚本 ...
xpath取末尾
from lxml import etree html = ''' <!DOCTYPE html> <html lang="en"> <head> ...
CRC（循环冗余校验）
关于CRC(循环冗余校验),我在网上看了许多的文章,感觉看的很懵逼,废话一堆(可能是我理解不上去0.0),下面是我的一些理解(如果有误谢谢指出): 关于crc,它主要分为两个部分,一个是发送端通过cr ...
[阿里DIN] 深度兴趣网络源码分析之整体代码结构
[阿里DIN] 深度兴趣网络源码分析之整体代码结构目录 [阿里DIN] 深度兴趣网络源码分析之整体代码结构 0x00 摘要 0x01 文件简介 0x02 总体架构 0x03 总体代码 0x0 ...
Java中的5大队列，你知道几个？
本文已收录至 https://github.com/vipstone/algorithm <算法图解>系列. 通过前面文章的学习<一文详解「队列」,手撸队列的3种方法!>我们知 ...
sangforEDR 任意命令执行
EDR 使用范围由于只有POC 没有详细细节.暂时不知道具体细节. 部分EDR 已经完成升级,不存在该漏洞. POC https://XXX:8081/tool/log/c.php?strip_sl ...
DiskLruCache缓存bitmap
public class MainActivity extends AppCompatActivity { private DiskLruCache diskLruCache; ImageView i ...
使用经纬度得到位置Geocorder
先得到经纬度再用geocorder 显示位置,需要手机打开位置权限,使用GPS的话把注释去掉,GPS在室内很容易收不到信号,得到位置为空 public class MainActivity exten ...

Python_爬虫伪装_ scrapy中fake_userAgent的使用

scrapy 伪装代理和fake_userAgent的使用

第一种方法：

第二种方法：fake_userAgent的使用

Python_爬虫伪装_ scrapy中fake_userAgent的使用的更多相关文章

随机推荐

热门专题