一.UA池：User-Agent池

　　　　- 作用：尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。

　　　　- 操作流程：

　　　　 1.在下载中间件中拦截请求

　　　　2.将拦截到的请求的请求头信息中的UA进行篡改伪装

　　　　3.在配置文件中开启下载中间件

　　　　　代码展示：

方法一:

#导包

#这个包的位置自己根据自己的scrapy框架的位置来

from scrapy.downloadermiddleware.useragent import UserAgentMiddleware

import random

#UA池代码的编写（单独给UA池封装一个下载中间件的一个类）

class RandomUserAgent(UserAgentMiddleware):

    def process_request(self, request, spider):

        #从列表中随机抽选出一个ua值

        ua = random.choice(user_agent_list)

        #ua值进行当前拦截到请求的ua的写入操作

        request.headers.setdefault('User-Agent',ua)

user_agent_list = [

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "

        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "

        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "

        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

]

方法二:

1.安装包:　　

　　pip install scrapy-fake-useragent

2. 在settings中配置中间件

DOWNLOADER_MIDDLEWARES = {

   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, # 关闭默认方法

    'scrapy_fake_useragent.middleware.RandomUserAgentMiddleware': 400, # 开启

　　　　}

#这样就可以随机抽出一个ua，就不用走第3步了，如果这个不设置，就要走第三步

RANDOM_UA_TYPE= 'random'

3.中间件写入:

class RandomUserAgent(object):

　　def process_request(self, request, spider):

       ua = UserAgent()

      　　request.headers['User-Agent'] = ua.random

二.代理池

　　　　- 作用：尽可能多的将scrapy工程中的请求的IP设置成不同的。

　　　　- 操作流程：

　　　　1.在下载中间件中拦截请求

　　　　2.将拦截到的请求的IP修改成某一代理IP

　　　　3.在配置文件中开启下载中间件

　　　　代码展示：

#批量对拦截到的请求进行ip更换

#单独封装下载中间件类

from scrapy import signals

import random

class MiddleproDownloaderMiddleware(object):

　　# 可被选用的代理IP

    PROXY_http = [

        '153.180.102.104:80',

        '195.208.131.189:56055',

    ]

    PROXY_https = [

        '120.83.49.90:9000',

        '95.189.112.214:35508',

    ]

   #拦截所有未发生异常的请求

    def process_request(self, request, spider):

        # 使用代理池进行请求代理ip的设置

        # if request.url.split(':')[0] == 'http':

        #     request.meta['proxy'] = random.choice(self.PROXY_http)

        # else:

        #     request.meta['proxy'] = random.choice(self.PROXY_https)

        return None

    #拦截所有的响应

    def process_response(self, request, response, spider):

        return response

    #拦截到产生异常的请求

    def process_exception(self, request, exception, spider):

        # 使用代理池进行请求代理ip的设置

        print('this is process_exception!')

        if request.url.split(':')[0] == 'http':

            request.meta['proxy'] = random.choice(self.PROXY_http)

        else:

            request.meta['proxy'] = random.choice(self.PROXY_https)

　　setting.py

DOWNLOADER_MIDDLEWARES = {

   'moviePro.middlewares.MovieproDownloaderMiddleware': 543,

}

三.selenium

一般情况下，我们在 start_urls 里写好url后，会自动发起get请求，但是这样不好处理动态数据，那么对于动态数据（就是如动态加载，ajax请求之类的数据）我们一般用到自动化工具selenium，直接操作浏览器访问数据得到的响应经过下载器组件与引擎组件之间的中间件（不清楚请看上面的组件运行原理），我们把selenium工具获取的动态数据在中间件中做下处理，然后把数据在返回爬虫文件的parse(response)

案例：访问网易新闻

wangyi.py

import scrapy

from selenium import webdriver

'''

在scrapy中使用selenium的编码流程:

    1.在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性)

    2.重写spider的一个方法closed(self,spider),在该方法中执行浏览器关闭的操作

    3.在下载中间件的process_response方法中,通过spider参数获取浏览器对象

    4.在中间件的process_response中定制基于浏览器自动化的操作代码(获取动态加载出来的页面源码数据)

    5.实例化一个响应对象,且将page_source返回的页面源码封装到该对象中

    6.返回该新的响应对象

　　 7.在配置文件中开启中间件

'''

class WangyiSpider(scrapy.Spider):

    name = 'wangyi'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://war.163.com/']

    def __init__(self):

        self.bro = webdriver.Chrome(executable_path=r'C:\Users\Administrator\Desktop\爬虫+数据\day_03_爬虫\chromedriver.exe')

    def parse(self, response):

        div_list = response.xpath('//div[@class="data_row news_article clearfix "]')

        for div in div_list:

            title = div.xpath('.//div[@class="news_title"]/h3/a/text()').extract_first()

            print(title)

    def closed(self,spider):

        print('关闭浏览器对象!')

        self.bro.quit()

　　middlewares.py

from scrapy import signals

from scrapy.http import HtmlResponse

from time import sleep

class WangyiproDownloaderMiddleware(object):def process_request(self, request, spider):

        print('即将返回一个新的响应对象!!!')

        #如何获取动态加载出来的数据

        bro = spider.bro

        bro.get(url=request.url)

        sleep(3)

        #包含了动态加载出来的新闻数据

        page_text = bro.page_source

        sleep(3)

        return HtmlResponse(url=spider.bro.current_url,body=page_text,encoding='utf-8',request=request)

　　setting.py

　　开启中间件

DOWNLOADER_MIDDLEWARES = {

   'wangyipro.middlewares.WangyiproDownloaderMiddleware': 543,

}

中间件使用之（UA，IP，selenium）的使用的更多相关文章

构建 Owin 中间件来获取客户端IP地址
Not so long ago, we discussed on this blog the possible ways of retrieving the client’s IP address i ...
scrapy中间件中使用selenium切换ip
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...
Scrapy 框架中间件代理IP 提高效率
中间件拦截请求跟响应进行ua(User-Agent ) 伪装代理 IP 中间件位置: 引擎和下载器中间的中间件 ( 下载中间件) 引擎跟 spider 中间的中间件 ( 爬虫中间件)( ...
python爬虫请求库之selenium模块
一介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器 ...
Django CBV加装饰器、Django中间件、auth模块
一. CBV加装饰器在视图层中,基于函数的视图叫FBV(function base views),基于类的视图叫CBV(class base views).当需要用到装饰器时,例如之前的基于Cook ...
Django 如何获取真实远程客户端IP
问题简述我们知道HttpRequest.META字典包含所有HTTP头部信息(可用的头部信息取决于客户端和服务器).一般情况下,HttpRequest.META.get('REMOTE_ADDR') ...
IIs实验，中间件漏洞
实验一.IIS实验 1.修改端口开始→管理工具→Internet 信息服务(IIS)管理器,属性,将端口改为 8080 如图: 2. IP 地址绑定前面步骤同第一题一样,将 Ip 改为本 ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
python 全栈开发，Day138(scrapy框架的下载中间件,settings配置)
昨日内容拾遗打开昨天写的DianShang项目,查看items.py class AmazonItem(scrapy.Item): name = scrapy.Field() # 商品名 price ...
scrapy 使用代理ip
1.在settings文件中添加ip池 IPPOOL=['xxx.xx.xx.xx','xxx.xx.xxx.xx'] 2.在middleware文件中添加自己的代理ip类(首先需要导入ipPOOL, ...

随机推荐

Ref 和out
out 关键字会导致参数通过引用来传递.这与 ref 关键字类似,不同之处在于 ref 要求变量必须在传递之前进行初始化.若要使用 out 参数,方法定义和调用方法都必须显式使用 out 关键字.例如 ...
MongoDB整理笔记のMapReduce
MongDB的MapReduce相当于MySQL中的“group by”,所以在MongoDB上使用Map/Reduce进行并行“统计”很容易. 使用MapReduce要实现两个函数Map函数和Red ...
wcf文件上传时碰到的配置问题
1.远程服务器返回了意外相应:(413) Request Entity Too Large 修改客户端配置maxReceivedMessageSize="2147483647" & ...
ExposedObject的使用
ExposedObject可以将一个对象快速封装未一个dynamic using System; namespace ConsoleApp2 { class Program { static void ...
vs2015+opencv3.3.1 实现 c++ 灰度高斯滤波器
#include <opencv2\highgui\highgui.hpp> #include <iostream> #include<vector> using ...
docker--基本命令
仅做学习参考,可能有误 part1:启动docker服务在Windows上使用MySQL时候,有时无法直接使用MySQL -uroot -p 来进入MySQL,这是因为我们没有启动会MySQL服务此 ...
（一）用C或C ++扩展（翻译）
用C或C ++扩展如果你知道如何用C语言编程,那么为Python添加新的内置模块是很容易的.这种扩展模块可以做两件不能直接在Python中完成的事情:它们可以实现新的内置对象类型,以及调用C库函数和 ...
C# Winform 加载窗体/对象时的等待页面设计
在设计应用程序过程中,有时候加载对象需时较长,我们可以显示一个Loading等待页面,对用户来说就比较友好了. 这个还是涉及到多线程,下面是步骤. 一.创建好Loading窗体: 一个Panel用于显 ...
redis源码分析（3）sds
sds是redis中用来处理字符串的数据结构.sds的定义在sds.h中: typedef char *sds; 简洁明了!简明扼要!(X,玩我呢是吧!这特么不就是c中的字符串么?!).像redis这 ...
Maven国内源设置阿里云地址
Maven国内源设置目前国外的maven源访问非常慢,作为一个Java开发者,是一件很痛苦的事,而国内的maven源,oschina已经关闭,目前最好的方式,就是使用阿里云的镜像: <mirr ...

中间件使用之（UA，IP，selenium）的使用

一.UA池：User-Agent池

二.代理池

三.selenium

中间件使用之（UA，IP，selenium）的使用的更多相关文章

随机推荐

热门专题