1

使用 scrapy 做采集实在是爽，但是遇到网站反爬措施做的比较好的就让人头大了。除了硬着头皮上以外，还可以使用爬虫利器 selenium，selenium 因其良好的模拟能力成为爬虫爱(cai)好(ji)者爱不释手的武器。但是其速度又往往令人感到美中不足，特别是在与 scrapy 集成使用时，严重拖了 scrapy 的后腿，整个采集过程让人看着实在不爽，那么有没有更好的方式来使用呢？答案当然是必须的。

2

twisted 开发者在遇到与 MySQL 数据库交互时，也有同样的问题：如何在异步循环中更好的调用一个IO阻塞的函数？于是他们实现了 adbapi，将阻塞方法放进了线程池中执行。基于此，我们也可以将 selenium 相关的方法放入线程池中执行，这样就可以极大的减少等待的时间。

3

由于 scrapy 是基于 twisted 开发的，因此基于 twisted 线程池实现 selenium 浏览器池，就能很好的与 scrapy 融合在一起了，所以本次就基于 twisted 的 threadpool 开发，手把手写一个下载中间件，用来实现 scrapy 与 selenium 的优雅配合。

4

首先是对于请求类的定义，我们让 selenium 只接受自定义的请求类调用，考虑到 selenium 中可等待，可执行 JavaScript，因此为其定义了 wait_until、wait_time、script 三个属性，同时考虑到可能会在请求成功后对 webdriver 做自定制的操作，因此还定义了一个 handler 属性，该属性接受一个方法，仅可接受 driver、request、spider 三个参数，分别表示当前浏览器实例、当前请求实例、当前爬虫实例，该方法可以有返回值，当该方法返回一个 Request 或 Response 对象时，与在 scrapy 中的下载中间中的 process_request 方法返回值具有同等作用：

import scrapy

class SeleniumRequest(scrapy.Request):

    def __init__(self,

                 url,

                 callback=None,

                 wait_until=None,

                 wait_time=10,

                 script=None,

                 handler=None,

                 **kwargs):

        self.wait_until = wait_until

        self.wait_time = wait_time

        self.script = script

        self.handler = handler

        super().__init__(url, callback, **kwargs)

5

定义好请求类后，还需要实现浏览器类，用于创建 webdriver 实例，同时做一些规避检测和简单优化的动作，并支持不同的浏览器，鉴于精力有限，这里仅支持 chrome 和 firefox 浏览器：

from scrapy.http import HtmlResponse

from selenium import webdriver

from selenium.webdriver.remote.webdriver import WebDriver as RemoteWebDriver

class Browser(object):

    """Browser to make drivers"""

    # 支持的浏览器名称及对应的类

    support_driver_map = {

        'firefox': webdriver.Firefox,

        'chrome': webdriver.Chrome

    }

    def __init__(self, driver_name='chrome', executable_path=None, options=None, **opt_kw):

        assert driver_name in self.support_driver_map, f'{driver_name} not be supported!'

        self.driver_name = driver_name

        self.executable_path = executable_path

        if options is not None:

            self.options = options

        else:

            self.options = make_options(self.driver_name, **opt_kw)

    def driver(self):

        kwargs = {'executable_path': self.executable_path, 'options': self.options}

        # 关闭日志文件，仅适用于windows平台

        if self.driver_name == 'firefox':

            kwargs['service_log_path'] = 'nul'

        driver = self.support_driver_map[self.driver_name](**kwargs)

        self.prepare_driver(driver)

        return _WebDriver(driver)

    def prepare_driver(self, driver):

        if isinstance(driver, webdriver.Chrome):

            # 移除 `window.navigator.webdriver`.

            driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {

                "source": """

                Object.defineProperty(navigator, 'webdriver', {

                  get: () => undefined

                })

              """

            })

def make_options(driver_name, headless=True, disable_image=True, user_agent=None):

    """

    params headless: 是否隐藏界面

    params disable_image: 是否关闭图像

    params user_agent: 浏览器标志

    """

    if driver_name == 'chrome':

        options = webdriver.ChromeOptions()

        options.headless = headless

        # 关闭 gpu 渲染

        options.add_argument('--disable-gpu')

        if user_agent:

            options.add_argument(f"--user-agent={user_agent}")

        if disable_image:

            options.add_experimental_option('prefs', {'profile.default_content_setting_values': {'images': 2}})

        # 规避检测

        options.add_experimental_option('excludeSwitches', ['enable-automation', ])

        return options

    elif driver_name == 'firefox':

        options = webdriver.FirefoxOptions()

        options.headless = headless

        if disable_image:

            options.set_preference('permissions.default.image', 2)

        if user_agent:

            options.set_preference('general.useragent.override', user_agent)

        return options

其中，Browser 类的 driver 方法用于创建 webdriver 实例，注意到其返回的并不是原生的 selenium 中 webdriver 实例，而是一个经过自定义的类，因为笔者有意为其实现一个特殊的方法，所以使用了代理类（其方法调用和 selenium 中的 webdriver 并无不同，只是多了一个新的方法），代码如下：

class _WebDriver(object):

    def __init__(self, driver: RemoteWebDriver):

        self._driver = driver

        self._is_idle = False

    def __getattr__(self, item):

        return getattr(self._driver, item)

    def current_response(self, request):

        """返回当前页面的 response 对象"""

        return HtmlResponse(self.current_url,

                            body=str.encode(self.page_source),

                            encoding='utf-8',

                            request=request)

6

到此，终于到了最重要的一步：基于 selenium 的浏览器池实现，其实也就是进程池，只不过将初始化浏览器以及通过浏览器请求的操作交给了不同的进程而已。鉴于使用下载中间件的方式实现，因此可以将可配置属性放入 scrapy 项目中的settings.py文件中，初始化时候方便直接读取。这里先对可配置字段及其默认值说明：

# 最小 driver 实例数量

SELENIUM_MIN_DRIVERS = 3

# 最大 driver 实例数量

SELENIUM_MAX_DRIVERS = 5

# 是否隐藏界面

SELENIUM_HEADLESS = True

# 是否关闭图像加载

SELENIUM_DISABLE_IMAGE = True

# driver 初始化时的执行路径

SELENIUM_DRIVER_PATH = None

# 浏览器名称

SELENIUM_DRIVER_NAME = 'chrome'

# 浏览器标志

USER_AGENT = ...

接下来，就是中间件代码实现及其相应说明：

import logging

import threading

from scrapy import signals

from scrapy.http import Request, Response

from selenium.webdriver.support.ui import WebDriverWait

from scrapy_ajax_utils.selenium.browser import Browser

from scrapy_ajax_utils.selenium.request import SeleniumRequest

from twisted.internet import threads, reactor

from twisted.python.threadpool import ThreadPool

logger = logging.getLogger(__name__)

class SeleniumDownloaderMiddleware(object):

    @classmethod

    def from_crawler(cls, crawler):

        settings = crawler.settings

        min_drivers = settings.get('SELENIUM_MIN_DRIVERS', 3)

        max_drivers = settings.get('SELENIUM_MAX_DRIVERS', 5)

        # 初始化浏览器

        browser = _make_browser_from_settings(settings)

        dm = cls(browser, min_drivers, max_drivers)

        # 绑定方法用于在爬虫结束后执行

        crawler.signals.connect(dm.spider_closed, signal=signals.spider_closed)

        return dm

    def __init__(self, browser, min_drivers, max_drivers):

        self._browser = browser

        self._drivers = set()  # 存储启动的 driver 实例

        self._data = threading.local()  # 使用 ThreadLocal 绑定线程与 driver

        self._threadpool = ThreadPool(min_drivers, max_drivers)  # 创建线程池

    def process_request(self, request, spider):

        # 过滤非目标请求实例

        if not isinstance(request, SeleniumRequest):

            return

        # 检测线程池是否启动

        if not self._threadpool.started:

            self._threadpool.start()

        # 调用线程池执行浏览器请求

        return threads.deferToThreadPool(

            reactor, self._threadpool, self.download_by_driver, request, spider

        )

    def download_by_driver(self, request, spider):

        driver = self.get_driver()

        driver.get(request.url)

        # 等待条件

        if request.wait_until:

            WebDriverWait(driver, request.wait_time).until(request.wait_until)

        # 执行 JavaScript 并将执行结果放入 meta 中

        if request.script:

            request.meta['js_result'] = driver.execute_script(request.script)

        # 调用自定制操作方法并检测返回值

        if request.handler:

            result = request.handler(driver, request, spider)

            if isinstance(result, (Request, Response)):

                return result

        # 返回当前页面的 response 对象

        return driver.current_response(request)

    def get_driver(self):

        """

        获取当前线程绑定的 driver 对象

        如果没有则创建新的对象

        并绑定到当前线程中

        同时添加到已启动 driver 中

        最后返回

        """

        try:

            driver = self._data.driver

        except AttributeError:

            driver = self._browser.driver()

            self._drivers.add(driver)

            self._data.driver = driver

        return driver

    def spider_closed(self):

        """关闭所有启动的 driver 对象，并关闭线程池"""

        for driver in self._drivers:

            driver.quit()

        logger.debug('all webdriver closed.')

        self._threadpool.stop()

def _make_browser_from_settings(settings):

    headless = settings.getbool('SELENIUM_HEADLESS', True)

    disable_image = settings.get('SELENIUM_DISABLE_IMAGE', True)

    driver_name = settings.get('SELENIUM_DRIVER_NAME', 'chrome')

    executable_path = settings.get('SELENIUM_DRIVER_PATH')

    user_agent = settings.get('USER_AGENT')

    return Browser(headless=headless,

                   disable_image=disable_image,

                   driver_name=driver_name,

                   executable_path=executable_path,

                   user_agent=user_agent)

7

嫌代码写着麻烦？没关系，这里有一份已经写好的代码：https://github.com/kingron117/scrapy_ajax_utils

只需要 pip install scrapy-ajax-utils 即可食用~

8

本次代码实现主要参(chao)考(xi)了以下两个项目：

如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池的更多相关文章

在Scrapy中使用selenium
在scrapy中使用selenium 在scrapy中需要获取动态加载的数据的时候,可以在下载中间件中使用selenium 编码步骤: 在爬虫文件中导入webdrvier类在爬虫文件的爬虫类的构造方 ...
Java中通过Selenium WebDriver定位iframe中的元素
转载请注明出自天外归云的博客园:http://www.cnblogs.com/LanTianYou/ 问题:有一些元素,无论是通过id或是xpath等等,怎么都定位不到. 分析:这很可能是因为你要定位 ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
selenium在scrapy中的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
爬虫开发12.selenium在scrapy中的应用
selenium在scrapy中的应用阅读量: 370 1 引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝 ...
scrapy中的selenium
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
scrapy中间件中使用selenium切换ip
scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...

随机推荐

Maven 源码解析：依赖调解是如何实现的？
系列文章目录(请务必按照顺序阅读): Maven 依赖调解源码解析(一):开篇 Maven 依赖调解源码解析(二):如何调试 Maven 源码和插件源码 Maven 依赖调解源码解析(三):传递依赖, ...
VS2013中using System.Windows.Forms;引用不成功
命名空间"System"中不存在类型或命名空间名称"Windows" 项目右侧--解决资源管理器---引用---右键--添加引用---在.NET下拉框找---找 ...
[spojQTREE6]Query on a tree VI
考虑如下构造: 新建一条边$(0,1)$,并将原树以0为根建树,记$fa_{x}$为$x$的父亲(其中$1\le x\le n$) 维护两棵森林,分别记作$T_{0/1}$,每一条边恰属于一棵,其中$ ...
vue 3 学习笔记 (七)——vue3 中 computed 新用法
vue3 中的 computed 的使用,由于 vue3 兼容 vue2 的选项式API,所以可以直接使用 vue2的写法,这篇文章主要介绍 vue3 中 computed 的新用法,对比 vue2 ...
spring boot的mybatis开启日志
logging: level: com: xxx: xxxx: xxxx: mapper: DEBUG logging.level.mapper对应的包名=DEBUG
Git的基础入门
Git --everything-is-local 查阅文档 Git是一个免费的开源分布式版本控制系统,旨在快速高效地处理从小型到大型项目的所有内容. Git易于学习, 占地面积小,具有闪电般的快速 ...
[FJOI2021]游记
高一这条命早在$NOIP$就没了,现在不过是强行续命罢了,希望死的不要很难看. 高二重开一档,最后一条命了,希望能高二进队$Orz$. $Day -2$ 开始敲板子. 先写了个交互的题,猜 ...
Markdown—.md文件是什么？怎么打开？
md全称markdown,markdown也是一种标记语言. md文件其实可以用常用的文本编辑器都可以打开. 用记事本打开,把markdown文件拖到记事本图标上就可以打开 . 用 subli ...
在linux下查看python已经安装的模块
一.命令行下使用pydoc命令在命令行下运行$ pydoc modules即可查看二.在python交互解释器中使用help()查看 python--->在交互式解释器中输入>> ...
【模板】有源汇有上下界最大流（网络流）/ZOJ3229
先导知识无源汇有上下界可行流题目链接 https://vjudge.net/problem/ZOJ-3229 https://www.luogu.com.cn/problem/P5192 (有改动 ...

如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池

1

2

3

4

5

6

7

8

如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池的更多相关文章

随机推荐

热门专题