1

使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了。除了硬着头皮上以外,还可以使用爬虫利器 seleniumselenium 因其良好的模拟能力成为爬虫爱(cai)好(ji)者爱不释手的武器。但是其速度又往往令人感到美中不足,特别是在与 scrapy 集成使用时,严重拖了 scrapy 的后腿,整个采集过程让人看着实在不爽,那么有没有更好的方式来使用呢?答案当然是必须的。

2

twisted 开发者在遇到与 MySQL 数据库交互时,也有同样的问题:如何在异步循环中更好的调用一个IO阻塞的函数?于是他们实现了 adbapi,将阻塞方法放进了线程池中执行。基于此,我们也可以将 selenium 相关的方法放入线程池中执行,这样就可以极大的减少等待的时间。

3

由于 scrapy 是基于 twisted 开发的,因此基于 twisted 线程池实现 selenium 浏览器池,就能很好的与 scrapy 融合在一起了,所以本次就基于 twistedthreadpool 开发,手把手写一个下载中间件,用来实现 scrapyselenium 的优雅配合。

4

首先是对于请求类的定义,我们让 selenium 只接受自定义的请求类调用,考虑到 selenium 中可等待,可执行 JavaScript,因此为其定义了 wait_untilwait_timescript 三个属性,同时考虑到可能会在请求成功后对 webdriver 做自定制的操作,因此还定义了一个 handler 属性,该属性接受一个方法,仅可接受 driverrequestspider 三个参数,分别表示当前浏览器实例、当前请求实例、当前爬虫实例,该方法可以有返回值,当该方法返回一个 RequestResponse 对象时,与在 scrapy 中的下载中间中的 process_request 方法返回值具有同等作用:

import scrapy

class SeleniumRequest(scrapy.Request):

    def __init__(self,
url,
callback=None,
wait_until=None,
wait_time=10,
script=None,
handler=None,
**kwargs):
self.wait_until = wait_until
self.wait_time = wait_time
self.script = script
self.handler = handler
super().__init__(url, callback, **kwargs)

5

定义好请求类后,还需要实现浏览器类,用于创建 webdriver 实例,同时做一些规避检测和简单优化的动作,并支持不同的浏览器,鉴于精力有限,这里仅支持 chromefirefox 浏览器:

from scrapy.http import HtmlResponse
from selenium import webdriver
from selenium.webdriver.remote.webdriver import WebDriver as RemoteWebDriver class Browser(object):
"""Browser to make drivers"""
# 支持的浏览器名称及对应的类
support_driver_map = {
'firefox': webdriver.Firefox,
'chrome': webdriver.Chrome
} def __init__(self, driver_name='chrome', executable_path=None, options=None, **opt_kw):
assert driver_name in self.support_driver_map, f'{driver_name} not be supported!'
self.driver_name = driver_name
self.executable_path = executable_path
if options is not None:
self.options = options
else:
self.options = make_options(self.driver_name, **opt_kw) def driver(self):
kwargs = {'executable_path': self.executable_path, 'options': self.options}
# 关闭日志文件,仅适用于windows平台
if self.driver_name == 'firefox':
kwargs['service_log_path'] = 'nul'
driver = self.support_driver_map[self.driver_name](**kwargs)
self.prepare_driver(driver)
return _WebDriver(driver) def prepare_driver(self, driver):
if isinstance(driver, webdriver.Chrome):
# 移除 `window.navigator.webdriver`.
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
"source": """
Object.defineProperty(navigator, 'webdriver', {
get: () => undefined
})
"""
}) def make_options(driver_name, headless=True, disable_image=True, user_agent=None):
"""
params headless: 是否隐藏界面
params disable_image: 是否关闭图像
params user_agent: 浏览器标志
"""
if driver_name == 'chrome':
options = webdriver.ChromeOptions()
options.headless = headless
# 关闭 gpu 渲染
options.add_argument('--disable-gpu')
if user_agent:
options.add_argument(f"--user-agent={user_agent}")
if disable_image:
options.add_experimental_option('prefs', {'profile.default_content_setting_values': {'images': 2}})
# 规避检测
options.add_experimental_option('excludeSwitches', ['enable-automation', ])
return options elif driver_name == 'firefox':
options = webdriver.FirefoxOptions()
options.headless = headless
if disable_image:
options.set_preference('permissions.default.image', 2)
if user_agent:
options.set_preference('general.useragent.override', user_agent)
return options

其中,Browser 类的 driver 方法用于创建 webdriver 实例,注意到其返回的并不是原生的 seleniumwebdriver 实例,而是一个经过自定义的类,因为笔者有意为其实现一个特殊的方法,所以使用了代理类(其方法调用和 selenium 中的 webdriver 并无不同,只是多了一个新的方法),代码如下:

class _WebDriver(object):

    def __init__(self, driver: RemoteWebDriver):
self._driver = driver
self._is_idle = False def __getattr__(self, item):
return getattr(self._driver, item) def current_response(self, request):
"""返回当前页面的 response 对象"""
return HtmlResponse(self.current_url,
body=str.encode(self.page_source),
encoding='utf-8',
request=request)

6

到此,终于到了最重要的一步:基于 selenium 的浏览器池实现,其实也就是进程池,只不过将初始化浏览器以及通过浏览器请求的操作交给了不同的进程而已。鉴于使用下载中间件的方式实现,因此可以将可配置属性放入 scrapy 项目中的settings.py文件中,初始化时候方便直接读取。这里先对可配置字段及其默认值说明:

# 最小 driver 实例数量
SELENIUM_MIN_DRIVERS = 3 # 最大 driver 实例数量
SELENIUM_MAX_DRIVERS = 5 # 是否隐藏界面
SELENIUM_HEADLESS = True # 是否关闭图像加载
SELENIUM_DISABLE_IMAGE = True # driver 初始化时的执行路径
SELENIUM_DRIVER_PATH = None # 浏览器名称
SELENIUM_DRIVER_NAME = 'chrome' # 浏览器标志
USER_AGENT = ...

接下来,就是中间件代码实现及其相应说明:

import logging
import threading from scrapy import signals
from scrapy.http import Request, Response
from selenium.webdriver.support.ui import WebDriverWait from scrapy_ajax_utils.selenium.browser import Browser
from scrapy_ajax_utils.selenium.request import SeleniumRequest from twisted.internet import threads, reactor
from twisted.python.threadpool import ThreadPool logger = logging.getLogger(__name__) class SeleniumDownloaderMiddleware(object): @classmethod
def from_crawler(cls, crawler):
settings = crawler.settings
min_drivers = settings.get('SELENIUM_MIN_DRIVERS', 3)
max_drivers = settings.get('SELENIUM_MAX_DRIVERS', 5)
# 初始化浏览器
browser = _make_browser_from_settings(settings)
dm = cls(browser, min_drivers, max_drivers)
# 绑定方法用于在爬虫结束后执行
crawler.signals.connect(dm.spider_closed, signal=signals.spider_closed)
return dm def __init__(self, browser, min_drivers, max_drivers):
self._browser = browser
self._drivers = set() # 存储启动的 driver 实例
self._data = threading.local() # 使用 ThreadLocal 绑定线程与 driver
self._threadpool = ThreadPool(min_drivers, max_drivers) # 创建线程池 def process_request(self, request, spider):
# 过滤非目标请求实例
if not isinstance(request, SeleniumRequest):
return # 检测线程池是否启动
if not self._threadpool.started:
self._threadpool.start() # 调用线程池执行浏览器请求
return threads.deferToThreadPool(
reactor, self._threadpool, self.download_by_driver, request, spider
) def download_by_driver(self, request, spider):
driver = self.get_driver()
driver.get(request.url) # 等待条件
if request.wait_until:
WebDriverWait(driver, request.wait_time).until(request.wait_until) # 执行 JavaScript 并将执行结果放入 meta 中
if request.script:
request.meta['js_result'] = driver.execute_script(request.script) # 调用自定制操作方法并检测返回值
if request.handler:
result = request.handler(driver, request, spider)
if isinstance(result, (Request, Response)):
return result # 返回当前页面的 response 对象
return driver.current_response(request) def get_driver(self):
"""
获取当前线程绑定的 driver 对象
如果没有则创建新的对象
并绑定到当前线程中
同时添加到已启动 driver 中
最后返回
"""
try:
driver = self._data.driver
except AttributeError:
driver = self._browser.driver()
self._drivers.add(driver)
self._data.driver = driver
return driver def spider_closed(self):
"""关闭所有启动的 driver 对象,并关闭线程池"""
for driver in self._drivers:
driver.quit()
logger.debug('all webdriver closed.')
self._threadpool.stop() def _make_browser_from_settings(settings):
headless = settings.getbool('SELENIUM_HEADLESS', True)
disable_image = settings.get('SELENIUM_DISABLE_IMAGE', True)
driver_name = settings.get('SELENIUM_DRIVER_NAME', 'chrome')
executable_path = settings.get('SELENIUM_DRIVER_PATH')
user_agent = settings.get('USER_AGENT')
return Browser(headless=headless,
disable_image=disable_image,
driver_name=driver_name,
executable_path=executable_path,
user_agent=user_agent)

7

嫌代码写着麻烦?没关系,这里有一份已经写好的代码:https://github.com/kingron117/scrapy_ajax_utils

只需要 pip install scrapy-ajax-utils 即可食用~

8

本次代码实现主要参(chao)考(xi)了以下两个项目:

  1. https://github.com/scrapy-plugins/scrapy-headless
  2. https://github.com/clemfromspace/scrapy-selenium

如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池的更多相关文章

  1. 在Scrapy中使用selenium

    在scrapy中使用selenium 在scrapy中需要获取动态加载的数据的时候,可以在下载中间件中使用selenium 编码步骤: 在爬虫文件中导入webdrvier类 在爬虫文件的爬虫类的构造方 ...

  2. Java中通过Selenium WebDriver定位iframe中的元素

    转载请注明出自天外归云的博客园:http://www.cnblogs.com/LanTianYou/ 问题:有一些元素,无论是通过id或是xpath等等,怎么都定位不到. 分析:这很可能是因为你要定位 ...

  3. selenium在scrapy中的使用、UA池、IP池的构建

    selenium在scrapy中的使用流程 重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...

  4. Scrapy中集成selenium

    面对众多动态网站比如说淘宝等,一般情况下用selenium最好 那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...

  5. selenium在scrapy中的应用

    引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...

  6. 爬虫开发12.selenium在scrapy中的应用

    selenium在scrapy中的应用阅读量: 370 1 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝 ...

  7. scrapy中的selenium

    引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...

  8. scrapy中间件中使用selenium切换ip

    scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面 但是有个问题,容易给反爬,因为在scrapy中间件mid中使用sel ...

  9. scrapy中使用selenium来爬取页面

    scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...

随机推荐

  1. [atAGC045E]Fragile Balls

    构造一张有向图$G=([1,n],\{(a_{i},b_{i})\})$(可以有重边和自环),定义其连通块为将其看作无向图(即边无向)后分为若干个连通块 记$in_{i}$为$i$的入度(即最终盒子中 ...

  2. [bzoj1032]祖码

    先将连续的一段相同的点连起来,然后考虑对于一段区间,分两种情况:1.首尾两点再同时消掉,必然要先将去掉首尾的一段消掉后再消2.首尾两点再不同时刻消掉,那么必然存在一个断点k,使得k左右无关(题目中的错 ...

  3. nvm安装以及管理多版本node教程

    安装nvm.node.npm 下载nvm安装包,推荐使用1.1.7,我个人使用1.1.8会有中文乱码的报错 点击exe文件,注意修改nvm的安装根目录以及node的安装根目录,后者是以后管理多版本no ...

  4. Codeforces 1411G - No Game No Life(博弈论+生成函数+FWTxor)

    Codeforces 题面传送门 & 洛谷题面传送门 一道肥肠套路的题目. 首先这题涉及博弈论.注意到这里每一个棋子的移动方式都是独立的,因此可以考虑 SG 定理.具体来说,我们先求出每个棋子 ...

  5. 调用clapack库注意事项

    寒假期间在自己开发的模型DGOM里成功的用clapack替换了MKL,这里就介绍下遇到的几个坑,希望能够帮助别人少走弯路. 1. 调用clapack函数时注意整数类型为integer. 虽然clapa ...

  6. 【R方差分析】蛋白质表达量多组比较

    初始数据类似: 蛋白质组数据虽不是严格的正态分布,但目前最常用的检验方法还是T检验(两组比较)和方差分析(多组比较).这个话题值得深究,这里不展开. 主要是求多个蛋白的Pvalue值或FDR,用于差异 ...

  7. brew 切换源

    切换到国内源 # 替换brew.git: $ cd "$(brew --repo)" # 中国科大: $ git remote set-url origin https://mir ...

  8. Oracle--计算某一日期为一年中的第几周

    我自己实现的脚本: select T31267.CREATED_DATE as F31265, (select to_char(to_date(T31267.CREATED_DATE,'yyyy-mm ...

  9. du命令之计算文件大小

    在linux中,常用du命令来计算文件或目录的大小 名称: du - 计算每个文件的磁盘用量,目录则取总用量. 用法: du [选项]... [文件]... 常用选项 -a, --all 输出所有文件 ...

  10. 14-Reverse Integer

    思路: 先判定符号,整型范围[-2^32,2^32] 取余除10操作,依次进行,越界返回0 Reverse digits of an integer. Example1: x = 123, retur ...