phantomjs集成到scrapy中，并禁用图片，切换UA

phantomjs是一个没有界面的浏览器，支持各种web标准，提供DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG，对于爬取一些经过js渲染的页面非常有用。但是phantomjs默认的user-agent一般都被那些防采集的网站屏蔽了，鬼都知道用这个浏览器，都是来爬取网页的，不是正常的用户。

phantomjs相当于一个真实的浏览器，一个浏览器该加载的该渲染的它都加载都渲染，只是没有界面而已。所以爬取网页的速度很慢。如果可以不加载图片，网页加载速度就会快不少.

下面是PhantomJS禁用加载图片，并随机切换UA的scrapy middleware的完整代码

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

from selenium.webdriver.support.wait import WebDriverWait

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

from fake_useragent import UserAgent

from scrapy.http import HtmlResponse

class SeleniumSpiderMiddleware(object):

def process_request(self, request, spider):

# 随机请求头

ua = UserAgent()

ua_use = ua.random

# 设置请求头

dcap = dict(DesiredCapabilities.PHANTOMJS)

# --load-images=false 图片不加载

# --disk - cache = true 启用缓存

# --max-disk-cache-size=1024 设置最大缓存数量

SERVICE_ARGS = [' --disk-cache=true','--max-disk-cache-size=1024', '--load-images=false']

dcap["phantomjs.page.settings.userAgent"] = ua_use

# 请求头生效，图片不加载生效

driver = webdriver.PhantomJS(desired_capabilities=dcap, service_args=SERVICE_ARGS)

# 请求的url是这个

url = request.url

driver.get(url)

# 设置等待所有的td标签加载完成

locator = (By.CSS_SELECTOR, 'tbody > tr > td')

WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located(locator))

# 截图看是否有图片加载

driver.save_screenshot('aqi.png')

body = driver.page_source

driver.close()

# body必须为bytes类型

response = HtmlResponse(url=url, request=request, encoding='utf8', body=body.encode())

# 直接return response 直接将response返回到engine不会重新下载

return response

phantomjs集成到scrapy中，并禁用图片，切换UA的更多相关文章

第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
三十 Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信号触发函数,第二个参数是触发信号,signals.spider_closed是爬虫结束信号 # -*- coding: u ...
推荐几款jquery图片切换插件
一.前言毕业季到了,大家都在匆匆忙忙的记录大学里最美好的时光,照片中各种花式.各种姿势都涌现出来了.这么多的照片怎么展示出来给自己的好友看呢?有人选择做成视频,有人选择ps之后做成图片集,而我选择利 ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
第三百五十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
第三百五十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详 ...
三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
scrapy中下载文件和图片
下载文件是一种很常见的需求,例如当你在使用爬虫爬取网站中的图片.视频.word.pdf.压缩包等的时候 scrapy中提供了FilesPipeline和ImagesPipeline,专门用来下载文件和 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...

随机推荐

全面总结： Golang 调用 C/C++，例子式教程
作者:林冠宏 / 指尖下的幽灵掘金:https://juejin.im/user/587f0dfe128fe100570ce2d8 博客:http://www.cnblogs.com/linguan ...
maven（01）--安装及其介绍
1:下载maven windows下载 2:将下载文件夹解压,然后放在一个安装目录(可任意选择),例如就放在D盘的根目录然后在设置环境变量,新建一个环境变量,名称为M2_HOME,其设置值为mave ...
[国嵌攻略][160][SPI驱动程序设计]
SPI Flash驱动 1.打开/drivers/mtd/devices/m25p80.c驱动文件.找到初始化m25p80_init函数,其中通过spi_register_driver来注册spi设备 ...
linux 下CentOS 下 npm命令安装gitbook失败的问题
运行环境 linux 服务器:CentOS 7.0 系统:安装了nodejs :使用 npm 安装 gitbook 出现错误提示: npm install -g gitbook-cli symbol ...
YUI3组件框架之plugin
plugin相关源码分析: plugin功能包括如下几个模块, 简单分析如下: pluginhost-base 维护对象 this._plugins = {}: 并提供方法: plug.unplug. ...
Tomcat之URL查找的过程
Tomcat之URL查找的过程 webapps目录: tomcat共享目录.需要共享的本地资源放到此目录中.
Linux环境JDK安装
Java的编程离不开jdk,今天本文主要讲下Linux下的JDK安装与配置 1.卸载Linux自带的JDK #检测jdk安装包 [root@localhost ~]# rpm -qa | grep j ...
dede首页调用分类信息
格兰斯-与你共同开创门窗定制5G时代 5G战略--明确的,没有歧义的明亮奥尼克斯的观点与追求 {dede:channelartlist row=1} {dede:arclistsg r ...
如何设置让网站禁止被爬虫收录？robots.txt
robot.txt只是爬虫禁抓协议,user-agent表示禁止哪个爬虫,disallow告诉爬出那个禁止抓取的目录. 如果爬虫够友好的话,会遵守网站的robot.txt内容. 一个内部业务系统,不想 ...
JVM核心之JVM运行和类加载全过程
为什么研究类加载全过程? 有助于连接JVM运行过程更深入了解java动态性(解热部署,动态加载),提高程序的灵活性类加载机制 JVM把class文件加载到内存,并对数据进行校验.解析和初始化,最终 ...

phantomjs集成到scrapy中，并禁用图片，切换UA

phantomjs集成到scrapy中，并禁用图片，切换UA的更多相关文章

随机推荐

热门专题