三十一 Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter

1、chrome谷歌浏览器无界面运行

chrome谷歌浏览器无界面运行，主要运行在Linux系统，windows系统下不支持

chrome谷歌浏览器无界面运行需要一个模块，pyvirtualdisplay模块

需要先安装pyvirtualdisplay模块

Display(visible=0, size=(800, 600))设置浏览器，visible=0表示不显示界面，size=(800, 600)表示浏览器尺寸

# -*- coding: utf-8 -*-

import scrapy

from scrapy.http import Request,FormRequest

from selenium import webdriver                  # 导入selenium模块来操作浏览器软件

from scrapy.xlib.pydispatch import dispatcher   # 信号分发器

from scrapy import signals                      # 信号

class PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider

    name = 'pach'                                           #设置爬虫名称

    allowed_domains = ['www.taobao.com']                    #爬取域名

    def __init__(self):                                                                                 #初始化

        from pyvirtualdisplay import Display

        display = Display(visible=0, size=(800, 600))

        display.start()

        self.browser = webdriver.Chrome(executable_path='H:/py/16/adc/adc/Firefox/chromedriver.exe')    #创建谷歌浏览器对象

        super(PachSpider, self).__init__()                                                              #设置可以获取上一级父类基类的，__init__方法里的对象封装值

        dispatcher.connect(self.spider_closed, signals.spider_closed)       #dispatcher.connect()信号分发器，第一个参数信号触发函数，第二个参数是触发信号，signals.spider_closed是爬虫结束信号

        #运行到此处时，就会去中间件执行，RequestsChrometmiddware中间件了

    def spider_closed(self, spider):                                        #信号触发函数

        print('爬虫结束 停止爬虫')

        self.browser.quit()                                                 #关闭浏览器

    def start_requests(self):    #起始url函数，会替换start_urls

        return [Request(

            url='https://www.taobao.com/',

            callback=self.parse

        )]

    def parse(self, response):

        title = response.css('title::text').extract()

        print(title)

注意：Linux系统下会出现错误

报错：easyprocess.EasyProcessCheckInstalledError: cmd=['Xvfb', '-help'] OSError=[Errno 2] No such file or directory

需要两个步骤解决

　　1.执行命令：sudo apt-get install xvfb 安装xvfb软件

　　2.执行命令：pip install xvfbwrapper 安装xvfbwrapper模块

以下只是提到一下，前面讲的selenium模块操作浏览器已经够用了

2、scrapy-splash，也是scrapy获取动态网页的方案，这里就不介绍了，详情：https://github.com/scrapy-plugins/scrapy-splash

3、splinter，是一个操作浏览器的模块详情：https://github.com/cobrateam/splinter

三十一 Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter的更多相关文章

第三百五十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter
第三百五十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行.scrapy-splash. splinter 1.chrome谷歌浏览器无界面运行 chrome ...
三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中
Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中,判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如 ...
四十一 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查
elasticsearch(搜索引擎)基本的索引和文档CRUD操作也就是基本的索引和文档.增.删.改.查.操作注意:以下操作都是在kibana里操作的 elasticsearch(搜索引擎)都是基 ...
五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install s ...
二十一 Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫数据保存
注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件 spider是一个信号检测 # -*- coding: utf-8 -*- # Define your ite ...
三十 Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信号触发函数,第二个参数是触发信号,signals.spider_closed是爬虫结束信号 # -*- coding: u ...
三十三 Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)
Scrapy提供了方便的收集数据的机制.数据以key/value方式存储,值大多是计数值. 该机制叫做数据收集器(Stats Collector),可以通过 Crawler API 的属性 stats ...
第三百七十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门搜索
第三百七十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)用Django实现我的搜索以及热门我的搜素简单实现原理我们可以用js来实现,首先用js获取到 ...
第三百六十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引
第三百六十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录.这种索引表中的每一项都包 ...

随机推荐

在Delphi中使用indy SMTP发送gmail邮件[转]
在Delphi中使用indy SMTP发送gmail邮件[转] 2012-01-01 22:44:30| 分类: Delphi | 标签: |举报 |字号大中小订阅在Delphi中发送 ...
Linux系统——ACL权限控制及特殊权限
ACL权限控制 ACL(access control list),可以提供除属主.属组.其他人的rwx权限之外的细节权限设定 ACL的权限控制 (1)User 使用者 (2)Group 群组 (3)M ...
PKU 1204 Word Puzzles(AC自动机)
题目大意:原题链接给定一个字符串矩阵和待查找的单词,可以朝8个不同的方向查找,输出待查找单词第一个字母在矩阵中出现的位置和该单词被查到的方向. A~H代表8个不同的方向,A代表正北方向,其他依次以4 ...
CCF 炉石传说(模拟)
试题编号: 201612-3 试题名称: 炉石传说时间限制: 1.0s 内存限制: 256.0MB 问题描述 <炉石传说:魔兽英雄传>(Hearthstone: Heroes of Wa ...
2018.9 ECNU ICPC/CCPC Trial Round #2 Query On Tree (树链剖分+线段树维护)
传送门:https://acm.ecnu.edu.cn/contest/105/problem/Q/ 一棵树,支持两种操作:给一条路径上的节点加上一个等差数列;求两点路径上节点和. 很明显,熟练剖分. ...
LightOJ - 1074 Extended Traffic (SPFA+负环）
题意:N个点,分别有属于自己的N个busyness(简称b),两点间若有边,则边权为(ub-vb)^3.Q个查询,问从点1到该点的距离为多少. 分析:既然是差的三次方,那么可能有负边权的存在,自然有可 ...
Spring 实现数据隔离
需求用户数据要同时支持在mysql和redis进行管理.存储. 思路利用spring的注解,在配置中指定存储类型,启动时识别并选择对应的实现类. 代码 1. 用户管理的接口类 public int ...
JS正则表达式从入门到入土（1）—— REGEXP对象
REGEXP对象 JavaScript通过内置对象RegExp支持正则表达式,有两种方法实例化RegExp对象. 1.字面量 2.构造函数字面量字面量是直接通过/.../创建RegExp对象实例. ...
rowspan && colspan
> 跨行 <html> <body> <table width="> <tr> <th>col1</th> &l ...
linux input输入子系统分析《四》：input子系统整体流程全面分析
1 input输入子系统整体流程本节分析input子系统在内核中的实现,包括输入子系统(Input Core),事件处理层(Event Handler)和设备驱动层.由于上节代码讲解了设备 ...

三十一 Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter

三十一 Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter的更多相关文章

随机推荐

热门专题