selenium是浏览器测试自动化工具，很容易完成鼠标点击，翻页等动作，确定是一次只能加载一个页面，无法异步渲染页面，也就限制了selenium爬虫的抓取效率。
splash可以实现异步渲染页面，可以同时渲染几个页面。缺点是在页面点击，，模拟登陆方面没有selenium灵活。

1. 安装 docker和splash

可以看我之前写的如何安装并启动docker和splash

https://www.cnblogs.com/zichliang/p/15796638.html

注意：！！

#root用户开放8050端口

[root@wzy_woyun ~]# firewall-cmd --permanent --add-port=8050/tcp

success

[root@wzy_woyun ~]# firewall-cmd --reload

Success

普通的python 动态lua脚本

添加请求头请求url

function main(splash,args)

          local url=args.url

          splash:set_user_agent("Mozilla/5.0Chrome/69.0.3497.100Safari/537.36")

          splash:go(url)

          splash:wait(2)

          splash:go(url)

          return{

          html=splash:html(),

          png = splash:png()

          }

end

通过滑动来完成动态加载

function main(splash, args)

      splash:go(args.url)

      local scroll_to = splash:jsfunc("window.scrollTo")

      scroll_to(0, 2800)

      splash:set_viewport_full()

      splash:wait(5)

      return {html=splash:html()}

end

结合scarpy 来使用首先需要在settings中添加

SPLASH_URL = 'http://192.168.2.55:8050/'

DOWNLOADER_MIDDLEWARES = {

    'curreny.middlewares.ProcessAllException': 200,

    'curreny.middlewares.CurrenyDownloaderMiddleware': 543,

    'scrapy_splash.SplashCookiesMiddleware': 723,

    'scrapy_splash.SplashMiddleware': 725,

    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,

}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

# 缓存

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

然后在spider中添加lua脚本

"""

平潭综合实验区人民政府

"""

import copy

import re

import time

import scrapy

import scrapy_splash

from curreny.items import CurrenyItem

class PingtancomprehensiveexperimentgovproSpider(scrapy.Spider):

    name = 'PingTanComprehensiveExperimentGovPro'

    # allowed_domains = ['xxx.com']

    start_urls = ['http://www.pingtan.gov.cn/jhtml/cn/8423']

    def start_requests(self):

        lua="""

            function main(splash, args)

              splash.images_enabled = false

              assert(splash:go(args.url))

              assert(splash:wait(1))

              js = string.format("document.querySelector('body > div.container > div.main.clearfix > div > div.page > span:nth-child(4) > a').click();", args.page)

              splash:runjs(js)

              assert(splash:wait(5))

              return splash:html()

            end

        """

        url="http://www.pingtan.gov.cn/jhtml/cn/8423"

        for page in range(1,105):

            yield scrapy_splash.SplashRequest(

                url=url,

                endpoint="execute",

                args={

                    "url":url,

                    "lua_source":lua,

                    "page":page,

                    "wait":1

                },

                callback=self.parse

            )

    def parse(self, response,**kwargs):

        item = CurrenyItem()

        for li in response.css("body > div.container > div.main.clearfix > div > div.info_list.list > ul > li"):

            item["title_url"] = 'http://www.pingtan.gov.cn' + str(li.css("a::attr(href)").get())

            item["title_name"] = li.css("a::attr(title)").get()

            item["title_date"] = li.css("span::text").get()

            yield scrapy.Request(

                url=item['title_url'],

                callback=self.parse_detail,

                meta={'item': copy.deepcopy(item)}

            )

    # 详情页解析

    def parse_detail(self, response):

        item = response.meta['item']

        item['content_html'] = response.css('.detail').get()

        print(item['title_name'], item['title_url'], item['title_date'], )

        yield item

spalsh安装及简单使用的更多相关文章

（转）python requests的安装与简单运用
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: python的标准库urllib ...
MongoDB在Windows下安装、Shell客户端的使用、Bson扩充的数据类型、MongoVUE可视化工具安装和简单使用、Robomongo可视化工具（2）
一.Windows 下载安装 1.去http://www.mongodb.org/downloads下载,mongodb默认安装在C:\Program Files\MongoDB目录下,到F:\Off ...
python requests的安装与简单运用
requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: python的标准库urllib ...
memcache的windows下的安装和简单使用
原文:memcache的windows下的安装和简单使用 memcache是为了解决网站访问量大,数据库压力倍增的解决方案之一,由于其简单实用,很多站点现在都在使用memcache,但是memcach ...
【RabbitMQ】RabbitMQ在Windows的安装和简单的使用
版本说明使用当前版本:3.5.4 安装与启动在官网上下载其Server二进制安装包,在Windows上的安装时简单的,与一般软件没什么区别. 安装前会提示你,还需要安装Erlang,并打开下载页面 ...
Thrift的安装和简单演示样例
本文仅仅是简单的解说Thrift开源框架的安装和简单使用演示样例.对于具体的解说,后面在进行阐述. Thrift简述 ...
libmemcached安装及简单例子
libmemcached安装及简单例子 1.下载安装libmemcached $ wget http://launchpad.net/libmemcached/1.0/0.44/+download/ ...
[hadoop系列]Pig的安装和简单演示样例
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish ).(来源:http://blog.csdn.net/inkfish) Pig是Yaho ...
Redis 安装与简单示例
Redis 安装与简单示例一.Redis的安装 Redis下载地址如下:https://github.com/dmajkic/redis/downloads 解压后根据自己机器的实际情况选择32位或 ...

随机推荐

Mysql和Redis数据如何保持一致
先阐明一下Mysql和Redis的关系:Mysql是数据库,用来持久化数据,一定程度上保证数据的可靠性:Redis是用来当缓存,用来提升数据访问的性能. 关于如何保证Mysql和Redis中的数据一致 ...
SiteSucker Pro for Mac 专业的网站下载工具
SiteSucker Mac版是Mac os平台上的一款帮助用户下载数据的mac下载工具,SiteSucker绝对是一扒网站的利器,不仅仅是下载网站的HTML源文件,他连网站整体架构以及下面的所有文本 ...
NOI P序列题（二分）
题面题解 --WQS二分想到这个这题就完了. 赛时没想到这个你就完了. 时间复杂度 O ( n log ⁡ a ) O(n\log a) O(nloga) 不难发现这题有凸性,可以WQS二分. 我 ...
Spring 源码学习笔记11——Spring事务
Spring 源码学习笔记11--Spring事务 Spring事务是基于Spring Aop的扩展 AOP的知识参见<Spring 源码学习笔记10--Spring AOP> 图片参考了 ...
使用puppeteer生成pdf与截图
之前写过一篇 vue cli2 使用 wkhtmltopdf 踩坑指南,由于wkhtmltopdf对vue的支持并不友好,而且不支持css3,经过调研最终选择puppeteer,坑少,比较靠谱. 一. ...
noip2015提高组初赛
一.单项选择题(共15题,每题1.5分,共计22.5分:每题有且仅有一个正确选项) 线性表若采用链表存储结构,要求内存中可用存储单元地址( ). A. 必须连续 B. 部分地址必须连续 C. 一定不连 ...
学习ASP.NET Core Blazor编程系列二——第一个Blazor应用程序（中）
学习ASP.NET Core Blazor编程系列一--综述学习ASP.NET Core Blazor编程系列二--第一个Blazor应用程序(上) 四.创建一个Blazor应用程序 1. 第一种创 ...
KingbaseES V8R6备份恢复案例之--删除test数据库后sys_backup.sh备份
案例说明: KingbaseES V8R6通过sys_backup.sh执行物理备份,默认sys_backup.sh执行备份初始化时,需要连接test数据库进行身份的认证:在一些生产环境为了安全需求, ...
华南理工大学 Python第1章课后小测
1.(单选)计算机有两个基本特性:功能性和()性.(本题分数:5)A) 可存储B) 可计算C) 可通信D) 可编程您的答案:D 正确率:100%2.(单选)计算机硬件可以直接识别和执行的程序设计语言 ...
认识RocketMQ4.x架构设计
消息模型单体的消息模型 RocketMQ消息模型跟其他的消息队列一样都是 producer - > topic->consumer producer 生产消息也就是发送者 topic ...

spalsh安装及简单使用

1. 安装 docker和splash

普通的python 动态lua脚本

spalsh安装及简单使用的更多相关文章

随机推荐

热门专题