一:什么是Splash

Splash是一个 JavaScript渲染服务,是一个带有 HTTPAPI 的轻量级浏览器

1 功能介绍

利用 Splash,我们可以实现如下功能:

口异步方式处理多个网页渲染过程;

口 获取渲染后的页面的源代码或截图;

口 通过关闭图片渲染或者使用 Adblock规则来加快页面渲染速度;

口 可执行特定的 JavaScript脚本;

口可通过 Lua 脚本来控制页面渲染过程;

口 获取渲染的详细过程并通过 HAR ( HTTP Archive )格式呈现。

2:安装教程(不做介绍,小伙伴可自行百度,教程很多)

3:Splash使用到的方法:

go()--------------go()方法去加载页,且它可以模拟 GET 和 POST请求,同时支持传入请求头,表单等数据

wait()------------wait()方法可以控制页面的等待时间

evaljs()----------evaljs()方法传入JavaScript脚本并返回最后一条 JavaScript语句的返回结果

wait()----------- wait()方法类似于 Python 中的 sleep(),其参数为等待的秒数。

jsfunc() ------------可以直接调用 JavaScript 定义的方法,但是所调用的方法需要用双中括号包围,这相当于 实现了                                 JavaScript方法到 Lua脚本的转换

runjs()------------runjs()方法可以执行 JavaScript 代码,它与 evaljs()的功能类似,但是更偏向于执行某些动作或声                          明 某些方法

autoload() ------ autoload() 方法可以设置每个页面访问时自动加载的对象

call_later()--------方法可以通过设置定时任务和延迟时间来实现任务延时执行,井且可以在执行前通过 cancel() 方法                            重新执行定时任务

http_get() --------此方法可以模拟发送 HTTP 的 GET请求

http _post()-----http_get()方法类似,此方法用来模拟发送 POST请求,不过多了一个参数 body

set_content() ------此方法用来设置页面的内容

html() ----------此方法用来获取网页的源代码

png() ------------此方法用来获取 PNG 格式的网页截图

jpeg() -----------此方法用来获取 JPEG 格式的网页截图

har() ------------此方法用来获取页面加载过程描述

url() ------------此方法可以获取当前正在访问的 URL

get_cookies() -----此方法可以获取当前页面的 Cookies

add_cookie() -----此方法可以为当前页面添加 Cookie

clear_ cookies() ---此方法可以清除所有的 Cookies

get_viewport_size() ---此方法可以获取当前浏览器页面的大小,即宽高

set_viewport_full() ---此方法可以设置浏览器全屏显示

set_user_agent() ----此方法可以设置浏览器的 User-Agent

set_custom_headers() ---此方法可以设置请求头

select() -------该方法可以选中符合条件的第一个节点,如果有多个节点符合条件, 则只会返回一个,其参数是 css                         选择器

select_all() ------此方法可以选中所有符合条件的节点,其参数是 css 选择器

mouse_click() ------此方法可以模拟鼠标点击操作,传入的参数为坐标值 x 和 y。 此外,也可以直接选中某个节点,                                  然后调用此方法

4:Splash 对象属性

function main(splash, args)
local url = args.url
end

• splash

main()方法的第一个参数是 splash ,这个对象非常重要,它类似于 Selenium 中的 WebDriver 对象,我们可以调用它的一些属性和方法来控制加载过程

• args

该属性可以获取加载时配置的参数

• js_enabled

这个属性是 Splash的JavaScript执行开关,可以将其配置为true或false来控制是否执行JavaScript 代码,默认为 true

• resource_timeout

此属性可以设置加载的超时时间,单位是秒。 如果设置为 0 或 nil (类似 Python 中的 None ),代 表不检测超时

• images_ enabled

此属性可以设置图片是否加载,默认情况下是加载的

• plugins _enabled

此属性可以控制浏览器插件(如 Flash 插件)是否开启 。 默认情况下,此属性是 false,表示不开 启

• scroll_position

通过设置此属性,我们可以控制页面上下或左右滚动。 这是一个比较常用的属性

二:Splash API 调用

• render.html 

此接口用于获取 JavaScript渲染的页面的 HTML 代码,接口地址就是 Splash 的运行地址加此接口 名称,

• render.pug

此接口可以获取网页截图,其参数比 render.html 多了几个,比如通过 width 和 height 来控制宽高, 它返回的是 PNG 格式的图片二进制数据

render.jpeg

此接口和 render.pug类似,不过它返回的是 JPEG 格式的图片二进制数据。
另外, 此接口比 render.png 多了参数 quality,它用来设置罔片质量。

render.bar

此接口用于获取页面加载的 HAR数据,它的运回结果非常多,是一个 JSON 格式的数据,其中包含页面加载过程巾的 HAR数据。

render.json

此接口包含了前面接口的所有功能,返回结果是 JSON 格式

• execute
此接口才是最为强大的接口 。 前面说了很多 Splash Lua脚本的操作,用此接口便可实现与 Lua脚 本的对接。

如果要实现 一些交互操作的话,这里就需要使用 execute 接口了。

Scrapy对接Splash基础知识学习的更多相关文章

  1. (转)Linux基础知识学习

    Linux基础知识学习 原文:http://blog.csdn.net/ye_wei_yang/article/details/52777499 一.Linux的磁盘分区及目录 Linux的配置是通过 ...

  2. GCC基础知识学习

    GCC基础知识学习 一.GCC编译选项解析 常用编译选项 命令格式:gcc [选项] [文件名] -E:仅执行编译预处理: -S:将C代码转换为汇编代码: -c:仅执行编译操作,不进行连接操作: -o ...

  3. Objective-c基础知识学习笔记

    Objective-c基础知识学习笔记(一) 一直有记录笔记的习惯.但非常久没分享一些东西了,正好上半年開始学习IOS了,如今有空写点.因开发须要,公司特意为我们配置了几台新MAC.还让我们自学了2周 ...

  4. AXAJ基础知识学习

    AXAJ基础知识学习 博客首页 Ajax简介 ajxa全称是Asynchronous Javascript And XML ,就是异步的JS 和XML 通过Ajax可以再浏览器中向服务器发送异步请求, ...

  5. Vue2基础知识学习

    Vue2基础知识学习 01.初识 new Vue({ el: '#root', //用于指定当前Vue实例为哪个容器服务,值通常为css选择器符 data () { return { } } }); ...

  6. C#基础知识学习

    C#基础知识整理 学习地址:http://blog.csdn.net/column/details/csarp.html

  7. 韩天峰博客 php基础知识学习记录

    http://rango.swoole.com 写好PHP代码真的不容易,给大家几个建议: 慎用全局变量,全局变量不好管理的,会导致你的代码依赖于全局变量,而耦合度太高. 一定不要复制粘贴代码,可重用 ...

  8. 〖前端开发〗HTML/CSS基础知识学习笔记

    经过一天的学习,把慕课网的HTML/CSS基础知识学完了,笔记整理: 1. 文件结构: HTML文件的固定结构: <html> <head>...</head> & ...

  9. Linq的简介和基础知识学习

    学习LINQ之前,我们要知道LINQ是干什么,解决什么问题的,怎样学习? 一.LINQ简介 1.什么是LINQ? 什么是LINQ?LINQ中文翻译为语言集成查询(Language Integrated ...

随机推荐

  1. 菜鸟入门【ASP.NET Core】12:JWT 设计解析及定制

    前言 上一节我们讲述的书如何使用jwt token,而且上一节的token是要加Authorization:bearer XXXXXXXXXXXX才能访问. 这一节我们来研究如何自定义类似jwt的to ...

  2. 【ichart】简单的统计图表ichart.js的使用

    1.首先下载,点击下载 2.只需要这一个js,粘贴赋值到自己项目中即可.   3.引入js <script type="text/javascript" src=" ...

  3. java错误分析之junit测试错误(实验一)

    本文转自:https://www.cnblogs.com/anny0404/p/5275595.html 在原作者的基础上进行部分添加,也很感谢原作者这篇博文,帮我分析与解决问题! 原文: 下载了最新 ...

  4. 微信小程序开发BUG经验总结

    摘要: 常见的微信小程序BUG! 小程序开发越来越热,开发中遇到各种各样的bug,在此总结了一些比较容易掉进去的坑分享给大家. 1. new Date跨平台兼容性问题 在Andriod使用new Da ...

  5. windows下navicate for mysql 零填充不显示

    在mysql数据库中我们在需要某个字段时经常要用到零填充 zerofill,之前碰到了一个大坑,在数据表sql语句中明明规定了 unsigned zerofill:但是一直没有显示出来,以为自己写的s ...

  6. 一个Web页面的问题分析

    几个月之前我接到一个新的开发任务,要在一个旧的Web页面上面增添一些新的功能.在开发的过程中发现旧的代码中有很多常见的不合适的写法,结合这些问题,如何写出更好的,更规范的,更可维护的代码,就是这篇文章 ...

  7. Android事件总线(四)源码解析otto

    前言 上一篇文章中讲到了otto的用法,这一篇我们来讲一下otto的源码.可能有人觉得otto过时了,但是通过源码我们学习的是高手设计otto时的设计理念,这种设计理念是不过时的. otto各个类的作 ...

  8. Android--判断listview上下滑动的方法

    elv_music_res_fragment.setOnScrollListener(new AbsListView.OnScrollListener() { private int mLastFir ...

  9. 使用wxpy自动发送微信消息

    思路整理:1.进入心灵鸡汤网页,使用python获取心灵鸡汤内容 2.登陆微信,找到需要发送的朋友 3.发送获取的内容 1.获取心灵鸡汤的内容 如下图,获取第一条鸡汤 实现如下: 2.登陆微信,搜索朋 ...

  10. 洗礼灵魂,修炼python(37)--面向对象编程(7)—了解魔法方法

    也许上一篇博文提到的property内置函数的用法你还觉得记忆犹新,那么有没有更多的类似的方法呢?有的,就是本篇文章要说的魔法方法 魔法方法 1.什么是魔法方法 (其实前面已经提到多次,每次我都是说暂 ...