from selenium import webdriver

driver = webdriver.PhantomJS()

script = "var page = this; page.onResourceError = function(res) {page.browserLog.push({'url': res.url, 'status': res.status});};"

driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')

driver.execute('executePhantomScript', {'script': script, 'args': []})

driver.get('http://www.baidu.com')

print(driver.get_log('browser'))

需要注意的是，1) PhantomJS 脚本中必须执行语句var page = this，然后通过 page 变量来调用 API，否则会失败。
2) driver.get_log('browser')同样也会得到页面的 console.log 的输出，需要进行过滤。它的输出格式是{"level": level, "message": message, "timestamp": timestamp}，可以通过filter(lambda x: 'url' in x, driver.get_log('browser'))语句过滤掉。
3) 这个方法仅限于 PhantomJS，

摘自：http://www.jianshu.com/p/23a6f6fd6268

Selenium获取PhantomJS输出

0 背景

最近在做对网站的自动化测试，最开始使用 Python Requests 进行测试，测试通过，然而页面还是会出现这样那样问题。一方面是因为测试用例还不够详细，另一方面，Requests 是 url 层面或者说 api 层面的测试，并没有完全模拟用户在浏览器中的操作。比如，页面有些元素是 JS 动态生成的，Requests 是无法得到的；或者页面中的 img 或者 script 链接坏了，用 Requests 的话就需要去解析 html 了，这样如果网站对排版做一点点改动就要重写测试用例，非常费时费力。
经过一番搜索，了解到两个神器 Selenium 和 PhantomJS。关于这两个软件，就简单说一下，Selenium 是一个Web浏览器自动化测试框架，而 PhantomJS 是一个基于 Webkit 的无 UI 的浏览器，详细介绍请自行搜索。

1 目的

测试页面中哪些链接是坏的。

2 遇到的问题

Selenium 可以通过 PhantomJS 获取实际显示的页面（JS 动态生成的元素也可以得到），并且可以模拟用户对页面操作，但是上面提到的页面中的链接坏了或者页面的跳转，它也是无法感知的，这些动作其实在 PhantomJS 中都可以得到，但是如果没有做处理，在 Selenium 中是无法直接得到的。

3 解决

在 PhantomJS 中，可以通过许多的句柄来获取页面的动作。比如下面这个脚本可以记录整个页面访问的过程（netlog.js）：

"use strict";

var page = require('webpage').create(),

    system = require('system'),

    address;

if (system.args.length === 1) {

  console.log('Usage: netlog.js <some URL>');

  phantom.exit(1);

} else {

  address = system.args[1];

  page.onResourceRequested = function (req) {

    console.log('requested: ' + JSON.stringify(req, undefined, 4));

  };

  page.onResourceReceived = function (res) {

    console.log('received: ' + JSON.stringify(res, undefined, 4));

  };

  page.open(address, function (status) {

    if (status !== 'success') {

      console.log('FAIL to load the address');

    }

    phantom.exit();

  });

}

执行phantomjs netlog.js http://www.baidu.com，可以得到如下类似的输出：

requested: {

    "headers": [

        {

            "name": "Accept",

            "value": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"

        },

        {

            "name": "User-Agent",

            "value": "Mozilla/5.0 (Unknown; Linux x86_64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"

        }

    ],

    "id": 1,

    "method": "GET",

    "time": "2017-01-05T03:42:14.125Z",

    "url": "http://www.baidu.com/"

}

received: {

    "body": "",

    "bodySize": 215,

    "contentType": "text/html",

    "headers": [

        {

            "name": "Date",

            "value": "Thu, 05 Jan 2017 03:42:14 GMT"

        },

        {

            "name": "Content-Type",

            "value": "text/html"

        },

        {

            "name": "Content-Length",

            "value": "215"

        },

...

Selenium 正常调用 PhantomJS 的方法如下（Python 语言，下同）：

from selenium import webdriver

driver = webdriver.PhantomJS()

driver.get('http://www.baidu.com')

print(driver.get_log('browser'))

其中最后一条语句可以得到页面的 console.log 的输出，同时会生成一个 ghostdriver.log 的文件，其中是 PhantomJS 的日志。
接下来就是如何在 Selenium 中获取 PhantomJS 的输出了。

首先是在 Selenium 中让 PhantomJS 执行它的 API 的 Hack（参考）：

driver = webdriver.PhantomJS()

script = "this.onResourceError = function(res) {console.log(JSON.stringify({'url': res.url, 'status': res.status}));};"

driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')

driver.execute('executePhantomScript', {'script': script, 'args': []})

但是这样通过driver.get_log('browser')是得不到想要的内容的，因为虽然和页面 JS 的 console.log 是同样的名字，然而 PhantomJS API 的 console.log 的输出是在刚才提到的 ghostdriver.log 文件中，当然你也可以每次就读取该文件来获取内容（可以通过 webdriver 的 service_log_path 参数来设置文件名）。笔者觉得这样不够优雅，于是继续……
通过阅读 PhantomJS 的源码，终于在 session.js 找到了一个隐藏的变量 browserLog 来实现这个功能，这个变量其实就是driver.get_log('browser')读取的变量，把你想要的内容藏在这个变量里就好了。

from selenium import webdriver

driver = webdriver.PhantomJS()

script = "var page = this; page.onResourceError = function(res) {page.browserLog.push({'url': res.url, 'status': res.status});};"

driver.command_executor._commands['executePhantomScript'] = ('POST', '/session/$sessionId/phantom/execute')

driver.execute('executePhantomScript', {'script': script, 'args': []})

driver.get('http://www.baidu.com')

print(driver.get_log('browser'))


作者：JerryKFC
链接：http://www.jianshu.com/p/23a6f6fd6268
來源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

在 Selenium 中让 PhantomJS 执行它的 API的更多相关文章

Python selenium中注入并执行Javascript语句
众所周知,Python通常结合selenium模块来完成一些web的自动化测试以及RPA(Robotic Process Automation)工作.事实上,Selenium还可以支持插入js语句.执 ...
PhantomJS在Selenium中被标记为过时的应对措施
今天使用PhantomJS时,Selenium提示PhantomJS被标记不赞成,我就蒙了.PhantomJS可是Headless浏览器中相当知名的一款,标记为过时,代表着将在未来版本摒弃掉这个支持. ...
selenium + firefox/chrome/phantomjs登陆之模拟点击
登陆之模拟点击工具:python/java + selenium + firefox/chrome/phantomjs (1)windows开发环境搭建默认已经安装好了firefox 安装pip ...
爬虫之图片懒加载技术、selenium工具与PhantomJS无头浏览器
图片懒加载技术 selenium爬虫简单使用 2.1 selenium简介 2.2 selenium安装 2.3 selenium简单使用 2.3.1 selenium使用案例 2.3.2 selen ...
Selenium中的几种等待方式，需特别注意implicitlyWait的用法
摘:http://blog.csdn.net/pf20050904/article/details/20052485 最近在项目过程中使用selenium 判断元素是否存在的时候遇到一个很坑爹的问题 ...
转：Selenium中的几种等待方式，需特别注意implicitlyWait的用法
最近在项目过程中使用selenium 判断元素是否存在的时候遇到一个很坑爹的问题, 用以下方法执行的时候每次都会等待很长一段时间,原因是因为对selenium实现方法了解不足导致一直找不到解决方法. ...
Selenium中三种等待的使用方式---规避网络延迟、代码不稳定问题
在UI自动化测试中,必然会遇到环境不稳定,网络慢的情况,这时如果你不做任何处理的话,代码会由于没有找到元素,而报错.这时我们就要用到wait(等待),而在Selenium中,我们可以用到一共三种等待, ...
第三百三十七节，web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS
第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 ...
selenium中的三种等待方式（显示等待WebDriverWait()、隐式等待implicitly()、强制等待sleep()）---基于python
我们在实际使用selenium或者appium时,等待下个等待定位的元素出现,特别是web端加载的过程,都需要用到等待,而等待方式的设置是保证脚本稳定有效运行的一个非常重要的手段,在selenium中 ...

随机推荐

java 后台封装json数据学习总结（二）
一.JSONArray的应用从json数组中得到相应java数组,如果要获取java数组中的元素,只需要遍历该数组. /* * 从json数组中得到相应java数组 * JSONArray下的toA ...
《插件》一个比较好用的 chrome浏览器的json格式化插件
插件名: JSON-Handle 下载地址: http://jsonhandle.sinaapp.com/ 插件下载后,在浏览器输入:chrome://extensions/ 将下 ...
【21】vuex 与element iu表单校验
转:http://www.cnblogs.com/gsgs/p/6753682.html element-ui的官网上写的自定义表单验证,方法都是写在单vue文件中的,不容易共享.怎么使用vuex将方 ...
解决 unity 用 vs通过wifi 真机联调一直连接不上
平时在公司网络太差,要通过wifi 用vs真机联调时,vs一直连不上设备,很是蛋疼...用下面官方给出的方法可以解决 Attaching MonoDevelop Debugger To An And ...
Berkeley DB使用SecondKey给数据排序的实现方法
Berkeley DB使用SecondKey给数据排序的实现方法是本文我们主要要介绍的内容,在做项目的时候用到了nosql数据库BDB,借此机会研究了一下它的用法.它的官方示例和文档比较丰富,感觉比 ...
《Linux命令行与shell脚本编程大全第3版》Linux命令行---11
以下为阅读<Linux命令行与shell脚本编程大全第3版>的读书笔记,为了方便记录,特地与书的内容保持同步,特意做成一节一次随笔,特记录如下:
《Linux命令行与shell脚本编程大全第3版》Linux命令行---7
以下为阅读<Linux命令行与shell脚本编程大全第3版>的读书笔记,为了方便记录,特地与书的内容保持同步,特意做成一节一次随笔,特记录如下:
php通过$_SERVER['HTTP_USER_AGENT']获取浏览器相关参数
最近不忙,同事在忙一个app项目.当听到领导安排让他做一个判断苹果还是安卓手机,如果是安卓手机下载安卓app.如果是苹果手机下载苹果app;然后我就上网搜了一下学习学习: php通过$_SERVER[ ...
interview ms1 robert move **
move 2turn rightmove 3turn rightmove 6 初始位置为(0,0),方向为north,求最后的位置. string2char: const char* t = sec ...
AC日记——还是01串 51nod 1396
还是01串思路: 前缀和: 来,上代码: #include <cstdio> #include <cstring> #include <iostream> #in ...

在 Selenium 中让 PhantomJS 执行它的 API