本文章参考了使用phantomjs操作DOM并对页面进行截图需要注意的几个问题 及 phantomjs使用说明 这两篇文章,初次接触phantomjs的童鞋可以去看下这两篇原文

在学习中可以看下 phantomjs官方相关示例

phantomjs是一个无界面浏览器,可用于网页截图和前端自动化测试,基于webkit内核(也就是chrome使用的内核),并使用js编写业务脚本来请求、浏览和操作页面。

1、安装phantomjs

下载phantomjs(官网下载),选择自己需要的版本下载即可,我这里是在windows下使用的,下载后直接解压,为了方便我将包含phantomjs.exe的目标路径添加到了环境变量里面,后续使用比较方便。

安装完成后在cmd里面输入phantomjs --version即可查看phantomjs版本信息。

2、phantomjs使用

phantomjs有标准的入门文档可以参考,网上也有很多的资料可以查阅,在使用过程中根据自己的需要实际操作。

我们这里主要是对文章开头提到到第一篇文章的仿照实现,所以理论和相关的注意事项可以参考文章引用的第一篇文章。

操作界面中的DOM树主要使用使用

  1. evaluate(function, arg1, arg2, ...) {object}

在截图中如何将整个界面截图,有如下几种方法:

一个是使浏览器足够大,这样底部就显示了,可以设置viewPortSize很大:page.viewportSize = {width: 4800,height: 8000};
另一个是通过BOM方法操作滚动条,可以把滚动条滚动到一个很大的值,如:window.scrollTo(0,10000);也可以滚动到适应的高度:window.document.body.scrollTop = document.body.scrollHeight;

如何延迟截图,页面请求的资源,如图片、异步cgi、js等,返回的时间以及执行的长短都是不确定的,如果截图过早,可能很多空白区域,因此需要定时截图,在打开页面后,使用setTimeout来延迟截图

  1. window.setTimeout(function () {
  2. page.render("test.png");
  3. phantom.exit();
  4. }, 1000);

完整的代码,请求搜狗搜索微信的公众账号信息,并对连接标记红框、延迟截图

  1. var page = require('webpage').create();
  2. system = require('system');
  3. //var url = 'http://yule.club.sohu.com/gifttrade/thread/2m2efbrpfui';
  4. var address;
  5. if(system.args.length == 1){
  6. phantom.exit();
  7. }else{
  8. adress = system.args[1];
  9. page.open(adress, function (status){
  10. if (status != "success"){
  11. console.log('FAIL to load the address');
  12. phantom.exit();
  13. }
  14. page.evaluate(function(){
  15. //此函数在目标页面执行的,上下文环境非本phantomjs,所以不能用到这个js中其他变量
  16. window.scrollTo(0,10000);//滚动到底部
  17. //window.document.body.scrollTop = document.body.scrollHeight;
  18. window.setTimeout(function(){
  19. var plist = document.querySelectorAll("a");
  20. var len = plist.length;
  21. while(len)
  22. {
  23. len--;
  24. var el = plist[len];
  25. el.style.border = "1px solid red";
  26. }
  27. },5000);
  28. });
  29. window.setTimeout(function (){
  30. //在本地生成截图
  31. page.render("json2form.png");
  32. console.log(page.content);
  33. phantom.exit();
  34. }, 5000+500);
  35. });
  36. }

这里附上java操作phantomjs的代码:

  1. package com.newsTest.weixin;
  2. import java.io.BufferedReader;
  3. import java.io.IOException;
  4. import java.io.InputStream;
  5. import java.io.InputStreamReader;
  6. /**
  7. * 类名: DownLoad
  8. * 包名: com.newsTest.weixin
  9. * 作者: zhouyh
  10. * 时间: 2014-9-10 下午04:19:46
  11. * 描述: TODO(这里用一句话描述这个类的作用)
  12. */
  13. public class DynamicDownLoad {
  14. /**
  15. *
  16. * 方法名:getSrcContent
  17. * 作者:zhouyh
  18. * 创建时间:2014-9-10 下午06:57:32
  19. * 描述:根据传入的url,调用phantomjs进行下载,并返回源码信息
  20. * @param url
  21. * @return
  22. */
  23. public static String getSrcContent(String url){
  24. //windows下phantomjs位置
  25. String path = "D:/phantomjs-1.9.7-windows/";
  26. Runtime rt = Runtime.getRuntime();
  27. Process process = null;
  28. try {
  29. process = rt.exec(path + "phantomjs.exe D:/phantomjs-1.9.7-windows/test.js " + url.trim());
  30. } catch (IOException e) {
  31. // TODO 这里写异常处理的代码
  32. e.printStackTrace();
  33. }
  34. InputStream is = process.getInputStream();
  35. BufferedReader br = new BufferedReader(new InputStreamReader(is));
  36. StringBuffer sbf = new StringBuffer();
  37. String tmp = "";
  38. try {
  39. while((tmp = br.readLine())!=null){
  40. sbf.append(tmp);
  41. }
  42. } catch (IOException e) {
  43. // TODO 这里写异常处理的代码
  44. e.printStackTrace();
  45. }
  46. return sbf.toString();
  47. }
  48. /**
  49. * 方法名:main
  50. * 作者:zhouyh
  51. * 创建时间:2014-9-10 下午04:19:46
  52. * 描述:TODO(这里用一句话描述这个方法的作用)
  53. * @param args
  54. * @throws IOException
  55. */
  56. public static void main(String[] args){
  57. // TODO Auto-generated method stub
  58. String src = DynamicDownLoad.getSrcContent("http://weixin.sogou.com/gzh?openid=oIWsFt9MmzCvfJgaVxEUevPcuUCg");
  59. System.out.println(src);
  60. }
  61. }

在使用中还有很多需要学习的地方,希望下次有机会可以深入的学习下phantomjs,附上截图照片

使用phantomjs对页面进行截图的更多相关文章

  1. 通过phantomjs 进行页面截图

    本文章参考了使用phantomjs操作DOM并对页面进行截图需要注意的几个问题 及phantomjs使用说明 这两篇文章,初次接触phantomjs的童鞋可以去看下这两篇原文 在学习中可以看下 pha ...

  2. 利用PIL和Selenium实现页面元素截图

    预备 照张相片 selenium.webdriver可以实现对显示页面的截图: from selenium import webdriver dr = webdriver.Firefox() dr.g ...

  3. 章节十四、5- web页面的截图

    一.以雅虎网站为例,当我们在登录时,输入错误的用户名然后点击“下一步”,用户名输入框会提示红色字体,这个时候我们就将页面进行截图. http://commons.apache.org/proper/c ...

  4. 使用phantomjs操作DOM并对页面进行截图需要注意的几个问题

    phantomjs是一个无界面浏览器,可用于网页截图和前端自动化测试,基于webkit内核(也就是chrome使用的内核),并使用js编写业务脚本来请求.浏览和操作页面.最近前端监控需要用到phant ...

  5. centos下利用phantomjs来完成网站页面快照截图

    最近研究了下phantomjs,感觉还是非常不错的. 首先到官网下载一个源码包 http://phantomjs.org/download.html 点击源码包下载如图: 然后在linux下将必要的一 ...

  6. phantomjs 抓取、截图中文网站乱码的问题的解决

    用phantomjs抓取html乱码的解决方案: phantomjs --output-encoding=gbk test.js http://webscan.360.cn/index/checkwe ...

  7. 使用PhantomJS后台web界面截图

    自动化截web页面的图 一.工具介绍: PhantomJS是一个基于webkit的JavaScript API.它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaSc ...

  8. Chrome不安装插件实现页面长截图

    1.打开需要截图的页面,按F12进入审查模式 或直接在页面右击鼠标右键-检查,打开如下窗口 2.在控制台中按下 ctrl+shift+p,弹出如下输入框  3.输入screen进行模糊查找,选择“Ca ...

  9. Python-Flask框架之"图书管理系统"项目,附详解源代码及页面效果截图

    该图书管理系统要实现的功能如下: 1. 可以通过添加窗口添加书籍或作者,如果要添加的作者和书籍已存在于书架上, 则给出相应的提示: 2. 如果要添加的作者存在,而要添加的书籍书架上没有,则将该书籍添加 ...

随机推荐

  1. 关于C语言指针中的p++与p+i

    先看一组代码: #include <stdio.h> void main() { int i,*p,a[7]; p=a; for(i=0;i<7;i++) scanf("% ...

  2. C/C++运算符优先级

    运算符优先级从高至低 优先级 操作符 描述 例子 结合性 1 ()[]->.::++-- 调节优先级的括号操作符数组下标访问操作符通过指向对象的指针访问成员的操作符通过对象本身访问成员的操作符作 ...

  3. boost-内存管理(scoped_array)

    # include <algorithm> string *p=new string[20];    scoped_array<string>  sp(p);    fill_ ...

  4. springboot pom 引用集合

    <dependency><groupId>com.google.code.gson</groupId><artifactId>gson</arti ...

  5. 敏捷开发之道(四)Scrum概述

    上次的博文敏捷开发之道(二)极限编程XP和敏捷开发之道(三)极限编程XP续中,我们介绍了一下敏捷开发中的XP开发方法,今天咱们来了解另一个比较流行的敏捷开发方法--Scrum. 1.Scrum简介 S ...

  6. [原]项目进阶 之 持续构建环境搭建(二)Nexus私服器

    上一篇博文项目进阶 之 持续构建环境搭建(一)架构中,我们大致讲解了一下本系列所搭建环境的基本框架,这次开始我们进入真正的环境搭建实战.重点不在于搭建的环境是否成功和完善,而是在搭建过程中充分认识到每 ...

  7. 【狼窝乀野狼】Serializer妙手回春

    在我们很多程序中,需要将数据保存到本地,以便于下次打开还能看到原始数据.例如我们Xmind思维导图,例如我们的Power Designer等等,都是有保存一个隶属于自己的工程文件,那么今天我要说的就是 ...

  8. jquery-2.0.3.js和jquery-2.0.3.min.js的区别

    两个文件的作用是完全一样的. jquery-2.0.3.js里的代码是没有进行处理的原代码,适合于人们阅读与研究. jquery-2.0.3.min.js里的代码进行过特殊的处理, 如变量的名称基本都 ...

  9. Interview-Harry Potter walk through matrix.

    假设你是harry potter,在grid的左上角,你现在要走到右下角,grid中有正数也有负数,遇到正数表示你的strength增加那么多,遇到负数表示strength减少那么多,在任何时刻如果你 ...

  10. JDBC 学习笔记(四)—— 自定义JDBC框架+Apache—DBUtils框架+事务管理+操作多表

    本文目录:       1.自定义JDBC框架 ——数据库元数据:DataBaseMetaData        2.自定义JDBC框架 ——数据库元数据:DataBaseMetaData       ...