node调用phantomjs-node爬取复杂页面

什么是phantomjs

phantomjs官网是这么说的，‘整站测试，屏幕捕获，自动翻页，网络监控’，目前比较流行用来爬取复杂的，难以通过api或正则匹配的页面，比如页面是通过异步加载。phantomjs就是一个完整的浏览器只能没有界面，因此我们可以用它来模拟真正的浏览器去访问页面，然后再获取页面。我要说的重点是如何在node中调用phantomjs来获取页面。

node与phantomjs通信

命令行传参只能在phantomjs开启时对其传参，运行过程中无能为力。
标准输出能从phantomjs向node输出数据，但是没法反过来。
http phantomjs向node发http请求，然后node返回数据，但是请求只能由phantomjs发出
websocket websocket通讯，能够双向通讯但是实现略麻烦。
phantomjs-node 实际上也是使用websocket或者http通讯，但是毕竟是别人写好的我们直接用就行，缺点是依赖略庞大。

如何使用phantom-node

GitHub地址：https://github.com/amir20/phantomjs-node

这里只做简单说明详细api见github。

1.安装

npm install phantom

2.模块封装(以下代码基于es7，需支持async/await,node版本>7.0)，更详细使用可查看phantomjs官方文档

 'use strict'

 const phantom = require('phantom');

 let getPic = async ( name ) => {

     //url路径

     let url        = 'http:///'+name;

     //创建一个实例

     const instance = await phantom.create();

     //创建一个页面

     const page     = await instance.createPage();

     //设置页面参数

     await page.property( 'viewportSize' , { width : 1800 , height : 1200 } );

     //打开url，返回状态（url有转码，解决中文问题）

     const status = await page.open( encodeURI( url ) );

     console.log( status );

     //延时等待页面js执行完成（phantomjs只是等待页面上全部资源加载完毕，不包含页面js执行时间，所以需延时一段时间等待js）

     await lateTime( 500 );

     //输出页面到当前目录下

     await page.render(`${ name }--${Date.now()}.png`);

     //销毁实例

     await instance.exit();

     //返回数据

     return 'xxx';

 };

 let lateTime = ( time ) =>{

     return new Promise( function(resolve,reject){

         setTimeout(function(){

             resolve();

         }, time );

     } );

 }

 //暴露接口

 module.exports = getPic ;

node调用phantomjs-node爬取复杂页面的更多相关文章

Node.js 动态网页爬取 PhantomJS 使用入门(转)
Node.js 动态网页爬取 PhantomJS 使用入门原创NeverSettle101 发布于2017-03-24 09:34:45 阅读数 8309 收藏展开版权声明:本文为 winte ...
Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...
scrapy模拟浏览器爬取验证码页面
使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...
scrapy(四): 爬取二级页面的内容
scrapy爬取二级页面的内容 1.定义数据结构item.py文件 # -*- coding: utf-8 -*- ''' field: item.py ''' # Define here the m ...
爬取百度页面代码写入到文件+web请求过程解析
一.爬取百度页面代码写入到文件代码示例: from urllib.request import urlopen #导入urlopen包 url="http://www.baidu.com& ...
node js 爬虫爬取静态页面，
先打一个简单的通用框子 //根据爬取网页的协议引入对应的协议, http||https var http = require('https'); //引入cheerio 简单点讲就是node中的jq ...
Node.js 薄荷网爬取
Node.js:是一个基于前端的服务器,主要的特点:单线程,异步I/O(对这个没有了解,开发起来真的会踩很多坑),事件驱动前言:本人主要是一个以使用.Net平台下的语言,进行开发的一个菜鸡,之前面试 ...
selenium + PhantomJS 爬取js页面
from selenium import webdriver import time _url="http://xxxxxxxx.com" driver = webdriver.P ...

随机推荐

Javascript实现Base64解码
工作中需要用到,在stackoverflow中找到的,实践证明可用. function decode_base64(s) { var e = {}, i, k, v = [], r = '', w = ...
CSS动画属性性能详细介绍
CSS动画属性会触发整个页面的重排relayout.重绘repaint.重组recomposite Paint通常是其中最花费性能的,尽可能避免使用触发paint的CSS动画属性,这也是为什么我们推荐 ...
ecshop商品页增加编辑器fckeditor
最近在做ecshop的项目,需要在商品单页中增加一项FCKEditor的文本编辑器,但在ecshop的论坛和百度里搜出的方法,试了好几个都没有用,终于找到一个可以正确使用的,和大家分享. ecshop ...
持续集成篇-- SonarQube代码质量管理平台的配置与使用
样例视频教程:http://www.roncoo.com/course/view/85d6008fe77c4199b0cdd2885eaeee53 一.SonarQube的配置(前提,先用admin用 ...
大数据 Hadoop，Spark和Storm
大数据(Big Data) 大数据,官方定义是指那些数据量特别大.数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理.大数据的主要特点为数据量大(Volume),数据类别复 ...
win 结束占用端口的进程
在web开发的时候,经常开启http服务器监听某个端口,例如npm run dev等等以下介绍通过命令行结束占用端口的程序(注:测试环境为win10) 1.启动命令行 2.在命令行输入 netsta ...
关于引入多个jquery冲突的问题（附一个很好用的validate前端验证框架及使用方法）
废话不多说,进入正题: 如果一个jsp中想要使用两个不同版本的jquery怎么办呢?客官往下看: <script src="${ctxStatic}/jquery/jquery-1.8 ...
js实现两个输入框中的数字相乘并自动将结果显示在第三个输入框
<script type="text/javascript"> function cal(ida,idb,idc) { var numa=Number(document ...
Ajax获取数据的几种格式和解析方式
一．什么是ajax AJAX的全称是Asynchronous JavaScript and XML(是异步的 javascript 和 XML). ajax不是新的编程语言,而是一种使用现有标准的 ...
快学Scala之特质
一个Scala类可以继承多个特质(trait), 特质可能会要求使用它们的类支持某个特定特性, 与Java接口不同, Scala特质可以给出这些特质的缺省实现. 要点如下: Scala中类只能继承一个 ...