Node.js 动态网页爬取 PhantomJS 使用入门

原创NeverSettle101 发布于2017-03-24 09:34:45 阅读数 8309 收藏

展开

版权声明：本文为 wintersmilesb101 -（个人独立博客– http://wintersmilesb101.online 欢迎访问）博主原创文章，未经博主允许不得转载。

既然是入门，那我们就从人类的起源。。PhantomJS 来说起吧。

1、PhantomJS是什么？

PhantomJS是一个基于webkit的javascript API。它使用QtWebKit作为它核心浏览器的功能，使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情，它都能做到。它不仅是个隐形的浏览器，提供了诸如CSS选择器、支持Web标准、DOM操作、JSON、html5、Canvas、SVG等，同时也提供了处理文件I/O的操作，从而使你可以向操作系统读写文件等。PhantomJS的用处可谓非常广泛，诸如网络监测、网页截屏、无需浏览器的 Web 测试、页面访问自动化等。

也就是说我们可以使用 PhantomJS 来模拟浏览器，而且是个无页面浏览器，想像一下我们的网页加载都是通过什么，浏览器，如果我们直接模拟浏览器加载，那么网页里面的什么 js 动态加载，ajax 动态的加载的东西啊全部不是问题，因为我们模拟的是浏览器，不过貌似效率上面略有欠缺，尤其是加载大型页面，对于此种我们可以选择放弃某些东西的加载，比如图片 css 之类，毕竟我们只是模拟请求不是为了界面，这样应该会提升一些速度。

下面给出几个地址

1.PhatomJS 官网

2.PhantomJS API

2、PhantomJS下载与安装

官方下载地址：http://phantomjs.org/download.html。目前官方支持三种操作系统，包括windows\Mac OS\linux这三大主流的环境。你可以根据你的运行环境选择要下载。

载完成后解压文件，建议为方便使用，单独放在一个文件夹里，其中路径最好不要有中文，以免出现什么奇怪的东西。到这里，你已经成功下载安装好PhantomJS了。那么，打开刚刚解压的陌路 phantomjs\bin 文件夹，双击运行phantomjs.exe，出现如下界面，那么你就可以运行JS代码了。不过这样还是比较麻烦，那么我们就来配置系统环境变量右击我的电脑–>点击管理–>高级系统设置–>环境变量,然后找到系统的 Path WIn10的话直接点击新建然后贴上你的 PhatomJS 解压路径，注意路径要一直到 bin 文件夹，如果是 win7 就直接在现有的变量后面添加路径，注意开头要加 ; 符号。

为了测试是否环境变量配置正确，你可以 cmd 输入 phantomjs ，出现如下界面就成功了

下面我们就可以开始上菜了，HelloWorld。在你的工程目录下新建一个 hello.js 文件，输入以下代码，这次我们还是看看网易新闻 http://news.163.com/

var page = require('webpage').create();

phantom.outputEncoding="gbk";//指定编码方式

page.open("http://news.163.com/", function(status) {

if ( status === "success" ) {

console.log(page.title);//输出网页标题

} else {

console.log("网页加载失败");

}

phantom.exit(0);//退出系统

});

然后 cmd 进入工程目录，也就是 hello.js 的目录，如下：输入 phantomjs hello.js 运行

　好了我们已经跑的第一个　ＰｈａｎｔｏｍＪＳ程序了，其他的这篇博客讲的比较详细，传送门

Node.js 动态网页爬取 PhantomJS 使用入门(转)的更多相关文章

Node JS爬虫：爬取瀑布流网页高清图
原文链接:Node JS爬虫:爬取瀑布流网页高清图静态为主的网页往往用get方法就能获取页面所有内容.动态网页即异步请求数据的网页则需要用浏览器加载完成后再进行抓取.本文介绍了如何连续爬取瀑布流网页 ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
python动态网页爬取——四六级成绩批量爬取
需求: 四六级成绩查询网站我所知道的有两个:学信网(http://www.chsi.com.cn/cet/)和99宿舍(http://cet.99sushe.com/),这两个网站采用的都是动态网页. ...
爬虫入门（三）——动态网页爬取：爬取pexel上的图片
Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的 ...
Node.js 薄荷网爬取
Node.js:是一个基于前端的服务器,主要的特点:单线程,异步I/O(对这个没有了解,开发起来真的会踩很多坑),事件驱动前言:本人主要是一个以使用.Net平台下的语言,进行开发的一个菜鸡,之前面试 ...
动态网页爬取样例（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)须要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成.如一个html里有<div id="test" ...
Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
爬虫系列5：scrapy动态页面爬取的另一种思路
前面有篇文章给出了爬取动态页面的一种思路,即应用Selenium+Firefox(参考<scrapy动态页面爬取>).但是selenium需要运行本地浏览器,比较耗时,不太适合大规模网页抓 ...
Node.js爬虫实战 - 爬你喜欢的
前言今天没有什么前言,就是想分享些关于爬虫的技术,任性.来吧,各位客官,里边请... 开篇第一问:爬虫是什么嘞? 首先咱们说哈,爬虫不是"虫子",姑凉们不要害怕. 爬虫 - 一种 ...

随机推荐

微服务spring-cloud 学习第一天
了解微服务微服务架构风格是一种将单一应用程序开发为一组小型服务的方法,每个服务运行在自己的进程中,服务间通信采用轻量级通信机制(通常使用HTTP).这些服务围绕业务能力构建并且可通过自动部署 ...
分享一篇最近新写的jquery注册页面表单校验的程序，仅供参考
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
机器学习笔记7：矩阵分解Recommender.Matrix.Factorization
目录 1矩阵分解概述 1.1用在什么地方 1.2推荐的原理 2矩阵分解的原理 2.1目标函数 2.2 损失函数 2.3 通过梯度下降的方法求得结果 3 代码实现参考地址: 贪心学院:https:// ...
zabbix4.0自动发现主机
一.自动发现主机的需求由于机房设备拆分,迁移服务器后,原来的监控失效.再重新搭建监控平台后,批量主机手动添加真的是很麻烦. 所以就用到了zabbix的自动发现功能二.配置自动发现服务配置--&g ...
这是一份非常适合收藏的Android进阶/面试重难点整理
写在前面记得我大二时“不务正业”地自学Android并跟了老师做项目,到大三开始在目前的公司实习,至今毕业已有几年多,学习Android已经6.7年多了!但总感觉知识点很零散,并且不够深入,遇到瓶颈 ...
Java动态代理-JDK自带实现
上篇文章讲解了什么是静态代理,但是静态代理有一个问题就是需要建立很多的代理类,这样我们需要修改代理的方法的时候,需要在每个类中都要修改,这对于我们来说:当代理类很多的时候工作量就会成倍的增加. 于是针 ...
Educational Codeforces F. Remainder Problem
[传送门] 题意就是单点加以及查询下标为等差数列位置上的值之和.刚开始看到这道题.我以为一个数的倍数是log级别的.就直接写了发暴力.就T了.还在想为啥,优化了几发才发现不太对劲.然后才想到是$\df ...
分享一个Centos8的国内yum源
使用的是清华大学开源镜像站,文件地址: https://github.com/hackyoMa/docker-centos/blob/8/CentOS-Base.repo 使用方法: cd /etc/ ...
用户生命周期（User Lifetime）
什么是用户生命周期? 用户生命周期是从用户开始接触产品到离开产品的整个过程.用户生命周期可分为:引入期.成长期.成熟期.休眠期.流失期.对应的是用户对产品不同的参与程度. 用户生命周期有什么用? 按照 ...
洛谷 P5408 【模板】第一类斯特林数·行
传送门首先,有 \[ x^{\overline n}=\sum_k\begin{bmatrix}{n\\ k}\end{bmatrix}x^{k}\\ \] 那么我们只需要求出\(x^{\overl ...

Node.js 动态网页爬取 PhantomJS 使用入门(转)

Node.js 动态网页爬取 PhantomJS 使用入门

既然是入门，那我们就从人类的起源。。PhantomJS 来说起吧。

1、PhantomJS是什么？

下面给出几个地址

1.PhatomJS 官网

2.PhantomJS API

2、PhantomJS下载与安装

官方下载地址：http://phantomjs.org/download.html。目前官方支持三种操作系统，包括windows\Mac OS\linux这三大主流的环境。你可以根据你的运行环境选择要下载。

为了测试是否环境变量配置正确，你可以 cmd 输入 phantomjs ，出现如下界面就成功了

下面我们就可以开始上菜了，HelloWorld。在你的工程目录下新建一个 hello.js 文件，输入以下代码，这次我们还是看看网易新闻 http://news.163.com/

然后 cmd 进入工程目录，也就是 hello.js 的目录，如下：输入 phantomjs hello.js 运行

好了我们已经跑的第一个 ＰｈａｎｔｏｍＪＳ程序了，其他的这篇博客讲的比较详细，传送门

Node.js 动态网页爬取 PhantomJS 使用入门(转)的更多相关文章

随机推荐

热门专题

　好了我们已经跑的第一个　ＰｈａｎｔｏｍＪＳ程序了，其他的这篇博客讲的比较详细，传送门