phantomjs 开发爬虫框架
函数
- page.childframescount
- page.childframesname
- page.close
- page.currentframename
- page.deletelater
- page.destroyed
- page.evaluate
- page.initialized
- page.injectjs
- page.javascriptalertsent
- page.javascriptconsolemessagesent
- page.loadfinished
- page.loadstarted
- page.openurl
- page.release
- page.render
- page.resourceerror
- page.resourcereceived
- page.resourcerequested
- page.uploadfile
- page.sendevent
- page.setcontent
- page.switchtochildframe
- page.switchtomainframe
- page.switchtoparentframe
- page.addcookie
- page.deletecookie
- page.clearcookies
回调处理程序/
列表中的所有页面的事件:
- oninitialized
- onloadstarted
- onloadfinished
- onurlchanged
- onnavigationrequested
- onrepaintrequested
- onresourcerequested
- onresourcereceived
- onresourceerror
- onresourcetimeout
- onalert
- onconsolemessage
- onclosing
| page.onInitialized = function() { | |
| console.log("page.onInitialized"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| page.onLoadStarted = function() { | |
| console.log("page.onLoadStarted"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| page.onLoadFinished = function() { | |
| console.log("page.onLoadFinished"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| page.onUrlChanged = function() { | |
| console.log("page.onUrlChanged"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| page.onNavigationRequested = function() { | |
| console.log("page.onNavigationRequested"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| page.onRepaintRequested = function() { | |
| console.log("page.onRepaintRequested"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| if (logResources === true) { | |
| page.onResourceRequested = function() { | |
| console.log("page.onResourceRequested"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| page.onResourceReceived = function() { | |
| console.log("page.onResourceReceived"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| } | |
| page.onClosing = function() { | |
| console.log("page.onClosing"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| // window.console.log(msg); | |
| page.onConsoleMessage = function() { | |
| console.log("page.onConsoleMessage"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| // window.alert(msg); | |
| page.onAlert = function() { | |
| console.log("page.onAlert"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| // var confirmed = window.confirm(msg); | |
| page.onConfirm = function() { | |
| console.log("page.onConfirm"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| // var user_value = window.prompt(msg, default_value); | |
| page.onPrompt = function() { | |
| console.log("page.onPrompt"); | |
| printArgs.apply(this, arguments); | |
| }; | |
| //////////////////////////////////////////////////////////////////////////////// | |
| setTimeout(function() { | |
| console.log(""); | |
| console.log("### STEP 1: Load '" + step1url + "'"); | |
| page.open(step1url); | |
| }, 0); | |
| setTimeout(function() { | |
| console.log(""); | |
| console.log("### STEP 2: Load '" + step2url + "' (load same URL plus FRAGMENT)"); | |
| page.open(step2url); | |
| }, 5000); | |
| setTimeout(function() { | |
| console.log(""); | |
| console.log("### STEP 3: Click on page internal link (aka FRAGMENT)"); | |
| page.evaluate(function() { | |
| var ev = document.createEvent("MouseEvents"); | |
| ev.initEvent("click", true, true); | |
| document.querySelector("a[href='#Event_object']").dispatchEvent(ev); | |
| }); | |
| }, 10000); | |
| setTimeout(function() { | |
| console.log(""); | |
| console.log("### STEP 4: Click on page external link"); | |
| page.evaluate(function() { | |
| var ev = document.createEvent("MouseEvents"); | |
| ev.initEvent("click", true, true); | |
| document.querySelector("a[title='JavaScript']").dispatchEvent(ev); | |
| }); | |
| }, 15000); | |
| setTimeout(function() { | |
| console.log(""); | |
| console.log("### STEP 5: Close page and shutdown (with a delay)"); | |
| page.close(); | |
| setTimeout(function(){ | |
| phantom.exit(); | |
| }, 100); | |
| }, 20000); |
网络监控
var page = require('webpage').create();
page.onResourceRequested = function(request) {
console.log('Request ' + JSON.stringify(request, undefined, ));
};
page.onResourceReceived = function(response) {
console.log('Receive ' + JSON.stringify(response, undefined, ));
};
page.open(url);
phantomjs 开发爬虫框架的更多相关文章
- 《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码 下载:https://pan. ...
- C# 爬虫框架实现 流程_各个类开发
目录链接:C# 爬虫框架实现 概述 对比通用爬虫结构,我将自己写的爬虫分为五个类实现: Spider主类:负责设置爬虫的各项属性 Scheduler类:负责提供URL到下载类,接收URL并做去重 Do ...
- 学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
由于业务需要,老大要我研究一下爬虫. 团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周.基于以上原因固放弃python,选择java为语言来进行开发.等之后有时间再尝试pytho ...
- 分布式爬虫框架XXL-CRAWLER
<分布式爬虫框架XXL-CRAWLER> 一.简介 1.1 概述 XXL-CRAWLER 是一个分布式爬虫框架.一行代码开发一个分布式爬虫,拥有"多线程.异步.IP动态代理.分布 ...
- php 爬虫框架
发现两款不错的爬虫框架,极力推荐下: phpspider 一款优秀的PHP开发蜘蛛爬虫 官方下载地址:https://github.com/owner888/phpspider 官方开发手册:http ...
- 洗礼灵魂,修炼python(72)--爬虫篇—爬虫框架:Scrapy
题外话: 前面学了那么多,相信你已经对python很了解了,对爬虫也很有见解了,然后本来的计划是这样的:(请忽略编号和日期,这个是不定数,我在更博会随时改的) 上面截图的是我的草稿 然后当我开始写博文 ...
- Scrapy爬虫框架教程(四)-- 抓取AJAX异步加载网页
欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...
- 教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
- [开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计
[DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 为什么要造轮子 同学们可以去各大招聘网站查看一下爬虫工程师的要求,大多是招JA ...
随机推荐
- 查看http的并发请求数与其TCP连接状态
[root@new-web7 ~ ::]#netstat -na | awk '/^tcp/ {++S[$NF]} END {for(i in S) print i, S[i]}' TIME_WAIT ...
- 【WCF系列】(二)设计和实现服务协定
设计和实现服务协定 WCF术语介绍 服务(Service):服务是一个构造,它公开一个或多个终结点,其中每个终结点都公开一个或多个服务操作. 终结点(EndPoint):终结点是用来发送或接收消息(或 ...
- 【Java】0X001.配置开发环境,JDK、classpath等
[Java]0x01 配置开发环境,JDK.CLASSPATH等 一. 下载JDK安装文件 首先,进入Oracle官网Java页面. 注意,要下载的是JDK而不是JRE,这点很重要,因为JRE并不包含 ...
- Beta 第二天
今天遇到的困难: 组员对github极度的不适应 Android Studio版本不一致项目难以打开运行 移植云端的时候,愚蠢的把所有项目开发环境全部搬上去.本身云的内存小,性能差,我们花费了太多时间 ...
- Alpha冲刺Day11
Alpha冲刺Day11 一:站立式会议 今日安排: 由周静平继续完成昨日第三方机构剩余的核实企业风险数据和企业风险数据详情模块 由张梨贤和黄腾飞共同完成第三方机构的分级统计展示模块 由林静开始登录/ ...
- 第14、15週PTA題目的處理
題目1 選擇法排序 1.實驗代碼 #include <stdio.h> #include <stdlib.h> int main() { int n,index,exchang ...
- mysql基础篇 - 其他基本操作
基础篇 - 其他基本操作 其他基本操作 一.实验简介 本节实验中我们将学习并实践数据库的其他基本操作:索引.视图,导入和导出,备份和恢复等. 这些概念对于数据库管理员而言都非常重要,请 ...
- DistBlockNet:A Distributed Blockchains-Based Secure SDN Architecture for IOT Network
现有问题 随着IOT中智能设备多样性和数目的增加,IOT的灵活性,效率,可用性,安全性和可扩展性的问题越来越明显. 实验目标 按照高适应性,可用性,容错性,性能,可靠性,可扩展性和安全性的设计原则,构 ...
- 安装Loadrunner 11.0时,弹出缺少2.8 sp1组件--解决方案(win7)
这是因为注册表缺少FullInstallVer和Version,归根到底是madc安装的的问题 以下是解决方法: 1.运行regedit,打开注册表,进入HKEY_LOCAL_MACHINE\SOFT ...
- ThinkPad安装deepin操作系统报错解决方法
目前deepin操作系统,软件也比较多,所以想在自己的thinkpad t430笔记本上安装.但是安装时报错,具体错误忘了看了.反复试了好几次都不行,最后在网上查了,讲bios设置调整之后可以正常安装 ...