java+phantomjs实现动态网页抓取

1.下载地址:http://phantomjs.org/download.html

2.java代码

public     void   getHtml(String url)

{

	 HTML="";

    String jsPath = "C:\\phantomjs\\examples\\myjs.js";

    String exePath = "C:\\phantomjs\\bin\\phantomjs.exe";

    System.out.println(jsPath);

    System.out.println(exePath);

    Runtime rt = Runtime.getRuntime();

	Process p;

	try {

		p = rt.exec(exePath + " " + jsPath + " " + url);

	InputStream is = p.getInputStream();

	BufferedReader br = new BufferedReader(new InputStreamReader(is));

	StringBuffer sbf = new StringBuffer();

	String tmp = "";

	while ((tmp = br.readLine()) != null)

	{

		sbf.append(tmp);

	}

	HTML=sbf.toString();

  is.close();

  br.close();

  sbf=null;

  is=null;

  br=null;

	} catch (IOException e) {

		e.printStackTrace();

	}

}

　3.js

var page = require('webpage').create(),

  system = require('system'),

  t, address;

page.settings.loadImages = false;  //为了提升加载速度，不加载图片

page.settings.resourceTimeout = 10000;//超过10秒放弃加载

//此处是用来设置截图的参数。不截图没啥用

page.viewportSize = {

  width: 1280,

  height: 800

};

block_urls = ['baidu.com'];//为了提升速度，屏蔽一些需要时间长的。比如百度广告

page.onResourceRequested = function(requestData, request){

    for(url in block_urls) {

        if(requestData.url.indexOf(block_urls[url]) !== -1) {

            request.abort();

           return;

        }

    }

}

address = system.args[1];

page.open(address, function(status) {

  if (status !== 'success') {

    console.log('FAIL to load the address');

  } else {

    console.log(page.content);

    setTimeout(function(){ phantom.exit(); }, 6000);

  }

  phantom.exit();

});

java+phantomjs实现动态网页抓取的更多相关文章

Python开发爬虫之动态网页抓取篇：爬取博客评论数据——通过Selenium模拟浏览器抓取
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
面向初学者的Python爬虫程序教程之动态网页抓取
目的是对所有注释进行爬网. 下面列出了已爬网链接.如果您使用AJAX加载动态网页,则有两种方式对其进行爬网. 分别介绍了两种方法:(如果对代码有任何疑问,请提出改进建议)解析真实地址爬网示例是参考链接 ...
Spider_基础总结5--动态网页抓取--元素审查--json--字典
# 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,此时仍然使用 # requests+beautifulsoup是不能够 ...
Spider--动态网页抓取--审查元素
# 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,我们需要使用动态网页抓取技术. # Ajax: Asynchronou ...
动态网页爬取例子（WebCollector+selenium+phantomjs）
目标:动态网页爬取说明:这里的动态网页指几种可能:1)需要用户交互,如常见的登录操作:2)网页通过JS / AJAX动态生成,如一个html里有<div id="test" ...
Java实现网页抓取的一个Demo
这个小案例的话我是存放在我的github 上. 下面给出链接自己可以去看下,也可以直接下载源码.有具体的说明 <Java网页抓取>
Node.js 动态网页爬取 PhantomJS 使用入门(转)
Node.js 动态网页爬取 PhantomJS 使用入门原创NeverSettle101 发布于2017-03-24 09:34:45 阅读数 8309 收藏展开版权声明:本文为 winte ...
Java开源网页抓取工具httpClient以及jsoup
网上看到不错的Java网页抓取工具和库先记录一下使用java开源工具httpClient及jsoup抓取解析网页数据

随机推荐

Java环境变量PATH和CLASSPATH
Java开发中常用到环境变量的配置,下面简单介绍下Java中经常配置的环境变量:PATH和CLASSPATH. 1.PATH环境变量 1.1 作用简介安装完JDK(Java Development ...
javascript中的map和reduce
今天在看“廖雪峰官方网站”的js教程时,看到了map和reduce.其中有一个练习题是:不使用js内置的parseInt()函数,利用map和reduce操作实现一个string2int()函数(先将 ...
Homework：奇偶性
// 程序功能: // 要求用户从键盘输入一个整数,判断其是奇数还是偶数 #include <stdio.h> int main() { int x; printf("输入一个整 ...
echarts饼图去除鼠标移入高亮
1:如果echarts的js文件为压缩版本,在编辑器打开去掉t.on("mouseover",c).on("mouseout",d)这一行,如果js文件为非压缩 ...
servlet的继承关系
一.servlet的继承关系 1.servlet程序是sun公司开发用于web资源技术,任何一个类只需要实现了servlet接口,那么就可以成为servlet程序 2.继承体系: ---------- ...
Selenium Grid和IE /Firefox各种填坑
使用selenium grid的步骤 1.确保hub和node都安装并且配置好了java jdk. 2.在hub上运行以下命令. java -jar C:\Software\selenium\sele ...
python 写入数据
import sys reload(sys) sys.setdefaultencoding('utf8') import xlrd import xlwt book = xlrd.open_workb ...
vue在main.js中全局引用css的方法及坑
步骤: 1.配置文件webpack.config.js: { test:/\.css$/, loader:'style-loader!css-loader' } 坑1:-loader尾缀坑2:Mod ...
leetcode 最大不重复字符
class Solution: def lengthOfLongestSubstring(self, s: str) -> int: if len(s) <= 1: return len( ...
python的argpare和click模块详解
一.argparse模块 1.模块说明 # argparse是python的标准库中用来解析命令行参数的模块,用来替代已经过时的optparse模块,argparse能够根据程序中的定义的sys.ar ...

java+phantomjs实现动态网页抓取

java+phantomjs实现动态网页抓取的更多相关文章

随机推荐

热门专题