HtmlUnit爬取Ajax动态生成的页面内容

　　HtmlUnit说白了就是一个浏览器，这个浏览器是用Java写的无界面的浏览器，正因为其没有界面,因此执行的速度还是可以滴。

　　HtmlUnit提供了一系列的API,这些API可以干的功能比较多，如表单的填充，表单的提交，模仿点击链接，由于内置了Rhinojs引擎，因此可以执行JavaScript

　　之前用的时候一直抓取不了Ajax动态生成table及其数据，用Firefox和IE浏览器查看网页源代码也看不到table和数据，但是用Firefox查看元素能看到信息

　　调研了HtmlUnit好久都没有用，后来更新了HtmlUnit的jar包版本，居然就可以了。之前用的是HtmlUnit2.14，现在用的是2.20版本

　　下是我爬取某网站ajax动态生成的table数据。流程是：在首页填写相关查询关键字，然后模拟点击查询按钮，获取table数据

public class CrawlerXXX {

    private static Logger log = Logger.getLogger(CrawlerXXX.class);

    public static void main(String[] args){

        WebClient wc = new WebClient(BrowserVersion.BEST_SUPPORTED);

        wc.getOptions().setTimeout(10000); //设置连接超时时间 ，这里是10S。如果为0，则无限期等待

        wc.getOptions().setJavaScriptEnabled(true); //启用JS解释器，默认为true

        wc.setJavaScriptTimeout(10000);//设置JS执行的超时时间

        wc.getOptions().setCssEnabled(false); //禁用css支持

        wc.getOptions().setThrowExceptionOnScriptError(false); //js运行错误时，是否抛出异常

        wc.getOptions().setRedirectEnabled(true);

        wc.getOptions().setUseInsecureSSL(true);

        try {

            HtmlPage mainPage = wc.getPage("xxx");

            HtmlForm form = mainPage.getFormByName("xxx");

            HtmlTextInput textField = form.getInputByName("varghost");

            HtmlSubmitInput button = form.getInputByName("xxx");

            textField.setValueAttribute("xxx");

            HtmlPage clickedPage = button.click();

            try {

                Thread.sleep(10000);

            } catch (InterruptedException e) {

                e.printStackTrace();

            }

            if( clickedPage.asXml().contains("OK") || mainPage.asXml().contains("OK")){

                Document doc = Jsoup.parse(clickedPage.asXml());

                Element table = doc.getElementById("pingtable");

                Elements trs = table.getElementsByTag("tr");

                int len = trs.size();

                for(int i = 1; i < len; i++){

                    Element td = trs.get(i).getElementsByTag("td").last();

                    String xxx = td.text();

                    if(xxx.length() > 0){

                        System.out.println("xxx"+i+" = " + xxx);

                    }

                }

            }

        } catch (FailingHttpStatusCodeException | IOException e) {

            e.printStackTrace();

        }

    }

}

HtmlUnit爬取Ajax动态生成的页面内容的更多相关文章

HtmlUnit爬取Ajax动态生成的网页以及自动调用页面javascript函数
HtmlUnit官网的介绍: HtmlUnit是一款基于Java的没有图形界面的浏览器程序.它模仿HTML document并且提供API让开发人员像是在一个正常的浏览器上操作一样,获取网页内容,填充 ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
十三 web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多网站,当你浏览器访问时看到的信息,在html源文件里却找不到,由得信息还是滚动条滚动到对应的位置后才显示信息, ...
爬虫——爬取Ajax动态加载网页
常见的反爬机制及处理方式 1.Headers反爬虫 :Cookie.Referer.User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2.IP限制 ...
Python网络爬虫_爬取Ajax动态加载和翻页时url不变的网页
1 . 什么是 AJAX ? AJAX = 异步 JavaScript 和 XML. AJAX 是一种用于创建快速动态网页的技术. 通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新 ...
htmlunit爬虫工具使用--模拟浏览器发送请求，获取JS动态生成的页面内容
Htmlunit是一款模拟浏览抓取页面内容的java框架,具有js解析引擎(rhino),可以解析页面的js脚本,得到完整的页面内容,特殊适合于这种非完整页面的站点抓取. 下载地址: https:// ...
C# HtmlAgilityPack+Selenium爬取需要拉动滚动条的页面内容
现在大多数网站都是随着滚动条的滑动加载页面内容的,因此单纯获得静态页面的Html是无法获得全部的页面内容的.使用Selenium就可以模拟浏览器拉动滑动条来加载所有页面内容. 前情提要 C#HtmlA ...
C#使用phantomjs，爬取AJAX加载完成之后的页面
1.开发思路:入参根据apiSetting配置文件,分配静态文件存储地址,可实现不同站点的静态页生成功能.静态页生成功能使用无头浏览器生成,生成之后的字符串进行正则替换为固定地址,实现本地正常访问. ...
C#利用phantomJS抓取AjAX动态页面
在C#中,一般常用的请求方式,就是利用HttpWebRequest创建请求,返回报文.但是有时候遇到到动态加载的页面,却只能抓取部分内容,无法抓取到动态加载的内容. 如果遇到这种的话,推荐使用phan ...

随机推荐

Robots协议应用与写法研究
CSS3 (一)
属性选择器 1. E[attr^="value"]:指定了属性名,并且有属性值,属性值是以value开头的: .wrap a[href^="http://"]{ ...
poj 3368 Frequent values 解题报告
题目链接:http://poj.org/problem?id=3368 题目意思:给出一段 n 个数的序列你,对于区间 [l, r] 的询问,找出出现频率最高的数的次数.考虑到序列中的数是非递减的, ...
UUIDUtils
package com.cc.hkjc.util; import java.util.UUID; /** * 字符串工具类 * * @author:匿名 * */public class UUID ...
IDEA下搭建简单的SpringBoot工程应用
(1)File->new,选择maven,创建一个空项目,直接next. (2)填写工程名,next. (3)填写项目名,next,创建一个基于maven的空Java项目. (4)在pom文件中 ...
Getting Started with the Intel Media SDK
By Gael Hofemeier on March 19, 2015 Follow Gael on Twitter: @GaelHof Media SDK Developer’s Guide Med ...
OpenMediaVault Redmine 安装
/******************************************************************** * OpenMediaVault Redmine 安装 * ...
java服务器端断点续传
Servlet Java代码复制代码收藏代码 import java.io.BufferedOutputStream; import java.io.File; import java.io.IO ...
View Controller Programming Guide for iOS---(一)---About View Controllers
About View Controllers View controllers are a vital link between an app’s data and its visual appear ...
STS和Eclipse安装Lombok插件
参考:https://www.cnblogs.com/caozx/p/9510354.html 参考:https://blog.csdn.net/wutian90/article/details/87 ...

HtmlUnit爬取Ajax动态生成的页面内容

HtmlUnit爬取Ajax动态生成的页面内容的更多相关文章

随机推荐

热门专题