抓取js动态生成数据

　　最近在抓数据，一般的网页数据抓取相对容易一些，今天在抓电视猫的节目单，发现有些数据时抓取不到的，Java端得到的HTML文件里面没有某一段代码，查了很多资料，发现说是js动态生成的数据，无法直接抓取，有一种解决方法是利用找到ajax请求地址和参数，重新抓取，该方法存在一个问题，就是当参数被加密过时，该方法就不好用了，所以，这里用了一个办法，就是利用HTMLunit来抓取（可以利用jsuop来处理HTML文件），jar包下载地址：http://download.csdn.net/detail/joy460154849/9822849（HTMLunit所用到的jar包全部导入后，稍微调整一下，因为有些有重复导入或者版本问题）代码如下：

public static String  getHtml(String url){

        // 模拟一个浏览器

        @SuppressWarnings("resource")

        WebClient webClient = new WebClient();

        //webclient参数载体

        WebClientOptions clientOptions = webClient.getOptions();

        // 设置webClient的相关参数

        clientOptions.setJavaScriptEnabled(true);

        clientOptions.setCssEnabled(false);

        webClient.setAjaxController(new NicelyResynchronizingAjaxController());

        clientOptions.setTimeout(35000);

        clientOptions.setThrowExceptionOnScriptError(false);

        // 模拟浏览器打开一个目标网址

        HtmlPage rootPage = null;

        try {

            rootPage = webClient.getPage(html);

        } catch (FailingHttpStatusCodeException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        } catch (MalformedURLException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }  

        //保存页面

        //rootPage.save(new File("/home/share/Test/1"));  

        //body html信息

        HtmlElement htmlElement = rootPage.getBody();

        String xmlContent = htmlElement.asXml();

        return xmlContent;

    }

抓取js动态生成数据的更多相关文章

抓取Js动态生成数据且以滚动页面方式分页的网页
代码也可以从我的开源项目HtmlExtractor中获取. 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网 ...
抓取js动态生成的数据分析案例
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
js动态生成数据列表
我们通常会使用table标签来展示数据内容,由于需要展示的数据内容是随时更换的,所以不可能将展示的数据列表写死在html写死在页面中,而是需要我们根据后台传来的数据随时更换,这个时候就需要我们使用js ...
js动态生成数据的抓取
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
爬虫案例(js动态生成数据)
需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html页面中的 ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
爬虫之抓取js生成的数据
有很多页面,当我们用request发送请求,返回的内容里面并没有页面上显示的数据,主要有两种情况,一是通过ajax异步发送请求,得到响应把数据放入页面中,对于这种情况,我们可以查看关于ajax的请求, ...
2）JS动态生成HTML元素的爬取
2)JS动态生成HTML元素的爬取 import java.util.List; import org.openqa.selenium.By; import org.openqa.selenium.W ...
网站爬取-案例三：今日头条抓取(ajax抓取JS数据)
今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方法不太一样,对它的抓取需要抓取后台传来的JSON数据,先来看一下今日头条的源码结构:我们 ...

随机推荐

fdisk - Linux分区表操作工具软件
总览 fdisk [-u]设备名 fdisk -l [-u] [设备名 ...] fdisk -s分区 ... fdisk -v 描述硬盘可以被分成一个或多个逻辑磁盘,称为分区. 这些分区信息都存 ...
启动tomcat的Cannot find ./catalina.sh 的问题
从终端进入tomcat的bin目录,然后执行startup.sh Cannot find bin/catalina.sh The file is absent or does not have exe ...
python 线程的调用方式
python 线程的调用方式 #!/usr/bin/env python #-*- coding:utf-8 -*- # author:leo # datetime:2019/5/24 9:44 # ...
ML.NET技术研究系列1-入门篇
近期团队在研究机器学习,希望通过机器学习实现补丁发布评估,系统异常检测.业务场景归纳一下: 收集整理数据(发布相关的异常日志.告警数据),标识出补丁发布情况(成功.失败) 选择一个机器学习的Model ...
JS MarcoTasks MicroTasks
JS MarcoTasks MicroTasks 在JS的event loop中,有两种任务队列microtasks和macrotasks microtasks process.nextTick Pr ...
nodejs 实现图片上传
1.首先在目录下的运行cmd,执行以下命令 npm install multer; 2.在router下新建upload.js let express = require('express');let ...
牛客小白月赛5 I 区间 (interval) 【前缀和】
链接:https://www.nowcoder.com/acm/contest/135/I 题目描述 Apojacsleam喜欢数组. 他现在有一个n个元素的数组a,而他要对a[L]-a[R]进行M次 ...
详解----memcache服务端与客户端
Memcache是danga.com的一个项目,用这个缓存项目来构建自己大负载的网站,来分担数据库的压力. 它可以应对任意多个连接,使用非阻塞的网络IO.由于它的工作机制是在内存中开辟一块空间,然后建 ...
微信小游戏 demo 飞机大战代码分析（一）(game.js, main.js)
微信小游戏 demo 飞机大战代码分析(一)(main.js) 微信小游戏 demo 飞机大战代码分析(二)(databus.js) 微信小游戏 demo 飞机大战代码分析(三)(spirit. ...
爬虫进阶之Selenium和chromedriver,动态网页（Ajax）数据抓取
什么是Ajax: Ajax(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...

抓取js动态生成数据

抓取js动态生成数据的更多相关文章

随机推荐

热门专题