java_爬虫_获取经过js渲染后的网页源码

弄了一天了……（这个月不会在摸爬虫了，浪费生命）

进入正题:

起初是想写一个爬虫来爬一个网站的视频，但是怎么爬取都爬取不到，分析了下源代码之后，发现源代码中并没有视频的dom

但是在浏览器检查元素的时候又是有的，这就让我很难过了

百度了一大天，发现是因为普通方法获取的只是服务器端本地的静态资源，也就是第一手资源

而浏览器检查元素的资源是经过js渲染后的代码

所以就要想办法去获得渲染后的代码

在看了若干个帖子之后……外加上一个httpclient课程和另一个htmlunit课程……

终于，在看完一个帖子后，知道了怎么获取渲染后网页的代码

首先，httpclient是普通httlurlConnection的升级版，可以模拟浏览器以防止被服务器封杀

但是抓取的源代码是静态的一手源代码，没有经过js渲染后的内容

所以就需要htmlunit工具，来让页面经过渲染，然后获取源代码

htmlunit的主要功能就是模拟人工操作页面内的元素，由于没有gui，所以要比普通操作要快，但是实际操作后发现还是需要肉眼可见的时间

具体两个工具的jar包在哪儿下载不在这赘述，相信看到这篇文章的人都应该知道在那里获取资源

下面直接贴上源码，具体语句含义在注释中有

源代码如下：

import java.io.IOException;

import java.net.MalformedURLException;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;

import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class HtmlUnit {

    public static void main(String[] args) {

        WebClient webClient = new WebClient(BrowserVersion.FIREFOX_52);//模拟火狐浏览器

        try {

//            HtmlPage page = webClient.getPage("http://www.baidu.com");

//            webClient.getOptions().setCssEnabled(false);

//            webClient.getOptions().setJavaScriptEnabled(false);

            webClient.setJavaScriptTimeout(5000);

            webClient.getOptions().setUseInsecureSSL(true);//接受任何主机连接 无论是否有有效证书

            webClient.getOptions().setJavaScriptEnabled(true);//设置支持javascript脚本

            webClient.getOptions().setCssEnabled(false);//禁用css支持

//            webClient.getOptions().set

            webClient.getOptions().setThrowExceptionOnScriptError(false);//js运行错误时不抛出异常

            webClient.getOptions().setTimeout(100000);//设置连接超时时间

            webClient.getOptions().setDoNotTrackEnabled(false);

//            HtmlPage page = webClient.getPage("http://blog.csdn.net/su20145104009?viewmode=contents");

            HtmlPage page = webClient.getPage("http://www.enmeiyiyuan.com/look-5bf3f60b83145.html");

//            String res=page.asText();

            Thread.sleep(3000);

            System.out.println(page.asXml());

        } catch (FailingHttpStatusCodeException e) {

            // TODO 自动生成的 catch 块

            e.printStackTrace();

        } catch (MalformedURLException e) {

            // TODO 自动生成的 catch 块

            e.printStackTrace();

        } catch (IOException e) {

            // TODO 自动生成的 catch 块

            e.printStackTrace();

        } catch (InterruptedException e) {

            // TODO 自动生成的 catch 块

            e.printStackTrace();

        }finally {

            webClient.close();

        }

    }

}

那些注释掉的是之前尝试的……

然后一定要注意加上线程等待时间，不然获取的大概率还是第一手代码，因为js渲染需要时间，这里是等待了三秒，然后成功获取经过处理的源码

希望对大家有所帮助

以上

java_爬虫_获取经过js渲染后的网页源码的更多相关文章

htmlunit抓取js执行后的网页源码
上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了.. 运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同. URLC ...
Python通过PhantomJS获取JS渲染后的网页源代码
新建一个文件,命名为test.js,内容如下: var page = require('webpage').create(), system = require('system'), address; ...
服务端渲染数据驱动不是渲染后的网页，而是一个由html和Javascript组成的app ssr 隐藏接口服务器
小结: 1. 服务端渲染主要的工作是把组件渲染为服务器端的 HTML 字符串,将它们直接发送到浏览器,最后将静态标记"混合"为客户端上完全交互的应用程序. 服务器给到客户端的已经是 ...
python 爬取世纪佳缘,经过js渲染过的网页的爬取
#!/usr/bin/python #-*- coding:utf-8 -*- #爬取世纪佳缘 #这个网站是真的烦,刚开始的时候用scrapy框架写,但是因为刚接触框架,碰到js渲染的页面之后就没办法 ...
Python爬虫学习之获取网页源码
偶然的机会,在知乎上看到一个有关爬虫的话题<利用爬虫技术能做到哪些很酷很有趣很有用的事情?>,因为强烈的好奇心和觉得会写爬虫是一件高大上的事情,所以就对爬虫产生了兴趣. 关于网络爬虫的定义 ...
JS魔法堂：jsDeferred源码剖析
一.前言最近在研究Promises/A+规范及实现,而Promise/A+规范的制定则很大程度地参考了由日本geek cho45发起的jsDeferred项目(<JavaScript框架设计& ...
C语言之socket获取网页源码
写爬虫也许你用的是python,类似urlopen(url).read()即可获得普通的网页的源码,或者用的java的网络库加上流操作,或者其他高级语言.但你有没有想过使用C语言来实现呢?我曾经以为用 ...
C#获取指定网页源码的几种方法
// WebClient private string GetWebClient(string url) { string strHTML = ""; WebClient myWe ...
QT：轻松获取网页源码
获取网页源码的小例子,代码很简单,就不多作解释了. 不过一定要注意网页的编码问题,否则会出现乱码的!!! #include <QtCore> #include <QtNetwork& ...

随机推荐

嵊州D2T4 十七个中毒的英国人 poisoning
嵊州D2T4 十七个中毒的英国人 poisoning 利内罗女士准备来到意大利进行修行. 意大利由 n 个城市和 m 条道路构成,道路是双向的. 到达第 i 个城市时,她可以取得该城市的全部信仰,并获 ...
jenkins自动化部署（tomcat+git)
一.安装jenkins 1.安装jdk 查看可安装版本:yum search openjdk 安装:yum install -y java-1.8.0-openjdk java-1.8.0-openj ...
linq to sql 获取sql与参数添加到日志中
这里的linq to sql并未使用ef 主要有以下内容 1.新增 2.修改 3.删除 4.查询 1.新增,修改,删除获取sql语句通过DataContext.Log获取执行的sql语句 String ...
mysql权限过滤
1.用like做权限过滤上级部门可以看到下级部门发布的正式文件,下级部门不能看到上级部门发布的正式文件 SELECT*FROM cms_nrgl_st a, mz_xzjg bWHERE a.sys ...
react-native构建基本页面3---路由配置
安装路由运行yarn add react-native-router-flux 路由官网路由相关配置路由简单的DEMO // Main 才是项目的根组件 import React, { Comp ...
[Violet]天使玩偶/SJY摆棋子 [cdq分治]
P4169 [Violet]天使玩偶/SJY摆棋子求离 $(x,y)$ 最近点的距离距离的定义是 $|x1-x2|+|y1-y2|$ 直接cdq 4次考虑左上右上左下右下就可以了-略微卡 ...
JS编解码与Java编解码的对应关系
最近前段在导出数据时会遇到“illegal character”的异常错误,结果发现是在请求地址中请求参数包含了空白字符(其编码为%C2%A0)或者是空格字符(其编码为%20),之前对空格字符情况是做 ...
Gin_Cookie
1. cookie HTTP是无状态协议,服务器不能记录浏览器的访问状态,也就是说服务器不能区分两次请求是否由同一个客户端发出 Cookie就是解决HTTP协议无状态的方案之一,中文是小甜饼的意思 C ...
前端 form select js处理
1.代码如下 function initializeSelect(data) { var area = $("#ServiceName"); area.find("opt ...
vba工程密码清除
EXCEL vba工程密码破解方法一:这种方法实际是避开VBA工程密码验证,即骗vba编辑器,该密码输入成功,请求放行.不管他是破解还是欺骗能达到我们的目的角开就行________________ ...

java_爬虫_获取经过js渲染后的网页源码

java_爬虫_获取经过js渲染后的网页源码的更多相关文章

随机推荐

热门专题