上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了。。

运行了几次 发现使用URLConnection 得到的网页源码和浏览器直接查看的不同。 URLConnection 使用IO流读取到的源码

只有积分  没有访问量了

而使用浏览器访问 直接查看源码

有访问。

这也就导致了我的程序不能用了  需要更新了

想想原因   可能是幕后主使人把访问量放在了js里面   动态展示,而我使用URLConnection 访问的静态界面  确确实实没有收到。

于是开始百度了  百度过来 百度过去。。

发现了一个回复了三年还没有结贴的帖子

java爬虫项目,如何获取js执行后的完整网页源代码?

里面回复了好多方法  发现有个htmlunit  于是就自己测试一下
发现真的可以。得到了js执行后的源码。
废话不说了。
方法如下
  1. public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
  2. // TODO Auto-generated method stub
  3. WebClient wc=new WebClient(BrowserVersion.FIREFOX_24);
  4. wc.setJavaScriptTimeout(5000);
  5. wc.getOptions().setUseInsecureSSL(true);//接受任何主机连接 无论是否有有效证书
  6. wc.getOptions().setJavaScriptEnabled(true);//设置支持javascript脚本
  7. wc.getOptions().setCssEnabled(false);//禁用css支持
  8. wc.getOptions().setThrowExceptionOnScriptError(false);//js运行错误时不抛出异常
  9. wc.getOptions().setTimeout(100000);//设置连接超时时间
  10. wc.getOptions().setDoNotTrackEnabled(false);
  11. HtmlPage page=wc.getPage("http://blog.csdn.net/su20145104009?viewmode=contents");
  12. String res=page.asText();
  13. //处理源码
  14. deal(res);
  15. }

最后得到的源码如下:

其它的代码和点击打开链接 这篇文章相比几乎没变。如果不明白 可以去看一下  这里就不再赘述了
 
执行后  成功写入到txt文档
使用了htmlunit会弹出好多异常警告
加上这些代码  就会消失了~
  1. LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log",    "org.apache.commons.logging.impl.NoOpLog");
  2. java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")
  3. .setLevel(Level.OFF);
  4. java.util.logging.Logger.getLogger("org.apache.commons.httpclient")
  5. .setLevel(Level.OFF);

由于我们在这里 引入了htmlunit 的jar包  .那么再用上次的脚本批量处理 就行不通了 ~

而且要引入的jar包也不是一个  是多个  所以要批量处理了
首先我们要把所有要用的jar包 使用-cp命令导入。
可是htmlunit的jar包太多了  所以想到一个方法  使用for循环遍历htmlunit文件夹里面的jar文件  将其处理为一个字符串 然后再使用-cp命令 全部代码如下
  1. echo off
  2. setlocal enabledelayedexpansion
  3. ::定义一个字符串
  4. set str=
  5. ::遍历htmlunit文件夹
  6. for /f "delims=" %%a in ('dir /b "E:\lib\htmlunit-2.14-bin\lib\*.jar"') do (
  7. set "str=!str!E:\lib\htmlunit-2.14-bin\lib\%%a;"
  8. )
  9. echo on
  10. e:
  11. javac -cp .;%str% AutoMarkBlogView.java
  12. java -cp .;%str% AutoMarkBlogView
  13. pause

运行结果如下:

 

htmlunit抓取js执行后的网页源码的更多相关文章

  1. java_爬虫_获取经过js渲染后的网页源码

    md 弄了一天了……(这个月不会在摸爬虫了,浪费生命) 进入正题: 起初是想写一个爬虫来爬一个网站的视频,但是怎么爬取都爬取不到,分析了下源代码之后,发现源代码中并没有视频的dom 但是在浏览器检查元 ...

  2. java抓取东方财富股票数据(附源码)

    背景 前段时间给朋友写了一个自动抓取同花顺股票数据的程序,不少人觉得不错. 这几天后台有粉丝给我留言让我也抓一下东方财富的数据,说东方财富的数据特别难抓,我还真不一定能搞得定. 本来我是一个德艺双磬且 ...

  3. 如何用phantomjs去抓取js渲染后的页面

    1.安装phantomjs 网上有很多. 2.执行官网上的示例代码 // Read the Phantom webpage '#intro' element text using jQuery and ...

  4. Java使用HtmlUnit抓取js渲染页面

    需求: 需要采集js渲染的页面,有些网站的页面是js渲染的 实现: 基于HtmlUnit实现: public static void getAjaxPage() throws Exception{ W ...

  5. 使得fiddler来抓包查看微信浏览器的网页源码

    需要工具:http://www.telerik.com/fiddler 下载安装后 第二步: 打开这个选项: 设置代理:allow remote computer to connect  端口为888 ...

  6. 抓取Js动态生成数据且以滚动页面方式分页的网页

    代码也可以从我的开源项目HtmlExtractor中获取. 当我们在进行数据抓取的时候,如果目标网站是以Js的方式动态生成数据且以滚动页面的方式进行分页,那么我们该如何抓取呢? 如类似今日头条这样的网 ...

  7. 如何用python抓取js生成的数据 - SegmentFault

    如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞 踩 收藏 想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...

  8. Scrapy爬虫框架教程(四)-- 抓取AJAX异步加载网页

    欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction ...

  9. sqlserver 抓取所有执行语句 SQL语句分析 死锁 抓取

    原文:sqlserver 抓取所有执行语句 SQL语句分析 死锁 抓取 在多人开发中最头疼的是人少事多没有时间进行codereview,本来功能都没时间写,哪有时间来开会细细来分析代码.软件能跑就行, ...

随机推荐

  1. _beginThreadex的用法

    http://blog.csdn.net/cjcy1984001/article/details/6675669 线程开始和停止函数!  unsigned long _beginthreadex( v ...

  2. monkey之monkeyServer

    基本命令: adb shell monkey --port 1080 & adb forward tcp:1080 tcp:1080 telnet 127.0.0.1 1080 启动andro ...

  3. FTP服务基础

    网络文件共享 本章内容 FTP服务 NFS服务 SAMBA服务 DAS.NAS.SAN(文件) DAS:开放系统的直连式存储(Direct-Attached Storage) 磁盘连接到本机的电脑上, ...

  4. Java判断一个数是不是快乐数

    快乐数的定义: 快乐数(happy number)有以下的特性: 在给定的进位制下,该数字所有数位(digits)的平方和,得到的新数再次求所有数位的平方和,如此重复进行,最终结果必为1. 以十进制为 ...

  5. Golang : flag 包简介

    在 Golang 程序中有很多种方法来处理命令行参数.简单的情况下可以不使用任何库,直接处理 os.Args:其实 Golang 的标准库提供了 flag 包来处理命令行参数:还有第三方提供的处理命令 ...

  6. Codeforces Round #377 (Div. 2)A,B,C,D【二分】

    PS:这一场真的是上分场,只要手速快就行.然而在自己做的时候不用翻译软件,看题非常吃力非常慢,还有给队友讲D题如何判断的时候又犯了一个毛病,一定要心平气和,比赛也要保证,不要用翻译软件做题: Code ...

  7. 【MySQL】全量+增量的备份/恢复

    生产环境中,有时需要做MySQL的备份和恢复工作.因MySQL是在运行过程中的,做全量备份需要时间,全量备份完成后又有数据变动,此时需要增量备份辅助.如果想恢复数据到一个空库(例如数据迁移或者上云等更 ...

  8. Sublime text3 插件ColorPicker(调色板)不能使用快捷键

    我的原因是: convertToUTF8 和 ColorPicker 快捷键冲突,convertoUTF8的默认转换GBK的快捷键 和 ColorPicker打开调色板的快捷键都是ctrl+shift ...

  9. 统一入口&DB代理思想

    参考 https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650764278&idx=2&sn=b7801fb0780 ...

  10. 083 Remove Duplicates from Sorted List 有序链表中删除重复的结点

    给定一个排序链表,删除所有重复的元素使得每个元素只留下一个.案例:给定 1->1->2,返回 1->2给定 1->1->2->3->3,返回 1->2- ...