Java HttpURLConnection 抓取网页内容解析gzip格式输入流数据并转换为String格式字符串

最近GFW为了刷存在感，搞得大家是头晕眼花，修改hosts 几乎成了每日必备工作。

索性写了一个小程序，给办公室的同事们分享，其中有个内容就是抓取网络上的hosts，废了一些周折。

我是在一个博客上抓取的。但是这位朋友的博客应该是在做防盗链，但他的方式比较简单就是5位数的一个整形随机数。这里折腾一下就ok了。

要命的是他这个链接的流类型居然是gzip。这个郁闷好久，一直以为是编码格式导致解析不出来结果，后来发现是gzip搞的。

主要的一段代码做个记录吧。

 /**

  * 网络工具类 用于抓取http://serve.netsh.org上的hosts数据

  *

  * @author tone

  */

 public class NetUtil {

     private final static String ENCODING = "UTF-8";

     private final static String GZIPCODING = "gzip";

     private final static String HOST = "http://serve.netsh.org/pub/hosts.php";

     private final static String COOKIE = "hostspasscode=%s; Hm_lvt_e26a7cd6079c926259ded8f19369bf0b=1421846509,1421846927,1421847015,1421849633; Hm_lpvt_e26a7cd6079c926259ded8f19369bf0b=1421849633";

     private final static String OFF = "off";

     private final static String ON = "on";

     private final static int RANDOM = 100000;

     private static String hostspasscode = null;

     private static NetUtil instance;

     public static NetUtil getInstance() {

         if (instance == null) {

             instance = new NetUtil();

         }

         return instance;

     }

     private NetUtil() {

         hostspasscode = createRandomCookies();

     }

     /**

      * 获取html内容

      *

      * @param gs

      * @param wk

      * @param twttr

      * @param fb

      * @param flkr

      * @param dpbx

      * @param odrvB

      * @param yt

      * @param nohl

      * @return

      */

     public String getHtmlInfo(boolean gs, boolean wk, boolean twttr, boolean fb,

             boolean flkr, boolean dpbx, boolean odrv,

             boolean yt, boolean nohl) throws Exception {

         HttpURLConnection conn = null;

         String result = "";

         //String cookie = "hostspasscode="+hostspasscode+"; Hm_lvt_e26a7cd6079c926259ded8f19369bf0b=1421846509,1421846927,1421847015,1421849633; Hm_lpvt_e26a7cd6079c926259ded8f19369bf0b=1421849633";

         String cookie = String.format(COOKIE, hostspasscode);

         //URL url = new URL("http://serve.netsh.org/pub/hosts.php?passcode=13008&gs=on&wk=on&twttr=on&fb=on&flkr=on&dpbx=on&odrv=on&yt=on&nolh=on");

         URL url = new URL(createUrl(hostspasscode, gs, wk, twttr, fb, flkr, dpbx, odrv, yt, nohl));

         //System.out.println(cookie);

        // System.out.println(url.toString());

        conn = (HttpURLConnection) url.openConnection();

         conn.setConnectTimeout(5 * 1000);

         conn.setDoOutput(true);

         //get方式提交

         conn.setRequestMethod("GET");

         //凭借请求头文件

         conn.setRequestProperty("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8");

         conn.setRequestProperty("Accept-Encoding", "gzip, deflate");

         conn.setRequestProperty("Accept-Language", "zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3");

         conn.setRequestProperty("Connection", "keep-alive");

         conn.setRequestProperty("Cookie", cookie);

         conn.setRequestProperty("Host", "serve.netsh.org");

         conn.setRequestProperty("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:35.0) Gecko/20100101 Firefox/35.0");

         // conn.setRequestProperty("Referer", "http://serve.netsh.org/pub/gethosts.php");

         // conn.setRequestProperty("X-Requested-With", "XMLHttpRequest");  

         conn.connect();

         String encoding = conn.getContentEncoding();

         result = readStream(conn.getInputStream(), encoding);

         //测试进度条显示

         // result = readStream(new FileInputStream(new File("/home/tone/Resident.Evil.Damnation.2012.1080p.BluRay.x264.DTS-WiKi.mkv")), "11");

         conn.disconnect();

         if (nohl) {

              result=getLocalHost()+result;

         }

         return result;

     }

     /**

      * 读取将InputStream中的字节读以字符的形式取到字符串中，如果encoding是gzip，那么需要先有GZIPInputStream进行封装

      *

      * @param inputStream InputStream字节流

      * @param encoding 编码格式

      * @return String类型的形式

      * @throws IOException IO异常

      */

     private String readStream(InputStream inputStream, String encoding) throws Exception {

         StringBuffer buffer = new StringBuffer();

         ProgressMonitorInputStream pmis = null;

         InputStreamReader inputStreamReader = null;

         GZIPInputStream gZIPInputStream = null;

         if (GZIPCODING.equals(encoding)) {

             gZIPInputStream = new GZIPInputStream(inputStream);

             inputStreamReader = new InputStreamReader(ProgressUtil.getMonitorInputStream(gZIPInputStream, "获取网络数据"), ENCODING);

         } else {

             inputStreamReader = new InputStreamReader(ProgressUtil.getMonitorInputStream(inputStream, "获取网络数据"), ENCODING);

         }

         char[] c = new char[1024];

         int lenI;

         while ((lenI = inputStreamReader.read(c)) != -1) {

             buffer.append(new String(c, 0, lenI));

         }

         if (inputStream != null) {

             inputStream.close();

         }

         if (gZIPInputStream != null) {

             gZIPInputStream.close();

         }

         if (pmis!=null) {

             gZIPInputStream.close();

         }

         return buffer.toString();

     }

     /**

      * 生成随机Cookies数组

      *

      * @return 五位随机数字

      */

     private String createRandomCookies() {

         return String.valueOf(Math.random() * RANDOM).substring(0, 5);

     }

     /**

      * 生成链接字符串

      *

      * @param hostspasscode

      * @param gs

      * @param wk

      * @param twttr

      * @param fb

      * @param flkr

      * @param dpbx

      * @param odrvB

      * @param yt

      * @param nohl

      * @return

      */

     private String createUrl(String hostspasscode, boolean gs, boolean wk, boolean twttr, boolean fb,

             boolean flkr, boolean dpbx, boolean odrv,

             boolean yt, boolean nohl) {

         StringBuffer buffer = new StringBuffer();

         buffer.append(HOST);

         buffer.append("?passcode=" + hostspasscode);

         if (gs) {

             buffer.append("&gs=" + ON);

         } else {

             buffer.append("&gs=" + OFF);

         }

         if (wk) {

             buffer.append("&wk=" + ON);

         } else {

             buffer.append("&wk=" + OFF);

         }

         if (twttr) {

             buffer.append("&twttr=" + ON);

         } else {

             buffer.append("&twttr=" + OFF);

         }

         if (fb) {

             buffer.append("&fb=" + ON);

         } else {

             buffer.append("&fb=" + OFF);

         }

         if (flkr) {

             buffer.append("&flkr=" + ON);

         } else {

             buffer.append("&flkr=" + OFF);

         }

         if (dpbx) {

             buffer.append("&dpbx=" + ON);

         } else {

             buffer.append("&dpbx=" + OFF);

         }

         if (odrv) {

             buffer.append("&odrv=" + ON);

         } else {

             buffer.append("&odrv=" + OFF);

         }

         if (yt) {

             buffer.append("&yt=" + ON);

         } else {

             buffer.append("&yt=" + OFF);

         }

         if (nohl) {

             buffer.append("&nohl=" + ON);

         } else {

             buffer.append("&nohl=" + OFF);

         }

         return buffer.toString();

     }

     private String getLocalHost() throws Exception {

         StringBuffer buffer=new StringBuffer();

         String hostName=OSUtil.getInstance().getLocalhostName();

         buffer.append("#LOCALHOST begin"+"\n");

         buffer.append("127.0.0.1\tlocalhost"+"\n");

         if (hostName!=null&&!"".equals(hostName)) {

              buffer.append("127.0.1.1\t"+hostName+"\n");

         }

         buffer.append("#LOCALHOST end"+"\n");

         return  buffer.toString();

     }

 }

Java HttpURLConnection 抓取网页内容解析gzip格式输入流数据并转换为String格式字符串的更多相关文章

网络爬虫Java实现抓取网页内容
package 抓取网页; import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream; ...
【Azure 环境】在Windows环境中抓取网络包(netsh trace)后，如何转换为Wireshark格式以便进行分析
问题描述如何在Windows环境中,不安装第三方软件的情况下(使用Windows内置指令),如何抓取网络包呢?并且如何转换为Wireshark 格式呢? 操作步骤 1) 以管理员模式打开CMD,使用 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
使用Python中的urlparse、urllib抓取和解析网页（一）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
HTTPCLIENT抓取网页内容
通过httpclient抓取网页信息. public class SnippetHtml{ /** * 通过url获取网站html * @param url 网站url */ public Strin ...
爬虫学习一系列：urllib2抓取网页内容
爬虫学习一系列:urllib2抓取网页内容所谓网页抓取,就是把URL地址中指定的网络资源从网络中读取出来,保存到本地.我们平时在浏览器中通过网址浏览网页,只不过我们看到的是解析过的页面效果,而通过程 ...

随机推荐

mysql二进制包安装与配置实战记录
导读一般中小型网站的开发都选择 MySQL 作为网站数据库,由于其社区版的性能卓越,搭配 PHP .Linux和 Apache 可组成良好的开发环境,经过多年的web技术发展,在业内被广泛使用的一种 ...
Java 7之集合类型 - 二叉排序树、平衡树、红黑树---转
http://blog.csdn.net/mazhimazh/article/details/19961017 为了理解 TreeMap 的底层实现,必须先介绍排序二叉树和平衡二叉树,然后继续介绍红黑 ...
Json.Net学习(1) 实现简单的序列化和反序列化
Attributes 可以用来控制Json.Net如何序列化和反序列化.Net对象. >JsonObjectAttribute--标记在类上,用于控制该类如何被序列化为一个Json对象(JSON ...
MySQL（23）：事务的隔离级别出现问题之脏读
1. 脏读所谓的脏读就是指一个事务读取了另一个事务未提取的数据. 试想一下:a账户要给b账户100元购买商品,如果a账户开启一个事务,执行下面的update语句做了如下转账的工作: update a ...
iOS - 网络 - NSURLSession
1.NSURLSession基础 NSURLConnection在开发中会使用的越来越少,iOS9已经将NSURLConnection废弃,现在最低版本一般适配iOS,所以也可以使用.NSURLCon ...
在CentOS下安装配置MySQL
经常需要在linux环境下部署项目或安装Mysql数据库,由于记性不好,每次都是求助度娘,每次搜到的步骤都不一样,所以每次都在尝试.冒险:于是乎,把安装的重要步骤贴出,供自己以后参照. 1.首先要看看 ...
Spring MVC 学习笔记（整理）
SpringMVC学习 1.概述 Spring MVC是一种基于Java实现MVC设计模式的请求驱动类型的轻量级Web框架,即使用了MVC架构模式的思想,将web层进行解耦,基于请求-响应模型帮助我们 ...
[转]div内容底部对齐
本文转自:http://blog.csdn.net/hellomy/article/details/5889833 <html> <head> <meta http-eq ...
【递归】油桶问题dp
问题 : [递归]油桶问题题目描述楚继光扬扬得意道:“当日华山论剑,先是他用黯然销魂掌破了我的七十二路空明拳,然后我改打降龙十八掌,却不防他伸开食指和中指,竟是六脉神剑,又胜我一筹.可见天下武学彼 ...
业务系统的JVM启动参数推荐
关键业务系统的JVM启动参数推荐,原文链接请参见:http://calvin1978.blogcn.com/articles/jvmoption-2.html

Java HttpURLConnection 抓取网页内容 解析gzip格式输入流数据并转换为String格式字符串

Java HttpURLConnection 抓取网页内容 解析gzip格式输入流数据并转换为String格式字符串的更多相关文章

随机推荐

热门专题

Java HttpURLConnection 抓取网页内容解析gzip格式输入流数据并转换为String格式字符串

Java HttpURLConnection 抓取网页内容解析gzip格式输入流数据并转换为String格式字符串的更多相关文章