如何优雅的爬取 gzip 格式的页面并保存在本地（java实现）

1. 引言

在爬取汽车销量数据时需要爬取 html 保存在本地后再做分析，由于一些页面的 gzip 编码格式，

获取后要先解压缩，否则看到的是一片乱码。在网络上仔细搜索了下，终于在这里找到了一个优雅的方案。

2. 使用的开源库

        <dependency>

            <groupId>org.apache.commons</groupId>

            <artifactId>commons-lang3</artifactId>

            <version>3.4</version>

        </dependency>

        <dependency>

            <groupId>com.google.guava</groupId>

            <artifactId>guava</artifactId>

            <version>18.0</version>

        </dependency>

3. 实现代码

package com.reycg;

import java.io.File;

import java.io.IOException;

import java.io.InputStream;

import java.net.URL;

import java.util.List;

import java.util.zip.GZIPInputStream;

import org.apache.commons.io.FileUtils;

import com.google.common.base.Charsets;

import com.google.common.io.ByteSource;

import com.google.common.io.Resources;

public class GzippedByteSource extends ByteSource {

    private final ByteSource source;

    public GzippedByteSource(ByteSource gzippedSource) {

        source = gzippedSource;

    }

    @Override

    public InputStream openStream() throws IOException {

        return new GZIPInputStream(source.openStream());

    }

    public static void main(String[] args) throws IOException {

        URL url = new URL("..."); // TODO 此处需要输入 html 页面地址

        String filePath = "1.html";

        List<String> lines = new GzippedByteSource(Resources.asByteSource(url)).asCharSource(Charsets.UTF_8).readLines();
　　　　 // List<String> lines = Resources.asCharSource(url, Charsets.UTF_8).readLines();   // 非 gzip 格式 html 页面获取 (1)

        FileUtils.writeLines(new File(filePath), lines);

    }

}

4. 注意

1. 如果在执行时报下面错误，说明返回 html 页面并非 gzip 格式

Exception in thread "main" java.util.zip.ZipException: Not in GZIP format

此时可以使用上面代码标号为（1）的代码行获取。

5. 附注

获取汽车销量主要用来在我个人开发的 汽车销量查询小助手（小程序）展示所用，如果有同学感兴趣，可以在

微信小程序中搜索汽车销量查询小助手或者扫描下方二维码查看效果，欢迎同学提建议和评论。

如何优雅的爬取 gzip 格式的页面并保存在本地（java实现）的更多相关文章

python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
爬取博主所有文章并保存到本地（.txt版）--python3.6
闲话: 一位前辈告诉我大学期间要好好维护自己的博客,在博客园发布很好,但是自己最好也保留一个备份. 正好最近在学习python,刚刚从py2转到py3,还有点不是很习惯,正想着多练习,于是萌生了这个想 ...
记一次爬取LOL全皮肤原画保存到本地的实例
#爬取lol全英雄皮肤 import re import traceback # 异常跟踪 import requests from bs4 import BeautifulSoup #获取html ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)（下）
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下) 自动使用cookie的方法,告别手动拷贝cookie http模块包含一些关于cookie的模块,通过他们我们可以自动的使用co ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)（上）
Python爬虫教程-12-爬虫使用cookie(上) 爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cooki ...
02. 爬取get请求的页面数据
目录 02. 爬取get请求的页面数据一.urllib库二.由易到难的爬虫程序: 02. 爬取get请求的页面数据一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用 ...
使用Python爬取mobi格式电纸书
最近做了个微信推送kindle电子书的公众号:kindle免费书库不过目前电子书不算非常多,所以需要使用爬虫来获取足够书籍. 于是,写了以下这个爬虫,来爬取kindle114的电子书. 值得注意的地 ...

随机推荐

session和cookie的异同
Cookie是服务器发给客户端的一小段文本,保存在浏览器所在客户端的内存和磁盘上.服务器可以从客户端读出这些cookie.通过cookie,客户端可以和服务器端建立起一种联系,也就是说,Cookie是 ...
php主要用于哪几方面
1,服务端脚本,网站和web应用程序,web服务器,php解析器,web浏览器 2,命令行脚本 3,编写桌面应用程序
ng的点滴记录
1,directive http://damoqiongqiu.iteye.com/blog/1917971/ 2,constructor https://segmentfault.com/q/10 ...
centos 安装oracle 11g r2（二）-----监听配置与创建数据库实例
centos 安装oracle 11g r2(二)-----监听配置与创建数据库实例一.监听配置(命令:netca) 1.以 oracle 用户输入命令,启动图形化工具配置监听 [oracle@lo ...
iOS9新特性－UIStackView
1. UIStackView相关属性理解 UIStackView是iOS9之后推出的,我也是第一次接触,在学习的过程中对于其中的相关属性,尤其是对其中的distribution几个属性值,一知半解的, ...
C#获取获取北京时间多种方法
#region 获取网络时间 ///<summary> /// 获取中国国家授时中心网络服务器时间发布的当前时间 ///</summary> ///<returns> ...
javascript数据结构与算法--二叉树遍历（中序）
javascript数据结构与算法--二叉树遍历(中序) 中序遍历按照节点上的键值,以升序访问BST上的所有节点代码如下: /* *二叉树中,相对较小的值保存在左节点上,较大的值保存在右节点中 * ...
八、Linux上常用网络操作
1．主机名配置 hostname 查看主机名 hostname xxx 修改主机名重启后无效如果想要永久生效,可以修改/etc/sysconfig/network文件 2． IP地址配置 set ...
PowerDesigner最基础的使用方法入门学习（转）
PowerDesigner最基础的使用方法入门学习 1:入门级使用PowerDesigner软件创建数据库(直接上图怎么创建,其他的概念知识可自行学习) 我的PowerDesigner版本是16. ...
RabbitMq qos prefetch 消息堵塞问题
mq是实现代码扩展的有利手段,个人喜欢用概念来学习新知识,介绍堵塞问题的之前,先来段概念的学习. ConnectionFactory:创建connection的工厂类 Connection: 简单理解 ...