java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式

近日在做爬虫功能，爬取网页内容，然后对内容进行语义分析，最后对网页打标签，从而判断访问该网页的用户的属性。

在爬取内容时，遇到乱码问题。故需对网页内容编码格式做判断，方式大体分为三种：一、从header标签中获取Content-Type=#Charset；二、从meta标签中获取Content-Type=#Charset；三、根据页面内容分析编码格式。

其中一/二方式并不能准确指示该页面的具体编码方式，周全考虑，加入第三种方式。

第三种方式引入开源jar包info.monitorenter.cpdetector，可以从github上面下载(https://github.com/onilton/cpdetector-maven-repo/tree/master/info/monitorenter/cpdetector/1.0.10)下载。

package com.mobivans.encoding;

import info.monitorenter.cpdetector.io.ASCIIDetector;

import info.monitorenter.cpdetector.io.ByteOrderMarkDetector;

import info.monitorenter.cpdetector.io.CodepageDetectorProxy;

import info.monitorenter.cpdetector.io.JChardetFacade;

import info.monitorenter.cpdetector.io.ParsingDetector;

import info.monitorenter.cpdetector.io.UnicodeDetector;

import java.io.ByteArrayInputStream;

import java.io.IOException;

import java.io.InputStream;

import java.net.MalformedURLException;

import java.net.URL;

import java.net.URLConnection;

import java.nio.charset.Charset;

import java.util.List;

import java.util.Map;

import org.apache.commons.io.IOUtils;

public class PageEncoding {

    /**    测试用例

     * @param args

     */

    public static void main(String[] args) {

//        String charset = getEncodingByHeader("http://blog.csdn.net/liuzhenwen/article/details/4060922");

//        String charset = getEncodingByMeta("http://blog.csdn.net/liuzhenwen/article/details/4060922");

        String charset = getEncodingByContentStream("http://blog.csdn.net/liuzhenwen/article/details/5930910");

        System.out.println(charset);

    }

    /**

     * 从header中获取页面编码

     * @param strUrl

     * @return

     */

    public static String getEncodingByHeader(String strUrl){

        String charset = null;

        try {

            URLConnection urlConn = new URL(strUrl).openConnection();

            // 获取链接的header

            Map<String, List<String>> headerFields = urlConn.getHeaderFields();

            // 判断headers中是否存在Content-Type

            if(headerFields.containsKey("Content-Type")){

                //拿到header 中的 Content-Type ：[text/html; charset=utf-8]

                List<String> attrs = headerFields.get("Content-Type");

                String[] as = attrs.get(0).split(";");

                for (String att : as) {

                    if(att.contains("charset")){

//                        System.out.println(att.split("=")[1]);

                        charset = att.split("=")[1];

                    }

                }

            }

            return charset;

        } catch (MalformedURLException e) {

            e.printStackTrace();

            return charset;

        } catch (IOException e) {

            e.printStackTrace();

            return charset;

        }

    }

    /**

     * 从meta中获取页面编码

     * @param strUrl

     * @return

     */

    public static String getEncodingByMeta(String strUrl){

        String charset = null;

        try {

            URLConnection urlConn = new URL(strUrl).openConnection();

            //避免被拒绝

            urlConn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36");

            // 将html读取成行,放入list

            List<String> lines = IOUtils.readLines(urlConn.getInputStream());

            for (String line : lines) {

                if(line.contains("http-equiv") && line.contains("charset")){

//                    System.out.println(line);

                    String tmp = line.split(";")[1];

                    charset = tmp.substring(tmp.indexOf("=")+1, tmp.indexOf("\""));

                }else{

                    continue;

                }

            }

            return charset;

        } catch (MalformedURLException e) {

            e.printStackTrace();

            return charset;

        } catch (IOException e) {

            e.printStackTrace();

            return charset;

        }

    }

    /**

     * 根据网页内容获取页面编码

     *     case : 适用于可以直接读取网页的情况(例外情况:一些博客网站禁止不带User-Agent信息的访问请求)

     * @param url

     * @return

     */

    public static String getEncodingByContentUrl(String url) {

        CodepageDetectorProxy cdp = CodepageDetectorProxy.getInstance();

        cdp.add(JChardetFacade.getInstance());// 依赖jar包 ：antlr.jar & chardet.jar

        cdp.add(ASCIIDetector.getInstance());

        cdp.add(UnicodeDetector.getInstance());

        cdp.add(new ParsingDetector(false));

        cdp.add(new ByteOrderMarkDetector());

        Charset charset = null;

        try {

            charset = cdp.detectCodepage(new URL(url));

        } catch (MalformedURLException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

        System.out.println(charset);

        return charset == null ? null : charset.name().toLowerCase();

    }

    /**

     * 根据网页内容获取页面编码

     *     case : 适用于不可以直接读取网页的情况,通过将该网页转换为支持mark的输入流,然后解析编码

     * @param strUrl

     * @return

     */

    public static String getEncodingByContentStream(String strUrl) {

        Charset charset = null;

        try {

            URLConnection urlConn = new URL(strUrl).openConnection();

            //打开链接,加上User-Agent,避免被拒绝

            urlConn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36");

            //解析页面内容

            CodepageDetectorProxy cdp = CodepageDetectorProxy.getInstance();

            cdp.add(JChardetFacade.getInstance());// 依赖jar包 ：antlr.jar & chardet.jar

            cdp.add(ASCIIDetector.getInstance());

            cdp.add(UnicodeDetector.getInstance());

            cdp.add(new ParsingDetector(false));

            cdp.add(new ByteOrderMarkDetector());

            InputStream in = urlConn.getInputStream();

            ByteArrayInputStream bais = new ByteArrayInputStream(IOUtils.toByteArray(in));

            // detectCodepage(InputStream in, int length) 只支持可以mark的InputStream

            charset = cdp.detectCodepage(bais, 2147483647);

        } catch (MalformedURLException e) {

            e.printStackTrace();

        } catch (IOException e) {

            e.printStackTrace();

        }

        return charset == null ? null : charset.name().toLowerCase();

    }

}

注意的点：

1.info.monitorenter.cpdetector未在mvn-repository中开源，因而无法从mvn-repository中下载，需要将该jar下到本地，然后手动导入到本地repository，mvn命令如下：

mvn install:install-file -Dfile=jar包的位置 -DgroupId=该jar的groupId -DartifactId=该jar的artifactId -Dversion=该jar的version -Dpackaging=jar

然后在pom.xml中添加该jar的依赖

<!-- charset detector -->

<dependency>

    <groupId>info.monitorenter.cpdetector</groupId>

    <artifactId>cpdetector</artifactId>

    <version>1.0.10</version>

</dependency>

2.JChardetFacade.getInstance()在引入antlr.jar和chardet.jar之前会报异常，在pom.xml中添加这两个jar的dependency:

<!-- antlr -->

<dependency>

    <groupId>antlr</groupId>

    <artifactId>antlr</artifactId>

    <version>2.7.7</version>

</dependency>

<!-- ChardetFacade -->

<dependency>

    <groupId>net.sourceforge.jchardet</groupId>

    <artifactId>jchardet</artifactId>

    <version>1.0</version>

</dependency>

如果是普通项目则无需关心pom.xml，直接把这三个jar包下载下来然后添加到该项目的环境中即可

java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式的更多相关文章

Java爬虫爬取网站电影下载链接
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...
java爬虫爬取资源，小白必须会的入门代码块
java作为目前最火的语言之一,他的实用性也在被无数的java语言爱好者逐渐的开发,目前比较流行的爬取资源,用java来做也更简单一些,下面是爬取网页上所有手机型号,参数等极为简便的数据 packag ...
一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
java爬虫爬取的html内容中空格（ ）变为问号“?”的解决方法
用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一 ...
用Java爬虫爬取凤凰财经提供的沪深A股所有股票代号名称
要爬取的凤凰财经网址:http://app.finance.ifeng.com/list/stock.php?t=hs 本作主要采用的技术是jsoup,相关介绍网页:https://www.jians ...
java爬虫爬取https协议的网站时，SSL报错， java.lang.IllegalArgumentException TSLv1.2 报错
目前在广州一家小公司实习,这里的学习环境还是挺好的,今天公司从业十几年的大佬让我检查一下几年前的爬虫程序是否还能使用…… 我从myeclipse上check out了大佬的程序,放到workspace ...
Java爬虫爬取京东商品信息
以下内容转载于<https://www.cnblogs.com/zhuangbiing/p/9194994.html>,在此仅供学习借鉴只用. Maven地址 <dependency ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

随机推荐

关闭TCP中135、139、445、593、1025 等端口的操作方法 (转)（记录下）
操作要领:封闭端口,杜绝网络病毒对这些端口的访问权,以保障计算机安全,减少病毒对上网速度的影响. 近日发现有些人感染了新的网络蠕虫病毒,该病毒使用冲击波病毒专杀工具无法杀除,请各位尽快升级计算机上的杀 ...
oralce的判断语句
大家对 IF ELSE 语句应该都很熟悉吧,它是用来对过程进行控制的.在 SQL 的世界中 CASE 语句有类似的效果.下面简单的介绍 CASE 语句的用法. CASE 语句的形式事实上,CASE ...
SQLServer2008或SQLServer2008 R2没有智能提示解决方法
如果没有智能提示,需要安装SqlcompletefreeSQL Server智能提示
并发编程------->操作系统的发展
手工操作 —— 穿孔卡片 1946年第一台计算机诞生--20世纪50年代中期,计算机工作还在采用手工操作方式.此时还没有操作系统的概念. 程序员将对应于程序和数据的已穿孔的纸带(或卡片)装入输入机,然 ...
MySQL 数据库--内置功能
一视图视图:是一个虚拟表(非真实存在),其本质是[根据SQL语句获取动态的数据集,并为其命名],用户使用时只需使用[名称]即可获取结果集,可以将该结果集当做表来使用. 优点:们可以把查询过程中的临 ...
NJCTF2017 web getflag（详解）
题目: url:http://218.2.197.235:23725/ writeup: 首先随便输入后查看源码: <imgsrc="data:image/png;base64,Y2F ...
https nginx 设置
https://www.digitalocean.com/community/tutorials/how-to-create-an-ssl-certificate-on-nginx-for-ubunt ...
MySQL 分库分表方案，总结的非常好！
前言公司最近在搞服务分离,数据切分方面的东西,因为单张包裹表的数据量实在是太大,并且还在以每天60W的量增长. 之前了解过数据库的分库分表,读过几篇博文,但就只知道个模糊概念, 而且现在回想起来什么 ...
Convolution1D与Convolution2D区别
以下是Convolution1D的例子: # apply a convolution 1d of length 3 to a sequence with 10 timesteps, # with 64 ...
python执行linux和window的命令
linux: python执行shell脚本常用的方法 import os val=os.system("shell语句") >>> val=os.system ...

java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式

java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式的更多相关文章

随机推荐

热门专题