spider JAVA如何判断网页编码（转载）

原文链接 http://www.cnblogs.com/nanxin/archive/2013/03/27/2984320.html

前言

　　最近做一个搜索项目，需要爬取很多网站获取需要的信息。在爬取网页的时候，需要获得该网页的编码，不然的话会发现爬取下来的网页有很多都是乱码。

分析

　　一般情况下，网页头信息会指定编码，可以解析header或者meta获得charset。但有时网页并没没有指定编码，这时就需要通过网页内容检测编码格式，通过调研，最好用的还是cpdetector。　

　　cpdetector自动检测文本编码格式，谁先返回非空，就以该结果为字符编码。内置了一些常用的探测实现类，这些探测实现类的实例可以通过add方法加进来，如等，detector按照“谁先返回非空的探测结果，就以谁的结果为准”的原则返回探测到的字符集编码。

1、首先，可从header中解析charset

　　网页头信息中的Content-Type会指定编码，如图：

　　可以通过分析header，查找字符编码。

Map<String, List<String>> map = urlConnection.getHeaderFields();

Set<String> keys = map.keySet();

Iterator<String> iterator = keys.iterator();

// 遍历,查找字符编码

String key = null;

String tmp = null;

while (iterator.hasNext()) {

    key = iterator.next();

    tmp = map.get(key).toString().toLowerCase();

    // 获取content-type charset

    if (key != null && key.equals("Content-Type")) {

        int m = tmp.indexOf("charset=");

        if (m != -1) {

            strencoding = tmp.substring(m + 8).replace("]", "");

            return strencoding;

        }

    }

}

2、其次，可从网页meta中解析出charset

　　正常情况下，在写网页时，会指定网页编码，可在meta中读出来。如图：

　　首先获取网页流，因为英文和数字不会乱码，可以解析meta，获得charset。

StringBuffer sb = new StringBuffer();

String line;

try {

    BufferedReader in = new BufferedReader(new InputStreamReader(url

            .openStream()));

    while ((line = in.readLine()) != null) {

        sb.append(line);

    }

    in.close();

} catch (Exception e) { // Report any errors that arise

    System.err.println(e);

    System.err

            .println("Usage:   java   HttpClient   <URL>   [<filename>]");

}

String htmlcode = sb.toString();

// 解析html源码，取出<meta />区域，并取出charset

String strbegin = "<meta";

String strend = ">";

String strtmp;

int begin = htmlcode.indexOf(strbegin);

int end = -1;

int inttmp;

while (begin > -1) {

    end = htmlcode.substring(begin).indexOf(strend);

    if (begin > -1 && end > -1) {

        strtmp = htmlcode.substring(begin, begin + end).toLowerCase();

        inttmp = strtmp.indexOf("charset");

        if (inttmp > -1) {

            strencoding = strtmp.substring(inttmp + 7, end).replace(

                    "=", "").replace("/", "").replace("\"", "")

                    .replace("\'", "").replace(" ", "");

            return strencoding;

        }

    }

    htmlcode = htmlcode.substring(begin);

    begin = htmlcode.indexOf(strbegin);

}

3、当使用1、2解析不出编码时，使用cpdetector根据网页内容探测出编码格式

　　可以添加多个编码探测实例：

public static void getFileEncoding(URL url) throws MalformedURLException, IOException {

    CodepageDetectorProxy codepageDetectorProxy = CodepageDetectorProxy.getInstance();

    codepageDetectorProxy.add(JChardetFacade.getInstance());

    codepageDetectorProxy.add(ASCIIDetector.getInstance());

    codepageDetectorProxy.add(UnicodeDetector.getInstance());

    codepageDetectorProxy.add(new ParsingDetector(false));

    codepageDetectorProxy.add(new ByteOrderMarkDetector());

    Charset charset = codepageDetectorProxy.detectCodepage(url);

    System.out.println(charset.name());

    }

}

spider JAVA如何判断网页编码（转载）的更多相关文章

使用chardet模块判断网页编码
import chardet import urllib.request url='http://stock.sohu.com/news/' html = urllib.request.urlopen ...
C#判断文件编码——常用字法
使用中文写文章,当篇幅超过一定程度,必然会使用到诸如:“的”.“你”.“我”这样的常用字.本类思想便是提取中文最常用的一百个字,使用中文世界常用编码(主要有GBK.GB2312.GB18030.UTF ...
Java应用中的编码问题（转载）
第三篇:JAVA字符编码系列三:Java应用中的编码问题这部分采用重用机制,引用一篇文章来完整本部分目标.来源: Eceel东西在线问题研究--字符集编码地址:http://china.ecee ...
Java进阶(三十) 判断字符串编码类型
java 判断字符串编码类型 public static String getEncoding(String str) { String encode = "GB2312"; tr ...
【转载】python抓取网页时候，判断网页编码格式
在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取.但是在抓取过程中会遇到编码的问题, ...
（转载）java中判断字符串是否为数字的方法的几种方法
java中判断字符串是否为数字的方法: 1.用JAVA自带的函数 public static boolean isNumeric(String str){ for (int i = 0; i < ...
Java 序列化序列化与单例模式 [ 转载 ]
Java 序列化序列化与单例模式 [ 转载 ] @author Hollis 本文将通过实例+阅读Java源码的方式介绍序列化是如何破坏单例模式的,以及如何避免序列化对单例的破坏. 单例模式,是设计 ...
【JAVA编码专题】 JAVA字符编码系列三：Java应用中的编码问题
这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考. 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问 ...
java中的字符编码方式
1. 问题由来面试的时候被问到了各种编码方式的区别,结果一脸懵逼,这个地方集中学习一下. 2. 几种字符编码的方式 1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符 ...

随机推荐

HDU 5775 Bubble Sort
对于一个数,可以记录3个位置:初始位置,终点位置,最右边的位置. 初始位置和终点位置容易计算.最多边的位置即为初始状态下该数的位置+该数之后还有多少数比该数小. 三个位置中的min即为leftpos, ...
缺少对象 WScript 问题解决方法
方法一: 先把脚本保存起来(保证你的脚本能正确运行),例如命名为test.vbs 然后在QTP写以下脚本就可以正确运行了! Dim oShell Set oShell =CreateObject (& ...
php 上传缩放图片
有时上传图片时因为图片太大了,不仅占用空间,消耗流量,而且影响浏(图片的尺寸大小不一).下面分享一种等比例不失真缩放图片的方法,这样,不管上传的图片尺有多大,都会自动压缩到我们设置尺寸值的范围之内.经 ...
Unity 的几种打包姿势（android）
Unity 版本 4.3.2 图片1 1 默认的工程进行打包得到的apk为8.1m(net subset) 图片2 2 代码剥离最小 – use mirco mscorlib 图片3 3 从网上 ...
BFS and Queue
BFS (Bridth First Search) can be implemented by a queue. Procedure is like this: (Q is Queue) 1, Put ...
PHP5.4 for Apache, php 5.4.0安装过程、方法、配置 ; Apache2.2支持php5.4的配置方法
那我们如何选择下载哪个版本的PHP呢?如果你是在windows下使用Apache+PHP的,请选择VC6版本:如果你是在windows下使用IIS+PHP的,请选择VC9版本. 二.如何选择PHP5. ...
用PHP实现验证码功能
目前,不少网站为了防止用户利用机器人自动注册.登录.灌水,都采用了验证码技术.所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片, 图片里加上一些干扰象素(防止OCR),由用户肉眼识别其中的验 ...
HDU 1540<线段树，区间并>
题目连接参考题意: 维护各个点的连续的最大连续长度. 思路: 主要是维护一个区间的三个变量ll,f[i].l为起点向右的最大连续长度,rl:f[i].r为起点向左的最大连续长度,ml:[l,r] ...
贪心<haonan>
题意: 有一列数,每次在相邻的两个书里面选择一个大数留下,同时ans+大数.问题是,求ans的最小值. 题解: 如果a[i]>a[i-1],那么ans+=a[i]; 如果a[i]>=a[i ...
mysql 时间字段的一些问题
MySQl中有多种表示日期和时间的数据类型.其中YEAR表示年份,DATE表示日期,TIME表示时间,DATETIME和TIMESTAMP表示日期和实践.它们的对比如下: YEAR ,字节数为1,取值 ...

spider JAVA如何判断网页编码 （转载）

spider JAVA如何判断网页编码 （转载）的更多相关文章

随机推荐

热门专题

spider JAVA如何判断网页编码（转载）

spider JAVA如何判断网页编码（转载）的更多相关文章