java获取页面编码

文章出自：http://babyjoycry.javaeye.com/blog/587527 在此感谢原作者...\(^o^)/~

最近研究抓取网页内容，发现要获取页面的编码格式，Java没有现成的实现方法，虽然csdn上有个达人写了一篇文章，附有代码，可惜，我没有找到相关的包，不得已，只好自己动手丰衣足食了。

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Set;

import cpdetector.io.CodepageDetectorProxy;

import cpdetector.io.HTMLCodepageDetector;

import cpdetector.io.JChardetFacade;

public class PageEncodeDetector {

    private static CodepageDetectorProxy detector = CodepageDetectorProxy

            .getInstance();

    static {

        detector.add(new HTMLCodepageDetector(false));

        detector.add(JChardetFacade.getInstance());

    }

    /**

     * 测试用例

     *

     * @param args

     */

    public static void main(String[] args) {

        PageEncodeDetector web = new PageEncodeDetector();

        try {

            System.out.println(web.getCharset("http://www.baidu.com/"));

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    /**

     * @param strurl

     *            页面url地址,需要以 http://开始，例：http://www.pujia.com

     * @return

     * @throws IOException

     */

    public String getCharset(String strurl) throws IOException {

        // 定义URL对象

        URL url = new URL(strurl);

        // 获取http连接对象

        HttpURLConnection urlConnection = (HttpURLConnection) url

                .openConnection();

        ;

        urlConnection.connect();

        // 网页编码

        String strencoding = null;

        /**

         * 首先根据header信息，判断页面编码

         */

        // map存放的是header信息(url页面的头信息)

        Map<String, List<String>> map = urlConnection.getHeaderFields();

        Set<String> keys = map.keySet();

        Iterator<String> iterator = keys.iterator();

        // 遍历,查找字符编码

        String key = null;

        String tmp = null;

        while (iterator.hasNext()) {

            key = iterator.next();

            tmp = map.get(key).toString().toLowerCase();

            // 获取content-type charset

            if (key != null && key.equals("Content-Type")) {

                int m = tmp.indexOf("charset=");

                if (m != -1) {

                    strencoding = tmp.substring(m + 8).replace("]", "");

                    return strencoding;

                }

            }

        }

        /**

         * 通过解析meta得到网页编码

         */

        // 获取网页源码(英文字符和数字不会乱码，所以可以得到正确<meta/>区域)

        StringBuffer sb = new StringBuffer();

        String line;

        try {

            BufferedReader in = new BufferedReader(new InputStreamReader(

                    url.openStream()));

            while ((line = in.readLine()) != null) {

                sb.append(line);

            }

            in.close();

        } catch (Exception e) { // Report any errors that arise

            System.err.println(e);

            System.err

                    .println("Usage:     java     HttpClient     <URL>     [<filename>]");

        }

        String htmlcode = sb.toString();

        // 解析html源码，取出<meta />区域，并取出charset

        String strbegin = "<meta";

        String strend = ">";

        String strtmp;

        int begin = htmlcode.indexOf(strbegin);

        int end = -1;

        int inttmp;

        while (begin > -1) {

            end = htmlcode.substring(begin).indexOf(strend);

            if (begin > -1 && end > -1) {

                strtmp = htmlcode.substring(begin, begin + end).toLowerCase();

                inttmp = strtmp.indexOf("charset");

                if (inttmp > -1) {

                    strencoding = strtmp.substring(inttmp + 7, end)

                            .replace("=", "").replace("/", "")

                            .replace("\"", "").replace("\'", "")

                            .replace(" ", "");

                    return strencoding;

                }

            }

            htmlcode = htmlcode.substring(begin);

            begin = htmlcode.indexOf(strbegin);

        }

        /**

         * 分析字节得到网页编码

         */

        strencoding = getFileEncoding(url);

        // 设置默认网页字符编码

        if (strencoding == null) {

            strencoding = "GBK";

        }

        return strencoding;

    }

    /**

     *

     * <br>

     * 方法说明：通过网页内容识别网页编码

     *

     * <br>

     * 输入参数：strUrl 网页链接; timeout 超时设置

     *

     * <br>

     * 返回类型：网页编码

     */

    public static String getFileEncoding(URL url) {

        java.nio.charset.Charset charset = null;

        try {

            charset = detector.detectCodepage(url);

        } catch (Exception e) {

            System.out.println(e.getClass() + "分析" + "编码失败");

        }

        if (charset != null)

            return charset.name();

        return null;

    }

}

需要下载cpdetector_1.0.5.jar 和 chardet.jar

java获取页面编码的更多相关文章

java 获取页面中的 a 标签的 href 实例
Pattern p = Pattern.compile("<a\\s+href\\s*=\\s*(\"|\')?(.*?)[\"|\'|>]", P ...
java获取字符串编码和转换字符串编码
public class EncodingUtil { // 这里可以提供更多地编码格式,另外由于部分编码格式是一致的所以会返回第一个匹配的编码格式 GBK 和 GB2312 public stat ...
Java获取字符串编码方式
直接下载吧: http://files.cnblogs.com/files/xiluhua/BytesEncodingDetectTool.rar
C# -- WebClient自动获取web页面编码并转换
C# -- WebClient自动获取web页面编码并转换抽个时间,写篇小文章,最近有个朋友,用vb开发一个工具,遇到WebClient获取的内容出现乱码,可惜对vb不是很熟悉,看了几分钟vb的语法 ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
java获取天气预报的信息
运行效果: 主要功能: 1,jsp页面输入省份和城市根据条件获取当地的天气信息 2,java代码利用第三方的省份和城市的路径地址本工程主要实现java获取天气预报的信息步骤1,创建工程weath ...
java设置字符串编码、转码
Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一 ...
Java获取URL对应的资源
Java获取URL对应的资源认识IP.认识URL是进行网络编程的第一步.java.net.URL提供了丰富的URL构建方式,并可以通过java.net.URL来获取资源. 一.认识URL ...
js/java 获取、添加、修改、删除cookie（最全）
一.cookie介绍 1.cookie的本来面目 HTTP协议本身是无状态的.什么是无状态呢,即服务器无法判断用户身份.Cookie实际上是一小段的文本信息(key-value格式).客户端向服务 ...

随机推荐

Android Context 是什么？
andorid 开发(42) 版权声明:本文为博主原创文章,未经博主允许不得转载. [转载请注明出处:http://blog.csdn.net/feiduclear_up CSDN 废墟的树] PS ...
http协议简述
HTTP协议客户端连上web 服务器后,若想获得 web 服务器中的某个 web 资源,需遵守一定的通讯格式, HTTP 协议用于定义客户端与 web 服务器通迅的格式. WEB浏览器与 WEB 服 ...
WordPress无法连接MySQL数据库
安装WordPress,需要配置MySQL数据库.配置好用户名和密码后居然还是报错. 通过抓包软件,发现根本没有数据包发往3306端口. 只能google之,发现是因为selinux的原因解决方案: ...
配置electron
配置语句: git clone https://github.com/electron/electron-quick-start 文件夹名字打开该文件(我用的webstorm)
倒计时原生js
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
20145218 《Java程序设计》第8周学习总结
20145218 <Java程序设计>第8周学习总结教材学习内容总结 15.1 日志 15.1.1日志API简介 java.util.logging包提供了日志功能相关类与接口,不必额外 ...
python 电影下载链接爬虫
V1.0 功能:从比较知名的几个电影下载网站爬取下载链接,并自动打印出来: 代码: # -*- coding: utf8 -*- from bs4 import BeautifulSoup impor ...
\bin\sh.exe:*** Couldn't reserve space for cygwin's heap,Win32 error 0
Git一直使用都好好的,今天git pull的时候,报了如下的错误,\bin\sh.exe:*** Couldn't reserve space for cygwin's heap,Win32 err ...
Spring配置文件解析--bean属性
1.bean设置别名,多个别名用逗号隔开  <bean id="app:dataSource" class="...&quo ...
Asp.net 解析json
Asp.net Json数据解析的一种思路 http://www.cnblogs.com/scy251147/p/3317366.html http://tools.wx6.org/json2csha ...

java获取页面编码

java获取页面编码的更多相关文章

随机推荐

热门专题