java获取页面编码

文章出自：http://babyjoycry.javaeye.com/blog/587527 在此感谢原作者...\(^o^)/~

最近研究抓取网页内容，发现要获取页面的编码格式，Java没有现成的实现方法，虽然csdn上有个达人写了一篇文章，附有代码，可惜，我没有找到相关的包，不得已，只好自己动手丰衣足食了。

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;

import java.util.Iterator;

import java.util.List;

import java.util.Map;

import java.util.Set;

import cpdetector.io.CodepageDetectorProxy;

import cpdetector.io.HTMLCodepageDetector;

import cpdetector.io.JChardetFacade;

public class PageEncodeDetector {

    private static CodepageDetectorProxy detector = CodepageDetectorProxy

            .getInstance();

    static {

        detector.add(new HTMLCodepageDetector(false));

        detector.add(JChardetFacade.getInstance());

    }

    /**

     * 测试用例

     *

     * @param args

     */

    public static void main(String[] args) {

        PageEncodeDetector web = new PageEncodeDetector();

        try {

            System.out.println(web.getCharset("http://www.baidu.com/"));

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

    /**

     * @param strurl

     *            页面url地址,需要以 http://开始，例：http://www.pujia.com

     * @return

     * @throws IOException

     */

    public String getCharset(String strurl) throws IOException {

        // 定义URL对象

        URL url = new URL(strurl);

        // 获取http连接对象

        HttpURLConnection urlConnection = (HttpURLConnection) url

                .openConnection();

        ;

        urlConnection.connect();

        // 网页编码

        String strencoding = null;

        /**

         * 首先根据header信息，判断页面编码

         */

        // map存放的是header信息(url页面的头信息)

        Map<String, List<String>> map = urlConnection.getHeaderFields();

        Set<String> keys = map.keySet();

        Iterator<String> iterator = keys.iterator();

        // 遍历,查找字符编码

        String key = null;

        String tmp = null;

        while (iterator.hasNext()) {

            key = iterator.next();

            tmp = map.get(key).toString().toLowerCase();

            // 获取content-type charset

            if (key != null && key.equals("Content-Type")) {

                int m = tmp.indexOf("charset=");

                if (m != -1) {

                    strencoding = tmp.substring(m + 8).replace("]", "");

                    return strencoding;

                }

            }

        }

        /**

         * 通过解析meta得到网页编码

         */

        // 获取网页源码(英文字符和数字不会乱码，所以可以得到正确<meta/>区域)

        StringBuffer sb = new StringBuffer();

        String line;

        try {

            BufferedReader in = new BufferedReader(new InputStreamReader(

                    url.openStream()));

            while ((line = in.readLine()) != null) {

                sb.append(line);

            }

            in.close();

        } catch (Exception e) { // Report any errors that arise

            System.err.println(e);

            System.err

                    .println("Usage:     java     HttpClient     <URL>     [<filename>]");

        }

        String htmlcode = sb.toString();

        // 解析html源码，取出<meta />区域，并取出charset

        String strbegin = "<meta";

        String strend = ">";

        String strtmp;

        int begin = htmlcode.indexOf(strbegin);

        int end = -1;

        int inttmp;

        while (begin > -1) {

            end = htmlcode.substring(begin).indexOf(strend);

            if (begin > -1 && end > -1) {

                strtmp = htmlcode.substring(begin, begin + end).toLowerCase();

                inttmp = strtmp.indexOf("charset");

                if (inttmp > -1) {

                    strencoding = strtmp.substring(inttmp + 7, end)

                            .replace("=", "").replace("/", "")

                            .replace("\"", "").replace("\'", "")

                            .replace(" ", "");

                    return strencoding;

                }

            }

            htmlcode = htmlcode.substring(begin);

            begin = htmlcode.indexOf(strbegin);

        }

        /**

         * 分析字节得到网页编码

         */

        strencoding = getFileEncoding(url);

        // 设置默认网页字符编码

        if (strencoding == null) {

            strencoding = "GBK";

        }

        return strencoding;

    }

    /**

     *

     * <br>

     * 方法说明：通过网页内容识别网页编码

     *

     * <br>

     * 输入参数：strUrl 网页链接; timeout 超时设置

     *

     * <br>

     * 返回类型：网页编码

     */

    public static String getFileEncoding(URL url) {

        java.nio.charset.Charset charset = null;

        try {

            charset = detector.detectCodepage(url);

        } catch (Exception e) {

            System.out.println(e.getClass() + "分析" + "编码失败");

        }

        if (charset != null)

            return charset.name();

        return null;

    }

}

需要下载cpdetector_1.0.5.jar 和 chardet.jar

java获取页面编码的更多相关文章

java 获取页面中的 a 标签的 href 实例
Pattern p = Pattern.compile("<a\\s+href\\s*=\\s*(\"|\')?(.*?)[\"|\'|>]", P ...
java获取字符串编码和转换字符串编码
public class EncodingUtil { // 这里可以提供更多地编码格式,另外由于部分编码格式是一致的所以会返回第一个匹配的编码格式 GBK 和 GB2312 public stat ...
Java获取字符串编码方式
直接下载吧: http://files.cnblogs.com/files/xiluhua/BytesEncodingDetectTool.rar
C# -- WebClient自动获取web页面编码并转换
C# -- WebClient自动获取web页面编码并转换抽个时间,写篇小文章,最近有个朋友,用vb开发一个工具,遇到WebClient获取的内容出现乱码,可惜对vb不是很熟悉,看了几分钟vb的语法 ...
Java 网络爬虫获取页面源代码
原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网 ...
java获取天气预报的信息
运行效果: 主要功能: 1,jsp页面输入省份和城市根据条件获取当地的天气信息 2,java代码利用第三方的省份和城市的路径地址本工程主要实现java获取天气预报的信息步骤1,创建工程weath ...
java设置字符串编码、转码
Unicode(统一码.万国码.单一码)是计算机科学领域里的一项业界标准,包括字符集.编码方案等.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一 ...
Java获取URL对应的资源
Java获取URL对应的资源认识IP.认识URL是进行网络编程的第一步.java.net.URL提供了丰富的URL构建方式,并可以通过java.net.URL来获取资源. 一.认识URL ...
js/java 获取、添加、修改、删除cookie（最全）
一.cookie介绍 1.cookie的本来面目 HTTP协议本身是无状态的.什么是无状态呢,即服务器无法判断用户身份.Cookie实际上是一小段的文本信息(key-value格式).客户端向服务 ...

随机推荐

JQuery $（）后面的括号里的内容什么时候加引号，什么时候不加
一.如果是已经声明存在的变量或者对象,就不用加引号. 比如var name=document.getElementById("name"); $(name)或者$(this). 二 ...
golang编码转换
在网上搜索golang编码转化时,我们经常看到的文章是使用下面一些第三方库: https://github.com/djimenez/iconv-go https://github.com/qiniu ...
flume Permission denied: user=flume, access=WRITE, inode
My flume app is attempting to write to HDFS on a path thats not been created/granted for it. The pat ...
-bash: jps: command not found
linux安装了jdk之后,打jps命令发现找不到这个命令: -bash: jps: command not found 查看java版本java -version,正常. java version ...
根据出生日期计算年龄的sql各种数据库写法
ORACLE数据库: ) KINGBASE数据库: DB2数据库: TIMESTAMPDIFF(,
SqlServer扩展存储过程
1. 扩展存储过程xp_cmdshell用法: --1.启用 SP_CONFIGURE RECONFIGURE GO SP_CONFIGURE RECONFIGURE GO --2.用法 master ...
Linux里设置环境变量的方法（export PATH）
1.动态库路径的设置 Linux下调用动态库和windows不一样.linux 可执行程序是靠配置文件去读取路径的,因此有些时候需要设置路径具体操作如下 export LD_LIBRARY_PATH ...
响应式web设计读书笔记
1.媒体查询可以在链接link标签和具体的CSS中使用: 2.通过<link>标签的 media 属性为样式表指定设备类型和其他条件中间用and和()来分隔,如下 <link r ...
svg矢量图绘制以及转换为Android可用的VectorDrawable资源
项目需要要在快速设置面板里显示一个VoWiFi图标(为了能够区分出来图形,我把透明的背景填充为黑色了) 由于普通图片放大后容易失真,这里我们最好用矢量图(SVG(Scalable Vector Gr ...
使用AndroidStudio编译NDK的方法及错误解决方案
参考资料: [android ndk]macos环境下Android Studio中利用gradle编译jni模块及配置:http://demo.netfoucs.com/ashqal/article ...

java获取页面编码

java获取页面编码的更多相关文章

随机推荐

热门专题