java charset detector

https://code.google.com/p/juniversalchardet/downloads/list

java移植mozilla的编码自动检测库（源码为c++）,准确率高。

通过svn签出只读版本的代码：

# Non-members may check out a read-only working copy anonymously over HTTP.
svn checkout http://juniversalchardet.googlecode.com/svn/trunk/ juniversalchardet-read-only

package myjava;

import java.io.File;

import java.io.IOException;

import org.mozilla.universalchardet.UniversalDetector;

public class TestDetector {

    public static void main(String[] args) throws java.io.IOException {

        String folder = "/home/hadoop/test/charset/";

        File file = new File(folder);

        for (File _file : file.listFiles())

            detectCharset(_file.getAbsolutePath());

    }

    static void detectCharset(String fileName) throws IOException {

        byte[] buf = new byte[4096];

        java.io.FileInputStream fis = new java.io.FileInputStream(fileName);

        // (1)

        UniversalDetector detector = new UniversalDetector(null);

        // (2)

        int nread;

        while ((nread = fis.read(buf)) > 0 && !detector.isDone()) {

            detector.handleData(buf, 0, nread);

        }

        // (3)

        detector.dataEnd();

        // (4)

        String encoding = detector.getDetectedCharset();

        if (encoding != null) {

            System.out.println("Detected encoding = " + encoding);

        } else {

            System.out.println("No encoding detected.");

        }

        // (5)

        detector.reset();

    }

}

可以结合另外一个java的字符集检测库来保证更好的结果，因为对于短文来说,上面的检测方法可能无法得出结论。

同时因为这个算法来自于mozilla,它应该能更好地作用于html等标签文件的检测。

http://cpdetector.sourceforge.net/usage.shtml

java charset detector的更多相关文章

learning java Charset 查看支持的字符集类型
import java.nio.charset.Charset; import java.util.SortedMap; public class CharsetTest { public stati ...
Java判断文件编码格式
转自:http://blog.csdn.net/zhangzh332/article/details/6719025 一般情况下我们遇到的文件编码格式为GBK或者UTF-8.由于中文Windows默认 ...
Java文件编码格式转换
转自博文<Java文件编码格式转换>: 默认被转换的格式为GBK,转换成的格式为UTF-8 import info.monitorenter.cpdetector.CharsetPrint ...
java获取页面编码
文章出自:http://babyjoycry.javaeye.com/blog/587527 在此感谢原作者...\(^o^)/~ 最近研究抓取网页内容,发现要获取页面的编码格式,Java没有现成 ...
Java如何获取文件编码格式
1:简单判断是UTF-8或不是UTF-8,因为一般除了UTF-8之外就是GBK,所以就设置默认为GBK. 按照给定的字符集存储文件时,在文件的最开头的三个字节中就有可能存储着编码信息,所以,基本的原 ...
java判断网页的编码格式
在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从header标签中获取Content-Type=#Charset:二.从meta标签中获取Content-Type=# ...
批量将Java源代码文件的编码从GBK转为UTF-8
主要参考: http://blog.csdn.net/liu_qiqi/article/details/38706497 使用common io批量将java编码从GBK转UTF-8 http://w ...
java爬虫爬取网页内容前，对网页内容的编码格式进行判断的方式
近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从heade ...
java自动识别用户上传的文本文件编码
原文:http://www.open-open.com/code/view/1420514359234 经常碰到用户上传的部分数据文本文件乱码问题,又不能限制用户的上传的文件编码格式(这样对客户的要求 ...

随机推荐

MarkDown学习记录
一.基本语法 1.标题建议在#后面加一个空格 2.列表注意:符号和文字之间加上一个字符的空格 3.引用 4.链接 5.图片 6.粗体与斜体 7.代码框 8.分隔符二.参考文章 http://ww ...
不可或缺 Windows Native (5) - C 语言: 数组
[源码下载] 不可或缺 Windows Native (5) - C 语言: 数组作者:webabcd 介绍不可或缺 Windows Native 之 C 语言数组示例cArray.h #ifn ...
strcpy函数实现
1,strcpy最简便实现 char * strcpy_to (char *dst, const char *src) { char *address = dst; assert((dst != NU ...
struts2 java.lang.StackOverflowError org.apache.struts2.json.JSONWriter
1. 问题描述: 页面通过异步访问action, action的方法通过map封装数据,struts的result的type设置为json,后台报错六月 25, 2016 6:54:33 下午 ...
Mybatis Physical Pagination
1. Requirements: when we use the sql like "select * from targetTable", we get all records ...
Hibernate+maven+mysql
最近在研究hibernate,想建立一个简单的Hibernate+maven+mysql工程,网上找了一大堆的示例,要么看不懂结构,要么就是缺少必要文件.总之都没有成功,结果无意在一个外文网上找了一个 ...
解决maven项目update project会更改jdk版本问题
一.问题描述在Eclipse中新建了一个Maven工程, 然后更改JDK版本为1.6, 结果每次使用Maven > Update project的时候JDK版本都恢复成 ...
SharePoint 禁用本地回环的两个方法
有两种方法中,若要变通解决此问题,请根据您的具体情况使用下列方法之一. 方法 1: 指定主机名 (如果需要 NTLM 身份验证,请首选方法) 指定的主机名的映射到环回地址,并可以连接到 Web 站点在 ...
修改list中附件排序（sharepoint 2010）
修改文件C:\Program Files\Common Files\Microsoft Shared\Web Server Extensions\14\TEMPLATE\CONTROLTEMPLATE ...
Linux0.11内核剖析--内核体系结构
一个完整可用的操作系统主要由 4 部分组成:硬件.操作系统内核.操作系统服务和用户应用程序,如下图所示: 用户应用程序是指那些字处理程序. Internet 浏览器程序或用户自行编制的各种应用程序: ...

java charset detector

java charset detector的更多相关文章

随机推荐

热门专题