java自动探测文件的字符编码

Mozilla有一个C++版的自动字符集探测算法代码，然后sourceforge上有人将其改成java版的~~

主页：http://jchardet.sourceforge.net/

jchardet is a java port of the source from mozilla's automatic charset detection algorithm.

The original author is Frank Tang. What is available here is the java port of that code.

The original source in C++ can be found from http://lxr.mozilla.org/mozilla/source/intl/chardet/

More information can be found at http://www.mozilla.org/projects/intl/chardet.html

下面是见证奇迹的时刻：

import java.io.BufferedInputStream;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import org.mozilla.intl.chardet.nsDetector;

import org.mozilla.intl.chardet.nsICharsetDetectionObserver;

public class FileCharsetDetector {

    private boolean found = false;

    private String encoding = null;

    public static void main(String[] argv) throws Exception {

        File file1 = new File("C:\\test1.txt");

        System.out.println("文件编码:" + new FileCharsetDetector().guessFileEncoding(file1));

    }

    /**

     * 传入一个文件(File)对象，检查文件编码

     *

     * @param file

     *            File对象实例

     * @return 文件编码，若无，则返回null

     * @throws FileNotFoundException

     * @throws IOException

     */

    public String guessFileEncoding(File file) throws FileNotFoundException, IOException {

        return guessFileEncoding(file, new nsDetector());

    }

    /**

     * <pre>

     * 获取文件的编码

     * @param file

     *            File对象实例

     * @param languageHint

     *            语言提示区域代码 @see #nsPSMDetector ,取值如下：

     *             1 : Japanese

     *             2 : Chinese

     *             3 : Simplified Chinese

     *             4 : Traditional Chinese

     *             5 : Korean

     *             6 : Dont know(default)

     * </pre>

     *

     * @return 文件编码，eg：UTF-8,GBK,GB2312形式(不确定的时候，返回可能的字符编码序列)；若无，则返回null

     * @throws FileNotFoundException

     * @throws IOException

     */

    public String guessFileEncoding(File file, int languageHint) throws FileNotFoundException, IOException {

        return guessFileEncoding(file, new nsDetector(languageHint));

    }

    /**

     * 获取文件的编码

     *

     * @param file

     * @param det

     * @return

     * @throws FileNotFoundException

     * @throws IOException

     */

    private String guessFileEncoding(File file, nsDetector det) throws FileNotFoundException, IOException {

        // Set an observer...

        // The Notify() will be called when a matching charset is found.

        det.Init(new nsICharsetDetectionObserver() {

            public void Notify(String charset) {

                encoding = charset;

                found = true;

            }

        });

        BufferedInputStream imp = new BufferedInputStream(new FileInputStream(file));

        byte[] buf = new byte[1024];

        int len;

        boolean done = false;

        boolean isAscii = false;

        while ((len = imp.read(buf, 0, buf.length)) != -1) {

            // Check if the stream is only ascii.

            isAscii = det.isAscii(buf, len);

            if (isAscii) {

                break;

            }

            // DoIt if non-ascii and not done yet.

            done = det.DoIt(buf, len, false);

            if (done) {

                break;

            }

        }

        imp.close();

        det.DataEnd();

        if (isAscii) {

            encoding = "ASCII";

            found = true;

        }

        if (!found) {

            String[] prob = det.getProbableCharsets();

            //这里将可能的字符集组合起来返回

            for (int i = 0; i < prob.length; i++) {

                if (i == 0) {

                    encoding = prob[i];

                } else {

                    encoding += "," + prob[i];

                }

            }

            if (prob.length > 0) {

                // 在没有发现情况下,也可以只取第一个可能的编码,这里返回的是一个可能的序列

                return encoding;

            } else {

                return null;

            }

        }

        return encoding;

    }

}

上面是判断文件编码的demo，本人测试了一下，得到的结果还是比较靠谱的~

上面提到的主页上还有一个HtmlCharsetDetector的demo，感兴趣的话可以去看一下。

java自动探测文件的字符编码的更多相关文章

python学习笔记(2)--列表、元组、字符串、字典、集合、文件、字符编码
本节内容列表.元组操作字符串操作字典操作集合操作文件操作字符编码与转码 1.列表和元组的操作列表是我们以后最长用的数据类型之一,通过列表可以最方便的对数据实现最方便的存储.修改等操作定 ...
Day2 - Python基础2 列表、字符串、字典、集合、文件、字符编码
本节内容列表.元组操作数字操作字符串操作字典操作集合操作文件操作字符编码与转码 1. 列表.元组操作列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储.修改等操作 ...
python基础之列表、元组操作字符串操作字典操作集合操作文件操作字符编码与转码
本节内容列表.元组操作字符串操作字典操作集合操作文件操作字符编码与转码 1. 列表.元组操作列表是我们最以后最常用的数据类型之一,通过列表可以对数据实现最方便的存储.修改等操作定义列表 ...
linux下改变文件的字符编码
首先确定文件的原始字符编码: $ file -bi test.txt 然后用 iconv 转换字符编码 $ iconv -f from-encoding -t to-encoding file > ...
Gnu Linux下文件的字符编码及转换工具
/********************************************************************* * Author : Samson * Date ...
eclipse设置新建jsp文件默认字符编码为utf-8
在使用Eclipse开发中,编码默认是ISO-8859-1,不支持中文.这样我们每次新建文件都要手动修改编码,非常麻烦.其实我们可以设置文件默认编码,今后再新建文件时就不用修改编码了. 1.打开Ecl ...
fedora23深度配置gnome系统环境, 如设置ibus的面板字体大小以及gedit 自动探测文件字符编码fileencodings
除了系统桌面gnome, 以及gnome应用程序自带的preferences, 还有很多设置, 没有在preferences, 而是被深度地隐藏在系统中, 这时, 需要安装 dconf-tools: ...
python 读写文件和设置文件的字符编码
一. python打开文件代码如下: f = open("d:\test.txt", "w") 说明:第一个参数是文件名称,包括路径:第二个参数是打开的模式mo ...
Java Web---登录验证和字符编码过滤器
什么是过滤器? 在Java Web中,过滤器即Filter.Servlet API中提供了一个Filter接口(javax.servlet.Filter).开发web应用时,假设编写的Java类实现了 ...

随机推荐

房屋贷款计算器 Mortgage Calculator
闲暇时间开发了一款工具 - 房屋贷款计算器 Mortgage Calculator 有需要的可以下载来试试. JACK NJ @ 2017
linux下发送报警邮件(mailx)
本文章主要解决 linux下监控到系统状况后怎么发邮件报警的问题. 如果你是最小化安装的centos/redhat 系统,是没有自带mailx的,也就是没有mail 命令. 解决办法 yum -y i ...
mybatis---属性和字段映射
1. 查询时使用别名,别名和属性名保持一致 <select id="getUser" parameterType="int" resultType=&qu ...
冰与火之歌居然是在 DOS 系统上写出来的
简评:<权力的游戏>第八季(最终季)终于开播了!这部美剧的原著小说有一个很有趣的冷知识 -- 它是在运行 DOS 系统的计算机上写出来的.其实不少老粉都已经知道这个典故,不过听到老爷子的亲 ...
golang 并发顺序输出数字
参考 package main import ( "fmt" "sync/atomic" "time" ) func main() { va ...
gensim与numpy array 互转
目的将gensim输出的格式转化为numpy array格式,支持作为scikit-learn,tensorflow的输入实施使用nltk库的停用词和网上收集的资料整合成一份新的停用词表,用来过 ...
python批量拷贝文件
普通批量拷贝文件 import os import shutil import logging from logging import handlers from colorama import Fo ...
Python--CSV模块
CSV csv文件格式是一种通用的电子表格和数据库导入导出格式简介 Python csv模块封装了常用的功能,使用的简单例子如下: 写入 # 写入csv文件 import csv csvfile = ...
在Ubuntu下编译安装nginx
一.安装nginx 1.安装前提 a)epoll,linux内核版本为2.6或者以上 b)gcc编译器,g++编译器 c)pcre库,函数库,支持解析正则表达式 d)zlib库:压缩解压功能 e)op ...
Docker三剑客之Docker Compose
一.什么是Docker Compose Compose 项目是Docker官方的开源项目,负责实现Docker容器集群的快速编排,开源代码在https://github.com/docker/comp ...

java自动探测文件的字符编码

java自动探测文件的字符编码的更多相关文章

随机推荐

热门专题