自动判断文本文件编码来读取文本文件内容(.net版本和java版本)

.net版本

using System;

using System.IO;

using System.Text;

namespace G2.Common

{

    /// <summary>

    /// 用于取得一个文本文件的编码方式(Encoding)。

    /// </summary>

    public static class TextEncodingHelper

    {

        /// <summary>

        /// 取得一个文本文件的编码方式。如果无法在文件头部找到有效的前导符，Encoding.Default将被返回。

        /// 文件的字符集在Windows下有两种，一种是ANSI，一种Unicode。

        /// 对于Unicode，Windows支持了它的三种编码方式，一种是小尾编码（Unicode)，一种是大尾编码(BigEndianUnicode)，一种是UTF-8编码。

        /// 我们可以从文件的头部来区分一个文件是属于哪种编码。当头部开始的两个字节为 FF FE时，是Unicode的小尾编码；当头部的两个字节为FE FF时，是Unicode的大尾编码；当头部两个字节为EF BB时，是Unicode的UTF-8编码；当它不为这些时，则是ANSI编码。

        /// 按照如上所说，我们可以通过读取文件头的两个字节来判断文件的编码格式

        /// </summary>

        /// <param name="filename">文件名。</param>

        /// <returns></returns>

        public static System.Text.Encoding GetFileEncoding(this string filename)

        {

            if (!File.Exists(filename))

            {

                throw new Exception("文件＂" + filename + "＂不存在!");

            }

            using (var fs = new System.IO.FileStream(filename, System.IO.FileMode.Open, System.IO.FileAccess.Read))

            using (var br = new System.IO.BinaryReader(fs))

            {

                var buffer = br.ReadBytes();

                if (buffer[] >= 0xEF)

                {

                    if (buffer[] == 0xEF && buffer[] == 0xBB)

                    {

                        return System.Text.Encoding.UTF8;

                    }

                    if (buffer[] == 0xFE && buffer[] == 0xFF)

                    {

                        return System.Text.Encoding.BigEndianUnicode;

                    }

                    if (buffer[] == 0xFF && buffer[] == 0xFE)

                    {

                        return System.Text.Encoding.Unicode;

                    }

                }

                return GetEncodingWithBomUtf8(fs, System.Text.Encoding.Default);

            }

        }

        /// <summary>

        /// 通过给定的文件流，判断文件的编码类型   (解决了不带BOM的 UTF8 编码问题   )

        /// </summary>

        /// <param name="fs">文件流</param>

        /// <param name="defaultEncoding">默认编码</param>

        /// <returns>文件的编码类型</returns>

        private static System.Text.Encoding GetEncodingWithBomUtf8(Stream fs, Encoding defaultEncoding)

        {

            byte[] unicode = new byte[] { 0xFF, 0xFE, 0x41 };

            byte[] unicodeBig = new byte[] { 0xFE, 0xFF, 0x00 };

            //带BOM

            byte[] utf8 = new byte[] { 0xEF, 0xBB, 0xBF };

            var reVal = defaultEncoding;

            using (var r = new System.IO.BinaryReader(fs))

            {

                byte[] ss = r.ReadBytes();

                if (ss[] == 0xFE && ss[] == 0xFF && ss[] == 0x00)

                {

                    reVal = Encoding.BigEndianUnicode;

                }

                else if (ss[] == 0xFF && ss[] == 0xFE && ss[] == 0x41)

                {

                    reVal = Encoding.Unicode;

                }

                else

                {

                    if (ss[] == 0xEF && ss[] == 0xBB && ss[] == 0xBF)

                    {

                        reVal = Encoding.UTF8;

                    }

                    else

                    {

                        int i;

                        int.TryParse(fs.Length.ToString(), out i);

                        ss = r.ReadBytes(i);

                        if (IsUtf8Bytes(ss))

                        {

                            reVal = Encoding.UTF8;

                        }

                    }

                }

                return reVal;

            }

        }

        /// <summary>

        /// 判断是否是不带 BOM 的 UTF8 格式

        /// </summary>

        /// <param name="data"></param>

        /// <returns></returns>

        private static bool IsUtf8Bytes(byte[] data)

        {

            int charByteCounter = ;　 //计算当前正分析的字符应还有的字节数

            for (int i = ; i < data.Length; i++)

            {

                var curByte = data[i]; //当前分析的字节.

                if (charByteCounter == )

                {

                    if (curByte >= 0x80)

                    {

                        //判断当前

                        while (((curByte <<= ) & 0x80) != )

                        {

                            charByteCounter++;

                        }

                        //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X　

                        if (charByteCounter ==  || charByteCounter > )

                        {

                            return false;

                        }

                    }

                }

                else

                {

                    //若是UTF-8 此时第一位必须为1

                    if ((curByte & 0xC0) != 0x80)

                    {

                        return false;

                    }

                    charByteCounter--;

                }

            }

            if (charByteCounter > )

            {

                throw new Exception("非预期的byte格式!");

            }

            return true;

        }

    }

}

java版本

import org.slf4j.Logger;

import org.slf4j.LoggerFactory;

import java.io.BufferedInputStream;

import java.io.FileInputStream;

import java.util.BitSet;

public class EncodeUtils {

    private static final Logger logger = LoggerFactory.getLogger(EncodeUtils.class);

    private static final int BYTE_SIZE = 8;

    private static final String CODE_UTF8 = "UTF-8";

    private static final String CODE_UTF16 = "UTF-16";//Unicode

    private static final String CODE_UTF16LE = "UTF-16LE";//Unicode big endian

    private static final String CODE_GBK = "GBK"; //ABSU

    /**

     * 通过文件全名称获取编码集名称

     */

    public static String getEncode(String fullFileName) throws Exception {

        BufferedInputStream bis = new BufferedInputStream(new FileInputStream(fullFileName));

        return getEncode(bis, CODE_GBK);

    }

    /**

     * 通过文件全名称获取编码集名称

     */

    public static String getEncode(String fullFileName, String defaultEncoding) throws Exception {

        BufferedInputStream bis = new BufferedInputStream(new FileInputStream(fullFileName));

        return getEncode(bis, defaultEncoding);

    }

    /**

     * 通过文件缓存流获取编码集名称，文件流必须为未曾

     *

     * @param bis 文件流

     */

    public static String getEncode(BufferedInputStream bis, String defaultEncoding) throws Exception {

        bis.mark(0);

        String encodeType;

        byte[] head = new byte[3];

        bis.read(head);

        if (head[0] == -1 && head[1] == -2 && head[2] == (byte) 0x41) {

            encodeType = CODE_UTF16;

        } else if (head[0] == -2 && head[1] == -1 && head[2] == 0) {

            //encodeType = "Unicode";

            encodeType = CODE_UTF16LE;

        } else if (head[0] == -17 && head[1] == -69 && head[2] == -65) {

            //带BOM的UTF8 (CODE_UTF8_BOM)

            encodeType = CODE_UTF8;

        } else {

            if (isUTF8(bis)) {

                encodeType = CODE_UTF8;

            } else {

                encodeType = defaultEncoding;

            }

        }

        return encodeType;

    }

    /**

     * 是否是无BOM的UTF8格式，不判断常规场景，只区分无BOM UTF8和GBK

     */

    private static boolean isUTF8(BufferedInputStream bis) throws Exception {

        bis.reset();

        //读取第一个字节

        int code = bis.read();

        do {

            BitSet bitSet = convert2BitSet(code);

            //判断是否为单字节

            if (bitSet.get(0)) {//多字节时，再读取N个字节

                if (!checkMultiByte(bis, bitSet)) {//未检测通过,直接返回

                    return false;

                }

            }

            code = bis.read();

        } while (code != -1);

        return true;

    }

    /**

     * 检测多字节，判断是否为utf8，已经读取了一个字节

     */

    private static boolean checkMultiByte(BufferedInputStream bis, BitSet bitSet) throws Exception {

        int count = getCountOfSequential(bitSet);

        byte[] bytes = new byte[count - 1];//已经读取了一个字节，不能再读取

        bis.read(bytes);

        for (byte b : bytes) {

            if (!checkUtf8Byte(b)) {

                return false;

            }

        }

        return true;

    }

    /**

     * 检测bitSet中从开始有多少个连续的1

     */

    private static int getCountOfSequential(BitSet bitSet) {

        int count = 0;

        for (int i = 0; i < BYTE_SIZE; i++) {

            if (bitSet.get(i)) {

                count++;

            } else {

                break;

            }

        }

        return count;

    }

    /**

     * 检测单字节，判断是否为utf8

     */

    private static boolean checkUtf8Byte(byte b) throws Exception {

        BitSet bitSet = convert2BitSet(b);

        return bitSet.get(0) && !bitSet.get(1);

    }

    /**

     * 将整形转为BitSet

     */

    private static BitSet convert2BitSet(int code) {

        BitSet bitSet = new BitSet(BYTE_SIZE);

        for (int i = 0; i < BYTE_SIZE; i++) {

            int tmp3 = code >> (BYTE_SIZE - i - 1);

            int tmp2 = 0x1 & tmp3;

            if (tmp2 == 1) {

                bitSet.set(i);

            }

        }

        return bitSet;

    }

    public static void main(String[] args) {

        String filePath = "C:\\110025.txt";

        try {

            String encoding = getEncode(filePath);

            System.out.println(encoding);

        } catch (Exception ex) {

            logger.warn("文件检测编码出错!", ex);

        }

    }

}

自动判断文本文件编码来读取文本文件内容(.net版本和java版本)的更多相关文章

[转发]读取txt防止读到乱码--自动根据文件编码进行读取
以下是摘抄 /// <summary> /// 获取文件的编码格式 /// </summary> public class EncodingType { /// <sum ...
web前端读取文本文件内容
html5+js实现,参照xxyy888的CSDN博客文章<使用HTML+javascrpt读取txt文本文件>失败,将作者文章中的代码重新整理了下依然不行,文章代码存在的问题是括号错误, ...
java读取文本文件内容2
版权声明:本文为xing_star原创文章,转载请注明出处! 本文同步自http://javaexception.com/archives/183 很久之前写了一篇Java读取文本文件内容,链接地址是 ...
java读取文本文件内容
版权声明:本文为xing_star原创文章,转载请注明出处! 本文同步自http://javaexception.com/archives/128 java读取文本文件内容今天写代码写着要调试一个很 ...
php -- 读取文本文件内容
php读取文件内容的三种方法: //**************第一种读取方式***************************** 代码如下: header("content- ...
MATLAB对于文本文件(txt)数据读取的技巧总结(经典中的经典)
振动论坛原版主eight的经典贴http://www.chinavib.com/thread-45622-1-1.html MATLAB对于文本文件(txt)进行数据读取的技巧总结(经典中的经典)由于 ...
python读取文本文件
1. 读取文本文件代码: f = open('test.txt', 'r') print f.read() f.seek(0) print f.read(14) f.seek(0) print f. ...
获取文本文件的第N行内容
在PowerShell中,可以通过Get-Content这个cmdlet来获取文本文件的内容.Get-Content将一个文本文件读取到一个数组中,每一个数组元素就是文件的一行内容.比如一个文本文件内 ...
(转) Java读取文本文件中文乱码问题
http://blog.csdn.net/greenqingqingws/article/details/7395213 最近遇到一个问题,Java读取文本文件(例如csv文件.txt文件等),遇到中 ...

随机推荐

重命名Docker容器
重命名Docker容器: Docker rename [Old container name] [New container name]
专题2-通过按键玩中断\第1课-中断处理流程深度剖析-lesson1
中断概念 1.中断生命周期串口先产生一个事件,该事件传送到中断控制器里面,中断控制器会进行相应过滤,能通过过滤,那么就交给CPU去处理. 2.中断源 2440芯片手册 6410芯片手册 3.中断过滤 ...
Linux 查看是64位还是32位
[root@VM_7_88_centos ~]# uname -a Linux VM_7_88_centos 3.10.0-229.el7.x86_64 #1 SMP Fri Mar 6 11:36: ...
Java 正则表达式的实际应用
正则表达式最详细-----> | |目录 1匹配验证-验证Email是否正确 2在字符串中查询字符或者字符串 3常用正则表达式 4正则表达式语法 1匹配验证-验证Email是否正确 public ...
四则运算(Java) 陈志海邓宇
目录 Github项目地址 PSP表格功能要求题目功能(已全部实现) 效能分析设计实现过程数值生成算式生成问题集生成设计实现过程代码说明测试运行代码覆盖率项目小结 Github ...
[.net 多线程]volatile 摘录
一.volatile 介绍 volatile 关键字指示一个字段可以由多个同时执行的线程修改. 声明为 volatile 的字段不受编译器优化(假定由单个线程访问)的限制. 这样可以确保该字段在任何时 ...
指针和动态分配内存（不定长度数组）------新标准c++程序设计
背景: 数组的长度是定义好的,在整个程序中固定不变.c++不允许定义元素个数不确定的数组.例如: int n; int a[n]; //这种定义是不允许的但是在实际编程中,往往会出现要处理的数据数量 ...
Socket 简易静态服务器 WPF MVVM模式（二）
command类标准来说,command会有三种模式,委托命令准备命令附加命令 1.DelegateCommand 2.RelayCommand 3.AttachbehaviorCommand ...
Codeforces Round #551 (Div. 2)B. Serval and Toy Bricks
B. Serval and Toy Bricks time limit per test 1 second memory limit per test 256 megabytes input stan ...
shell-脚本-作用是发现前10个最占用磁盘空间的文件
#!/bin/bash## 这个脚本的作用是发现前10个最占用磁盘空间的文件################定义这个脚本的全区变量##################################C ...

自动判断文本文件编码来读取文本文件内容(.net版本和java版本)

自动判断文本文件编码来读取文本文件内容(.net版本和java版本)的更多相关文章

随机推荐

热门专题