C#猜测识别文件编码

项目 gitee地址：https://gitee.com/dhclly/IceDog.SmallProject/tree/master/src/IceDog.SmallProject.CodeConvert

C#猜测识别文件编码

测试句子： This is a good time. 这是个好时光。

除了 ascii 只有英文，其他都是中英文都有

主要判断的编码有

ascii
gb18030
gb2312
gbk
utf8
utf8WithBOM
Unicode utf16 LE
Unicode Big Endian utf16 BE

其中ANSI是默认的编码方式，对于英文文件是ASCII编码，

对于简体中文文件默认是GB2312编码（只针对Windows简体中文版，如果是繁体中文版默认会采用Big5码）

Unicode其实是UTF-16 endian big编码方式，这个把带有BOM的小端序UTF-16

称作Unicode而又不详细说明，也是微软的习惯；

而Unicode big endian则是带有BOM的大端序编码方式

EF BB BF 239 187 191 UTF-8

FE FF 254 255  UTF-16 BE (big-endian)

FF FE 255 254  UTF-16 LE (little-endian)

00 00 FE FF 00 00 254 255  UTF-32 BE (big-endian)

FF FE 00 00 255 254 00 00  UTF-32 LE (little-endian)

需要引入 NuGet ：System.Text.Encoding.CodePages

UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码，

如果只有一个字节则其最高二进制位为0；如果是多字节，

其第一个字节从最高位开始，连续的二进制位值为1的

个数决定了其编码的位数，其余各字节均以10开头。

UTF-8最多可用到6个字节。

1字节：0xxxxxxx
2字节：110xxxxx 10xxxxxx
3字节：1110xxxx 10xxxxxx 10xxxxxx
4字节：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

0000 0000 0x00
1000 0000 0x80
1100 0000 0xC0
1110 0000 0xE0
1111 0000 0xF0
1111 1000 0xF8
1111 1100 0xFC
1111 1101 0xFD

参考文章

如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK) https://www.cnblogs.com/fnlingnzb-learner/p/5832486.html
如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)https://blog.csdn.net/jiangqin115/article/details/42684017
如何判断一个文本文件的编码 https://www.cnblogs.com/lkpp/p/encoding_detection.html
RFC 2279 https://www.ietf.org/rfc/rfc2279.txt?number=2279
A composite approach to language/encoding detection https://www-archive.mozilla.org/projects/intl/UniversalCharsetDetection.html
判断中文文本编码格式是gbk还是utf-8的一种简单方式 https://blog.csdn.net/capricio/article/details/83023828
编码转换查询：http://www.mytju.com/classcode/tools/encode_utf8.asp
UTF-8编码规则（转） https://www.cnblogs.com/ziolo/p/3822454.html
https://segmentfault.com/a/1190000000498924#articleHeader8

源码

也可以直接去gitee去看代码

TextCodeGuessHelper.cs

/*

 * 取得一个文本文件的编码方式。如果无法在文件头部找到有效的前导符，Encoding.Default将被返回。

 * 文件的字符集在Windows下有两种，一种是ANSI，一种Unicode。

 * 对于Unicode，Windows支持了它的三种编码方式，小尾编码（Unicode)，大尾编码(BigEndianUnicode)，UTF-8编码。

 * 我们可以从文件的头部来区分一个文件是属于哪种编码。

 * 当头部开始的两个字节为 FF FE时，是Unicode的小尾编码；

 * 当头部的两个字节为FE FF时，是Unicode的大尾编码；

 * 当头部两个字节为EF BB BF时，是Unicode的UTF-8编码；

 * 当它不为这些时，则是ANSI(中文是GBK系列)编码。

 */

using System;

using System.IO;

using System.Text;

namespace IceDog.SmallProject.CodeConvert

{

    /// <summary>

    /// 文本编码猜测帮助器

    /// <para>在调用其他方法前，先调用TextCodeGuessHelper.RegisterMoreEncoding()</para>

    /// </summary>

    public static class TextCodeGuessHelper

    {

        static TextCodeGuessHelper()

        {

        }

        /// <summary>

        /// 注册更多的编码类型类型

        /// </summary>

        /// <remarks>

        /// <para>需要引入 NuGet包:System.Text.Encoding.CodePages</para>

        /// <para>调用下面的编码类型需要先调用此方法</para>

        /// <para>详情链接：https://docs.microsoft.com/zh-cn/dotnet/api/system.text.encoding.registerprovider?redirectedfrom=MSDN&view=netframework-4.8#System_Text_Encoding_RegisterProvider_System_Text_EncodingProvider_</para>

        /// </remarks>

        public static void RegisterMoreEncoding()

        {

            Encoding.RegisterProvider(CodePagesEncodingProvider.Instance);

        }

        public static Encoding UTF8 => Encoding.UTF8;

        public static Encoding Unicode => Encoding.Unicode;

        public static Encoding BigEndianUnicode => Encoding.BigEndianUnicode;

        public static Encoding ASCII => Encoding.ASCII;

        public static Encoding UTF16BE => Encoding.BigEndianUnicode;

        public static Encoding UTF16LE => Encoding.Unicode;

        public static Encoding GB2312 => Encoding.GetEncoding("GB2312");

        public static Encoding GBK => Encoding.GetEncoding("GBK");

        public static Encoding GB18030 => Encoding.GetEncoding("GB18030");

        /// <summary>

        /// 获取编码

        /// </summary>

        /// <param name="name">编码名称，如(UTF-8)</param>

        /// <returns></returns>

        public static Encoding GetEncoding(string name) => Encoding.GetEncoding(name);

        public static Encoding GuessFileEncoding(string filename)

        {

            if (!File.Exists(filename))

            {

                throw new Exception("文件 " + filename + " 不存在!");

            }

            using (var fs = new FileStream(filename, FileMode.Open, FileAccess.Read))

            {

                return GuessStreamEncoding(fs);

            }

        }

        public static Encoding GuessStreamEncoding(Stream stream)

        {

            if (!stream.CanRead)

            {

                return null;

            }

            using (var br = new BinaryReader(stream))

            {

                var buffer = br.ReadBytes(3);

                if (buffer[0] == 0xFE && buffer[1] == 0xFF)//FE FF 254 255  UTF-16 BE (big-endian)

                {

                    return Encoding.BigEndianUnicode;

                }

                if (buffer[0] == 0xFF && buffer[1] == 0xFE)//FF FE 255 254  UTF-16 LE (little-endian)

                {

                    return Encoding.Unicode;

                }

                if (buffer[0] == 0xEF && buffer[1] == 0xBB & buffer[2] == 0xBF)//EF BB BF 239 187 191 UTF-8

                {

                    return Encoding.UTF8;//with BOM

                }

                if (IsUtf8WithoutBom(stream))

                {

                    return Encoding.UTF8;//without BOM

                }

                if (IsPlainASCII(stream))

                {

                    return Encoding.ASCII; //默认返回ascii编码

                }

                return GBK;

            }

        }

        public static bool IsPlainASCII(string path)

        {

            using (var fs = new FileStream(path, FileMode.Open, FileAccess.Read))

            {

                return IsPlainASCII(fs);

            }

        }

        private static bool IsPlainASCII(Stream stream)

        {

            bool isAllASCII = true;

            long totalLength = stream.Length;

            stream.Seek(0, SeekOrigin.Begin);//重置 position 位置

            using (var br = new BinaryReader(stream, Encoding.Default, true))

            {

                for (long i = 0; i < totalLength; i++)

                {

                    byte b = br.ReadByte();

                    /*

                     * 原理是

                     * 0x80     1000 0000

                     * &

                     * 0x75 (p) 0111 0101

                     * ASCII字符都比128小，与运算自然都是0

                     */

                    if ((b & 0x80) != 0)// (1000 0000): 值小于0x80的为ASCII字符

                    {

                        isAllASCII = false;

                        break;

                    }

                }

            }

            return isAllASCII;

        }

        /// <summary>

        /// 通过给定的文件流，判断文件的编码类型

        /// </summary>

        /// <param name="fs">文件流</param>

        /// <param name="defaultEncoding">默认编码</param>

        /// <returns>文件的编码类型</returns>

        private static bool IsUtf8WithoutBom(Stream stream)

        {

            stream.Seek(0, SeekOrigin.Begin);//重置 position 位置

            bool isAllASCII = true;

            long totalLength = stream.Length;

            long nBytes = 0;

            using (var br = new BinaryReader(stream, Encoding.Default, true))

            {

                for (long i = 0; i < totalLength; i++)

                {

                    byte b = br.ReadByte();

                    // (1000 0000): 值小于0x80的为ASCII字符

                    // 等同于 if(b < 0x80 )

                    if ((b & 0x80) != 0) //0x80 128

                    {

                        isAllASCII = false;

                    }

                    if (nBytes == 0)

                    {

                        if (b >= 0x80)

                        {

                            if (b >= 0xFC && b <= 0xFD) { nBytes = 6; }//此范围内为6字节UTF-8字符

                            else if (b >= 0xF8) { nBytes = 5; }// 此范围内为5字节UTF-8字符

                            else if (b >= 0xF0) { nBytes = 4; }// 此范围内为4字节UTF-8字符

                            else if (b >= 0xE0) { nBytes = 3; }// 此范围内为3字节UTF-8字符

                            else if (b >= 0xC0) { nBytes = 2; }// 此范围内为2字节UTF-8字符

                            else { return false; }

                            nBytes--;

                        }

                    }

                    else

                    {

                        if ((b & 0xC0) != 0x80) { return false; }//0xc0 192  (11000000): 值介于0x80与0xC0之间的为无效UTF-8字符

                        nBytes--;

                    }

                }

            }

            if (nBytes > 0)

            {

                return false;

            }

            if (isAllASCII)

            {

                return false;

            }

            return true;

        }

        public static string ReadFile(string path, Encoding encoding)

        {

            using (StreamReader sr = new StreamReader(path, encoding, true))

            {

                return sr.ReadToEnd();

            }

        }

        public static string ReadStream(Stream stream, Encoding encoding)

        {

            if (!stream.CanRead)

            {

                return null;

            }

            using (StreamReader sr = new StreamReader(stream, encoding, true))

            {

                return sr.ReadToEnd();

            }

        }

        /// <summary>

        /// 很巧妙的判断方式

        /// </summary>

        /// <param name="fileName"></param>

        /// <returns></returns>

        /// <remarks>参考：https://blog.csdn.net/capricio/article/details/83023828</remarks>

        public static Encoding IsGBKOrUTF8(string fileName)

        {

            var utf8Str = ReadFile(fileName, UTF8);

            var gbkStr = ReadFile(fileName, GBK);

            return utf8Str.Length <= gbkStr.Length ? UTF8 : GBK;

        }

    }

}

C#猜测识别文件编码的更多相关文章

[转] linux下查看文件编码及修改编码
如果无法识别文件编码,可能是文件中已有乱码,此时需要去掉乱码查看文件编码在Linux中查看文件编码可以通过以下几种方式: 1.在Vim中可以直接查看文件编码 :set fileencoding 即 ...
［译］如何定义python源文件的文件编码
简介这篇文章是为了介绍定义python源文件文件编码的方法.python解释器可以根据所指定的编码信息对当前文件进行解析.通常来说,这种方法可以提高解析器对Unicode编码的源文件的识别,并且支持 ...
Java与网页JSP文件编码的小总结
感谢大佬: https://www.cnblogs.com/yangguoe/p/8467672.html(编码发展史) https://blog.csdn.net/seabiscuityj/arti ...
转 :Vim文件编码识别与乱码处理
Vim文件编码识别与乱码处理在 Vim 中,有四个与编码有关的选项,它们是:fileencodings.fileencoding.encoding 和 termencoding.在实际使用中,任 ...
修改VISUAL STUDIO EXPRESS 2012新建C++文件编码
本站文章除注明转载外,均为本站原创或者翻译. 本站文章欢迎各种形式的转载,但请18岁以上的转载者注明文章出处,尊重我的劳动,也尊重你的智商: 本站部分原创和翻译文章提供markdown格式源码,欢迎使 ...
Linux查看文件编码格式及文件编码转换
Linux查看文件编码格式及文件编码转换如果你需要在Linux 中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题.Windows中默认的文件格式是GBK(gb2312),而L ...
【转】关于Python脚本开头两行的：#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 – 指定文件编码类型
原文网址:http://www.crifan.com/python_head_meaning_for_usr_bin_python_coding_utf-8/ #!/usr/bin/python 是用 ...
linux下查看文件编码及修改编码
http://blog.csdn.net/jnbbwyth/article/details/6991425 查看文件编码在Linux中查看文件编码可以通过以下几种方式:1.在Vim中可以直接查看文件编 ...
【转载】关于Python脚本开头两行的：#!/usr/bin/python和# -*- coding: utf-8 -*-的作用 – 指定文件编码类型
1.#!/usr/bin/python 是用来说明脚本语言是 python 的是要用 /usr/bin下面的程序(工具)python,这个解释器,来解释 python 脚本,来运行 python 脚 ...

随机推荐

读Xamarin文档记录
//怎样判断Wifi是否连接if (Connectivity.NetworkAccess == NetworkAccess.None) { ... } 连接改变的事件,判断事件改变后是否还处于连接状态 ...
MySQL入门——在Linux下安装和卸载MySQL
MySQL入门——在Linux下安装和卸载MySQL 摘要:本文主要学习了如何在Linux系统中安装和卸载MySQL数据库. 查看有没有安装过MySQL 使用命令查看有没有安装过: [root@loc ...
Winform中在使用Dock属性设计页面布局控件的顺序导致页面效果不同的问题
场景在Winform中进行页面设计时,常使用控件的Dock属性来进行布局调整.但是由于设置属性的顺序问题,导致达不到想要的效果. 比如以下两个控件下面的控件设置的Dock属性是Bottom,即在页 ...
配置git远程连接gitlab
1.本地git下载 2.配置全局的用户名和邮箱,命令分别为 git config --global user.name "username" git config --global ...
Git笔记----Git仓库常见经典操作命令
首次创建仓库上传项目操作在上一篇https://www.cnblogs.com/tk55/p/11795644.html ----好记性不如烂笔头再次更新到仓库不是首次更新内容或文件到远程仓库 g ...
2-1-动态方法：ByTagName()
动态方法:ByTagName() <ul id="list"> <li></li> <li></li> <li&g ...
UIAlertView和UIAlertController
UIAlertView 随着苹果上次iOS 5的发布,对话框视图样式出现在了我们面前,直到现在它都没有发生过很大的变化.下面的代码片段展示了如何初始化和显示一个带有“取消”和“好的”按钮的对话框视图. ...
Android 蓝牙开发（1）
普通蓝牙设备官方文档 Android 平台包含蓝牙网络堆栈支持,凭借此支持,设备能以无线方式与其他蓝牙设备交换数据.应用框架提供了通过 Android Bluetooth API 访问蓝牙功能的途径. ...
iOS多线程比较
.iOS的三种多线程技术 .NSThread 每个NSThread对象对应一个线程,量级较轻(真正的多线程) .以下两点是苹果专门开发的“并发”技术,使得程序员可以不再去关心线程的具体使用问题 ØNS ...
linux用户管理章节笔记
1 更改有效用户组 :newgrp zeng 把当前用户的有效用户组更改为zeng.事后可以使用groups命令查看. 2 在使用useradd命令增加用户时,在/etc/passwd的值一般会参考 ...

C#猜测识别文件编码

参考文章

源码

C#猜测识别文件编码的更多相关文章

随机推荐

热门专题