如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)

转自：http://blog.csdn.net/jiangqin115/article/details/42684017

UTF-8编码的文本文档，有的带有BOM (Byte Order Mark, 字节序标志)，即0xEF, 0xBB, 0xBF，有的没有。Windows下的txt文本编辑器在保存UTF-8格式的文本文档时会自动添加BOM到文件头。在判断这类文档时，可以根据文档的前3个字节来进行判断。然而BOM不是必需的，而且也不是推荐的。对不希望UTF-8文档带有BOM的程序会带来兼容性问题，例如Java编译器在编译带有BOM的UTF-8源文件时就会出错。而且BOM去掉了UTF-8一个期望的特性，即是在文本全部是ASCII字符时UTF-8是和ASCII一致的，即UTF-8向下兼容ASCII。

在具体判断时，如果文档不带有BOM，就无法根据BOM做出判断，而且IsTextUnicode API也无法对UTF-8编码的Unicode字符串做出判断。那在编程判断时就要根据UTF-8字符编码的规律进行判断了。

UTF-8是一种多字节编码的字符集，表示一个Unicode字符时，它可以是1个至多个字节，在表示上有规律：

1字节：0xxxxxxx
2字节：110xxxxx 10xxxxxx
3字节：1110xxxx 10xxxxxx 10xxxxxx
4字节：11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

这样就可以根据上面的特征对字符串进行遍历来判断一个字符串是不是UTF-8编码了。应该指出的是UTF-8字符串的各个字节的取值有一定的范围，并不是所有的值都是有效的UTF-8字符，但是一般的应用的情况下这样的判断在对足够长的字符串及是比较精确了，而且实现也比较简单。具体的字节取值范围可以参见"Unicode Explained"一书中的6.4.3。另外BOM本身也符合3字节UTF-8字符编码规律，所以本方法对带BOM的UTF-8字符串也是有效的。

1. 判断文本是否UTF编码

在下面程序中对最大3字节长的UTF-8字符进行了判断，在实际情况下，几乎所有能用到的UTF-8字符最长就是3个字节

 bool IsUTF8(const void* pBuffer, long size)

 {

     bool IsUTF8 = true;

     unsigned char* start = (unsigned char*)pBuffer;

     unsigned char* end = (unsigned char*)pBuffer + size;

     while (start < end)

     {

         if (*start < 0x80) // (10000000): 值小于0x80的为ASCII字符

         {

             start++;

         }

         else if (*start < (0xC0)) // (11000000): 值介于0x80与0xC0之间的为无效UTF-8字符

         {

             IsUTF8 = false;

             break;

         }

         else if (*start < (0xE0)) // (11100000): 此范围内为2字节UTF-8字符

         {

             if (start >= end - )

             {

                 break;

             }  

             if ((start[] & (0xC0)) != 0x80)

             {

                 IsUTF8 = false;

                 break;

             }  

             start += ;

         }

         else if (*start < (0xF0)) // (11110000): 此范围内为3字节UTF-8字符

         {

             if (start >= end - )

             {

                 break;

             }  

             if ((start[] & (0xC0)) != 0x80 || (start[] & (0xC0)) != 0x80)

             {

                 IsUTF8 = false;

                 break;

             }  

             start += ;

         }

         else

         {

             IsUTF8 = false;

             break;

         }

     }  

     return IsUTF8;

 }

2. 判断文件是否UTF-8编码：

 bool CConvertCharset::IsUTF8File(const char* pFileName)

 {

     FILE *f = NULL;

     fopen_s(&f, pFileName, "rb");

     if (NULL == f)

     {

         return false;

     }  

     fseek(f, , SEEK_END);

     long lSize = ftell(f);

     fseek(f, , SEEK_SET);  //或rewind(f);  

     char *pBuff = new char[lSize + ];

     memset(pBuff, , lSize + );

     fread(pBuff, lSize, , f);

     fclose(f);  

     bool bIsUTF8 = IsUTF8Text(pBuff, lSize);

     delete []pBuff;

     pBuff = NULL;  

     return bIsUTF8;

 }

如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)的更多相关文章

C# 判断一个文本文件的编码格式（转载）
文件的字符集在Windows下有两种,一种是ANSI,一种Unicode.对于Unicode,Windows支持了它的三种编码方式,一种是小尾编码(Unicode),一种是大尾编码(BigEndian ...
自动判断文本文件编码来读取文本文件内容(.net版本和java版本)
.net版本 using System; using System.IO; using System.Text; namespace G2.Common { /// <summary> / ...
[No000040]取得一个文本文件的编码方式
using System; using System.IO; using System.Text; /// <summary> /// 用于取得一个文本文件的编码方式(Encoding). ...
c c++怎么判断一个字符串中是否含有汉字
c c++怎么判断一个字符串中是否含有汉字 (2013-02-05 10:44:23) 转载▼ #include #include int main() { char sztext[] = ...
如何用一个语句判断一个整数是不是二的整数次幂——从一道简单的面试题浅谈C语言的类型提升(type promotion)
最近招聘季,看JULY大哥的面试100题时,碰到这么一个扩展问题: 如何用一个语句判断一个整数是不是二的整数次幂?(此题在编程之美也有) easy, 2的整数次幂的二进制形式只有一个1,只要用i和i- ...
Java基础---Java---IO流-----File 类、递归、删除一个带内容的目录、列出指定目录下文件夹、FilenameFilte
File 类用来将文件或者文件夹封装成对象方便对文件与文件夹进行操作. File对象可以作为参数传递给流的构造函数流只用操作数据,而封装数据的文件只能用File类 File类常见方法: 1.创建 ...
Java判断一个字符是否是数字的几种方法的代码
在工作期间,将写内容过程经常用到的一些内容段做个记录,下面内容是关于Java判断一个字符是否是数字的几种方法的内容,希望能对码农们有好处. public class Test{ public stat ...
VBA 判断一个TXT编码方式,再创建一个新的文件,复制数据进去
如题,先读取一个文本文件判断编码(Unicode ANSI),就这两种编码然后将txt导入到excel表中,最后处理完成,再创建一个相同编码,不同文件名的txt文件,把新数据放进去 Sub test ...
linux下sort命令使用详解---linux将文本文件内容加以排序命令
转载自:http://www.cnblogs.com/hitwtx/archive/2011/12/03/2274592.html linux下sort命令使用详解---linux将文本文件内容加以排 ...

随机推荐

php匹配邮箱正则
php匹配邮箱正则 '/[a-z0-9&\-_.]+@[\w\-_]+([\w\-.]+)?\.[\w\-]+/is'
跑对抗样本库 CleverHans 的例子时，遇到的问题
环境:Ubuntu+TensorFlow 首先是GPU被其他人占用了,怎么也跑不起来最简单的TensorFlow小例子. 所以先学会如何查看显卡使用情况,转去使用其他空闲显卡. Linux查看Nvid ...
React Native网络编程之Fetch
目录 1.前言 2.什么是Fetch 3.最简单的应用 4.支持的请求参数 - 4.1. 参数详讲 - 4.2. 示例 5.请求错误与异常处理 1. 前言网络请求是开发APP中不可或缺的一部 ...
STP协议树配置
STP协议树作用为了提高网络可靠性,交换网络中通常会使用冗余链路. 然而,冗余链路会给交换网络带来环路风险并导致广播风暴以及MAC地址表不稳定等问题进而会影响到用户的通信质量. 生成树协议STP( ...
iOS Sprite Kit教程之场景的设置
iOS Sprite Kit教程之场景的设置 Sprite Kit中设置场景在图2.8所示的效果中,可以看到新增的场景是没有任何内容的,本节将讲解对场景的三个设置,即颜色的设置.显示模式的设置以及测 ...
Web2.0应用程序的7条原则
个人看好Web的发展潜力,本文字摘自<Collective Intelligence 实战> 网络是平台使用传统许可模式软件的公司或用户必须运行软件.定期更新至最新版本,以及扩展它来满足 ...
出现报错: module build failed error couldn't find preset es2015 relative to directory
当用webpack 进行 build 的时候, 会出现如上标题的错误, 解决方式是在上级或者上上级目录,删除 .babelrc 文件
Hibernate之Hibernate环境搭建
Hibernate之Hibernate环境搭建一.Hibernate环境搭建的步骤 1.添加Hibernate && SQLServer 的Jar antlr-2.7.7.jar d ...
yyyy-MM-dd HH:mm:ss is Invalid Date in Safari, IE等浏览器下
一.踩坑背景在做某个项目的过程中,系统要求兼容safari,在使用Element-ui情况下,用到了datepicker组件,但是datepicker在type为daterange情况下,页面首次加 ...
Vanish 详解
1.varnish 概述: varnish是一款高性能且开源的方向代理服务器和HTTP加速器,它的开发者poul-Henning kamp FreeBSD 核心的开发人员之一.varnish采 ...

如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)

如何判断一个文本文件内容的编码格式 UTF-8 ? ANSI(GBK)的更多相关文章

随机推荐

热门专题