utf8的规则比较简单:

  • 对于UTF-8编码中的任意字节B,如果B的第一位为0,则B为ASCII码,并且B独立的表示一个字符;
  • 如果B的第一位为1,第二位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的一个字节,并且不为字符的第一个字节编码;
  • 如果B的前两位为1,第三位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的第一个字节,并且该字符由两个字节表示;
  • 如果B的前三位为1,第四位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的第一个字节,并且该字符由三个字节表示;
  • 如果B的前四位为1,第五位为0,则B为一个非ASCII字符(该字符由多个字节表示)中的第一个字节,并且该字符由四个字节表示;

通过二进制表示如下:

0xxxxxxx (一位的情况,为ASCII)
110xxxxx 10xxxxxx (110开头,代表两位)
1110xxxx 10xxxxxx 10xxxxxx (1110开头代表三位)
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx (11110开头代表四位)
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (111110开头,代表五位)
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (1111110开头,代表六位)

符合以上规则的,就代表为符合utf8编码规则,否则为不符合

代码实现如下:

bool isUTF8(char* rawtext)
{
int score = ;
int i, rawtextlen = ;
int goodbytes = , asciibytes = ; rawtextlen = strlen(rawtext);
for (i = ; i < rawtextlen; i++)
{
if ((rawtext[i] & 0x7F) == rawtext[i])
{
//最高位是0的ASCII字符
//一位编码的情况
asciibytes++;
}
else if (- <= rawtext[i] && rawtext[i] <= -
//两位编码的情况,第一位11000000--11011111
//后一位跟10000000--10111111
&&i + < rawtextlen
&& - <= rawtext[i + ] && rawtext[i + ] <= -)
{
goodbytes += ;
i++;
}
else if (- <= rawtext[i]&& rawtext[i] <= -
//三位编码的情况,第一位11100000--11101111
//后两位跟10000000--10111111
&&i + < rawtextlen
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -)
{
goodbytes += ;
i += ;
}
else if(- <= rawtext[i]&& rawtext[i] <= -
//四位编码的情况,第一位11110000--11110111
//后三位跟10000000--10111111
&&i + < rawtextlen
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -) {
goodbytes += ;
i += ;
}
else if(- <= rawtext[i]&& rawtext[i] <= -
//五位编码的情况,第一位11111000--11111011
//后四位跟10000000--10111111
&&i + < rawtextlen
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -)
{
goodbytes += ;
i += ;
}
else if(- <= rawtext[i]&& rawtext[i] <= -
//六位编码的情况,第一位11111100--11111101
//后五位跟10000000--10111111
&&i + < rawtextlen
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -
&& - <= rawtext[i + ] && rawtext[i + ] <= -)
{
goodbytes += ;
i += ;
}
}
if (asciibytes == rawtextlen)
{
return true;
}
score = * goodbytes / (rawtextlen - asciibytes);
//如果匹配率达到98%以上,则成功
//允许一部分脏数据
if (score > )
{
return true;
}
else if (score > && goodbytes > )
{
return true;
}
else
{
return false;
}
}

判断文件是否为UTF8编码的更多相关文章

  1. 利用js判断文件是否为utf-8编码

    常规方案 使用FileReader以utf-8格式读取文件,根据文件内容是否包含乱码字符�,来判断文件是否为utf-8. 如果存在�,即文件编码非utf-8,反之为utf-8. 代码如下: const ...

  2. Linux中将一个GBK编码的文件转换成UTF-8编码文件

    Linux中将一个GBK编码的文件转换成UTF-8编码文件 使用iconv 命令iconv -f GBK -t UTF-8 file1 -o file2 输出另一个文件,然后再覆盖源文件内容

  3. 判断字符串是否为UTF8编码

    UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码.由Ken Thompson于1992年创建.现在已经标准化为RFC 36 ...

  4. 修改Myeclipse的文件默认为UTF-8编码

    一.工程编码默认调整 windows->Preferences...打开"首选项"对话框, 左侧导航树,导航到general->Workspace,右侧 Text fi ...

  5. python3.x 读写文件要使用UTF8编码的话需要。。

    读写文件常遇到编码不正确的情况,都用UTF8读写文件就好了,在读写的时候加上编码格式:encoding='UTF-8'如下:with open(filename, 'r', encoding='UTF ...

  6. 【Java文件】按UTF-8编码读取文本文件(逐行方式),排序,打印到控制台

    代码: package findJavaMemberFunction; import java.io.BufferedReader; import java.io.FileInputStream; i ...

  7. Python读取UTF-8编码文件并使用命令行执行时输出结果的问题

    最近参加了由CCF举办的数据挖掘比赛,主办方提供了csv格式的数据文件,由于中文显示乱码的问题,我先用txt文本编辑器将编码改为utf-8格式,但是在读取文件并输出读取结果时发生了问题,代码如下: # ...

  8. 检测字节流是否是UTF8编码

    几天前偶尔看到有人发帖子问“如何自动识别判断url中的中文参数是GB2312还是Utf-8编码” 也拜读了wcwtitxu使用巨牛的正则表达式检测UTF8编码的算法. 使用无数或条件的正则表达式用起来 ...

  9. ASP.NET中将导出的数据以UTF-8编码方式进行存储

      Response.Charset = "UTF-8"; Response.ContentEncoding = Encoding.UTF8; Response.AppendHea ...

随机推荐

  1. 《Python 学习手册4th》 第四章 介绍Python对象类型

    ''' 时间: 9月5日 - 9月30日 要求: 1. 书本内容总结归纳,整理在博客园笔记上传 2. 完成所有课后习题 注:“#” 后加的是备注内容(每天看42页内容,可以保证月底看完此书) ''' ...

  2. 各个城市优步uber注册司机官网地址汇总

    uber城市 开通uber城市 开通优步城市 哪些城市开通了uber   哪些城市开通了优步 分类: uber专车资讯 作为专车模式的创立者,Uber公司很早就进入了中国区域.优步在中国市场也是胸怀大 ...

  3. [CODEVS2603]公路修建

    题目描述 某国有n个城市,它们互相之间没有公路相通,因此交通十分不便.为解决这一“行路难”的问题,政府决定修建公路.修建公路的任务由各城市共同完成.    修建工程分若干轮完成.在每一轮中,每个城市选 ...

  4. 关于display显示 linux

    export DISPLAY=ipaddressofyourmachineorpc:0.0 如果要在本来的机器上显示,使用 export DISPLAY=localhost:0

  5. leetcode—Plus one

      1.题目描述 Given a number represented as an array of digits, plus one to the number. 2.解法分析 不要被常规思路限制住 ...

  6. 【JAVA版】Storm程序整合Kafka、Mongodb示例及部署

    一.环境 一台Centos6.5主机 Mongo 3.0 Kafka_2.11-0.8.2.1 Storm-0.9.5 Zookeeper-3.4.6 java 1.7 (后因在mac上打包的jar由 ...

  7. 使用Ant发布hadoop代码到服务器

    首先,搭建Ant环境: 1.1.下载antzip包,可以直接从官网下,也可以从我的csdn账号下载,这里我使用的Ant版本是:apache-ant-1.8.4-bin CSDN Ant 所需jar包下 ...

  8. Tengine – Nginx衍生版

    Tengine是淘宝在Nginx基础上开发的一个衍生版.官方的简介说针对大访问量网站的需求,添加了很多高级功能和特性.Tengine的性能和稳定性已经在大型的网站如淘宝网,天猫商城等得到了很好的检验. ...

  9. 前端的一些常用DOM和事件归纳

    1.document.getElementById(id); document.getElementByTagName(tagName);       document.getElementsByNa ...

  10. TypeScript学习笔记(一):介绍及环境搭建

    官网 TypeScript目前还在快速的发展中,当前的版本是1.6,有关TypeScript更多的信息可以在其官网中获取. http://www.typescriptlang.org/ 什么是Type ...