一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）

/*

UTF-8 valid format list:

0xxxxxxx

110xxxxx 10xxxxxx

1110xxxx 10xxxxxx 10xxxxxx

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

*/

char *filter_none_utf8_chars(char *src, int *len)

{

        unsigned char *p;

        unsigned char *pSub;

        unsigned char *pStrEnd;

        unsigned char *pCharEnd;

        int bytes;

        unsigned char *filtered;

        unsigned char *pDest;

        unsigned char *pInvalidCharStart;

        pStrEnd = (unsigned char *)src + (*len);

        p = (unsigned char *)src;

        pInvalidCharStart = NULL;

        while (p < pStrEnd)

        {

                if (*p < 0x80)

                {

                        p++;

                        continue;

                }

                if ((*p & 0xE0) == 0xC0)  //110xxxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF0) == 0xE0) //1110xxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF8) == 0xF0) //11110xxx

                {

                        bytes = ;

                }

                else if ((*p & 0xFC) == 0xF8) //111110xx

                {

                        bytes = ;

                }

                else if ((*p & 0xFE) == 0xFC) //1111110x

                {

                        bytes = ;

                }

                else

                {

                        pInvalidCharStart = p;

                        break;

                }

                p++;

                pCharEnd = p + bytes;

                if (pCharEnd > pStrEnd)

                {

                        pInvalidCharStart = p - ;

                        break;

                }

                for (; p<pCharEnd; p++)

                {

                        if ((*p & 0xC0) != 0x80)

                        {

                                break;

                        }

                }

                if (p != pCharEnd)

                {

                        pInvalidCharStart = pCharEnd - (bytes + );

                        break;

                }

        }

        if (pInvalidCharStart == NULL) //all chars are valid

        {

                return src;

        }

        filtered = (unsigned char *)malloc(sizeof(char) * (*len));

        if (filtered == NULL)

        {

                *len = ;

                *src = '\0';

                return src;

        }

        pDest = filtered;

        bytes = (char *)pInvalidCharStart - src;

        if (bytes > )

        {

                memcpy(pDest, src, bytes);

                pDest += bytes;

        }

        p = pInvalidCharStart + ; //skip this invalid char

        while (p < pStrEnd)

        {

                if (*p < 0x80)

                {

                        *pDest++ = *p++;

                        continue;

                }

                if ((*p & 0xE0) == 0xC0)  //110xxxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF0) == 0xE0) //1110xxxx

                {

                        bytes = ;

                }

                else if ((*p & 0xF8) == 0xF0) //11110xxx

                {

                        bytes = ;

                }

                else if ((*p & 0xFC) == 0xF8) //111110xx

                {

                        bytes = ;

                }

                else if ((*p & 0xFE) == 0xFC) //1111110x

                {

                        bytes = ;

                }                

                else  //invalid char

                {

                        p++;

                        continue;

                }

                pSub = p + ;

                pCharEnd = pSub + bytes;

                if (pCharEnd > pStrEnd)

                {

                        p++;

                        continue;

                }

                for (; pSub<pCharEnd; pSub++)

                {

                        if ((*pSub & 0xC0) != 0x80)

                        {

                                break;

                        }

                }

                if (pSub != pCharEnd)

                {

                        p++;

                        continue;

                }

                bytes += ;

                memcpy(pDest,  pSub-bytes, bytes);

                pDest += bytes;

                p += bytes;

        }

        *len = pDest - filtered;

        memcpy(src, filtered, *len);

        * (src + (*len)) = '\0';

        free(filtered);

        return src;

}

http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=1230313

一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）的更多相关文章

过滤3个字节以上的utf-8字符
/** * 过滤掉超过3个字节的UTF8字符 * @param text * @return * @throws UnsupportedEncodingException */ public stat ...
Unicode其实是Latin1的扩展。只有一个低字节的Uncode字符其实就是Latin1字符——附各种字符编码表及转换表
一.概念 1,ASCII ASCII(American Standard Code for Information Interchange),中文名称为美国信息交换标准代码.是 ...
字符编码笔记：ASCII，Unicode和UTF-8
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...
字符编码笔记：ASCII，Unicode和UTF-8 转
本文出处 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 只是为了记录一下省得要去搜. 今天中午,我突然想搞清楚 ...
[转]字符编码笔记：ASCII，Unicode和UTF-8
转自:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 作者: 阮一峰日期: 2007年10月28日今天中午, ...
字符编码笔记：ASCII，Unicode和UTF-8(转载)
作者: 阮一峰日期: 2007年10月28日今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...
ASCII 非打印字符
项目出了问题,因为AscII非打印字符的原因,后来找了一下啊ASCII的非打印字符,总共有31个,然后我们直接全部替换成问号了. 解决方式为先找到非打印字符,这是我从网上找的非打印字符表: 进制十六 ...
字符编码笔记：ASCII，Unicode和UTF-8【转载】
作者: 阮一峰日期: 2007年10月28日今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...
【转】字符编码笔记：ASCII，Unicode和UTF-8
今天整理笔记,关于NSString转NSData时,什么时候使用NSUTF8StringEncoding,或者NSASCIIStringEncoding,或者 NSUnicodeStringEncod ...

随机推荐

android入门——UI(1)
一.使用TextView ImageView Button EditView做出登录页面 <?xml version="1.0" encoding="utf-8&q ...
关于K-Means算法
在数据挖掘中,K-Means算法是一种cluster analysis的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法. 问题 K-Means算法主要解决的问题如下图所示. ...
浅谈Mybatis(二)
一.resultMap 作用:发现数据库的查询结果与实体之间不匹配时,需要通过ResultMap来进行映射处理.常用于多表查询. 多表查询还是比较复杂的,因为可能的情况很多.这里只说两种情况: 1.1 ...
std中map
在map中需要对位置a和b值进行交换,代码如下: auto val1 = tmpMap.at(a); auto val2 = tmpMap.at(b); tmpMap.insert(std::make ...
Hive入门之UDFS函数
一．UDFS函数介绍 1. 基本UDF (1)SHOWFUNCTIONS:这个用来熟悉未知函数. DESCRIBE FUNCTION<function_name>; (2)A IS NUL ...
Cocos2dx游戏开发系列笔记13：一个横版拳击游戏Demo完结篇
懒骨头(http://blog.csdn.net/iamlazybone QQ:124774397 ) 写下这些东西的同时旁边放了两部电影周星驰的<还魂夜> 甄子丹的<特殊身份& ...
一周学会Mootools 1.4中文教程:(6)动画
先看一下动画的参数设置: 参数: fps - (number:默认是50) 每秒的帧数. unit - (string:默认是 false) 单位,可为 'px','em',或 '%'. link - ...
Centos6.5中一键安装LNMP 安装Yii2.0 手工配置
1.一键安装LNMP cd /usr wget -c http://soft.vpser.net/lnmp/lnmp1.2-full.tar.gz tar zxf lnmp1.-full.tar.gz ...
C#学习日志 day 4 ------ 类相关---this指针以及相关关键字
c#中的类和java中的类没什么太大区别.但是c#有些特有的关键字以及属性使得c#具有一些特性. 首先就是this关键字,this在c++和java中都有,可以表示当前对象,以及变量所属对象等.例如 ...
hdu 2295 Radar 重复覆盖+二分
题目链接给m个雷达, n个城市, 以及每个城市的坐标, m个雷达里只能使用k个, 在k个雷达包围所有城市的前提下, 求最小半径. 先求出每个雷达到所有城市的距离, 然后二分半径, 如果距离小于二分的 ...

一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）

一个高效过滤非UTF8字符的C函数（也可用来判断是否utf8）的更多相关文章

随机推荐

热门专题