一个高效过滤非UTF8字符的C函数(也可用来判断是否utf8)
/*
UTF-8 valid format list:
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
*/
char *filter_none_utf8_chars(char *src, int *len)
{
unsigned char *p;
unsigned char *pSub;
unsigned char *pStrEnd;
unsigned char *pCharEnd;
int bytes;
unsigned char *filtered;
unsigned char *pDest;
unsigned char *pInvalidCharStart; pStrEnd = (unsigned char *)src + (*len);
p = (unsigned char *)src;
pInvalidCharStart = NULL;
while (p < pStrEnd)
{
if (*p < 0x80)
{
p++;
continue;
} if ((*p & 0xE0) == 0xC0) //110xxxxx
{
bytes = ;
}
else if ((*p & 0xF0) == 0xE0) //1110xxxx
{
bytes = ;
}
else if ((*p & 0xF8) == 0xF0) //11110xxx
{
bytes = ;
}
else if ((*p & 0xFC) == 0xF8) //111110xx {
bytes = ;
}
else if ((*p & 0xFE) == 0xFC) //1111110x
{
bytes = ;
}
else
{
pInvalidCharStart = p;
break;
} p++;
pCharEnd = p + bytes;
if (pCharEnd > pStrEnd)
{
pInvalidCharStart = p - ;
break;
} for (; p<pCharEnd; p++)
{
if ((*p & 0xC0) != 0x80)
{
break;
}
} if (p != pCharEnd)
{
pInvalidCharStart = pCharEnd - (bytes + );
break;
}
} if (pInvalidCharStart == NULL) //all chars are valid
{
return src;
} filtered = (unsigned char *)malloc(sizeof(char) * (*len));
if (filtered == NULL)
{
*len = ;
*src = '\0';
return src;
} pDest = filtered;
bytes = (char *)pInvalidCharStart - src;
if (bytes > )
{
memcpy(pDest, src, bytes);
pDest += bytes;
} p = pInvalidCharStart + ; //skip this invalid char
while (p < pStrEnd)
{
if (*p < 0x80)
{
*pDest++ = *p++;
continue;
} if ((*p & 0xE0) == 0xC0) //110xxxxx
{
bytes = ;
}
else if ((*p & 0xF0) == 0xE0) //1110xxxx
{
bytes = ;
}
else if ((*p & 0xF8) == 0xF0) //11110xxx
{
bytes = ;
}
else if ((*p & 0xFC) == 0xF8) //111110xx
{
bytes = ;
}
else if ((*p & 0xFE) == 0xFC) //1111110x
{
bytes = ;
} else //invalid char
{
p++;
continue;
} pSub = p + ;
pCharEnd = pSub + bytes;
if (pCharEnd > pStrEnd)
{
p++;
continue;
} for (; pSub<pCharEnd; pSub++)
{
if ((*pSub & 0xC0) != 0x80)
{
break;
}
} if (pSub != pCharEnd)
{
p++;
continue;
} bytes += ;
memcpy(pDest, pSub-bytes, bytes);
pDest += bytes;
p += bytes;
} *len = pDest - filtered;
memcpy(src, filtered, *len);
* (src + (*len)) = '\0'; free(filtered); return src;
}
http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=1230313
一个高效过滤非UTF8字符的C函数(也可用来判断是否utf8)的更多相关文章
- 过滤3个字节以上的utf-8字符
/** * 过滤掉超过3个字节的UTF8字符 * @param text * @return * @throws UnsupportedEncodingException */ public stat ...
- Unicode其实是Latin1的扩展。只有一个低字节的Uncode字符其实就是Latin1字符——附各种字符编码表及转换表
一.概念 1,ASCII ASCII(American Standard Code for Information Interchange),中文名称为美国信息交换标准代码.是 ...
- 字符编码笔记:ASCII,Unicode和UTF-8
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...
- 字符编码笔记:ASCII,Unicode和UTF-8 转
本文出处 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 只是为了记录一下省得要去搜. 今天中午,我突然想搞清楚 ...
- [转]字符编码笔记:ASCII,Unicode和UTF-8
转自:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 作者: 阮一峰 日期: 2007年10月28日 今天中午, ...
- 字符编码笔记:ASCII,Unicode和UTF-8(转载)
作者: 阮一峰 日期: 2007年10月28日 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...
- ASCII 非打印字符
项目出了问题,因为AscII非打印字符的原因,后来找了一下啊ASCII的非打印字符,总共有31个,然后我们直接全部替换成问号了. 解决方式为先找到非打印字符,这是我从网上找的非打印字符表: 进制 十六 ...
- 字符编码笔记:ASCII,Unicode和UTF-8【转载】
作者: 阮一峰 日期: 2007年10月28日 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...
- 【转】字符编码笔记:ASCII,Unicode和UTF-8
今天整理笔记,关于NSString转NSData时,什么时候使用NSUTF8StringEncoding,或者NSASCIIStringEncoding,或者 NSUnicodeStringEncod ...
随机推荐
- JavaScrtip之JS最佳实践
一.JavaScript之平稳退化 这边使用一个当用户点击某个页面内某个链接弹出一个新窗口的案例: JavaScript使用window对象的open()方法来创建新的浏览器窗口; window.op ...
- 数据库值N'string'
加上 N 代表存入数据库时以 Unicode 格式存储.N'string' 表示string是个Unicode字符串 Unicode 字符串的格式与普通字符串相似,但它前面有一个 N 标识符(N 代表 ...
- 软件开发常用Linux命令
解压缩 tar -zxvf xxx.tar.gz 文件显示及查找常用于分析log //显示file中包含aaa的行 cat <file>|grep aaa 查看cpu memory基本信息 ...
- php install
./configure --prefix=/home/allen.mh/local/php --with-gd=/home/allen.mh/local/gd --with-jpeg-dir=/hom ...
- Netty4.0学习教程
http://blog.csdn.net/u013252773/article/details/21046697 一些属性和方法介绍 http://blog.csdn.net/zxhoo/articl ...
- codeforces 632C. The Smallest String Concatenation 排序
题目链接 给出n个字符串, 将他们连在一起, 求连玩之后字典序最小的那种情况. 按a+b<b+a排序.... #include <iostream> #include <vec ...
- [C++]Store Credit——Google Code Jam Qualification Round Africa 2010
Google Code Jam Qualification Round Africa 2010 的第一题,很简单. Problem You receive a credit C at a local ...
- Spring 装配Bean
Spring 装配Bean 装配解释: 创建应用对象之间协作关系的的行为通常称为装配(wiring),这也是依赖注入的本质 依赖注入是Spring的基础要素 一 : 使用spring装配Bean基础介 ...
- Linux系统管理员:不要害怕升级内核
Linux系统管理员平时很重要的一项工作就是负责系统内核升级.做好系统内核的升级工作,对于Linux系 统的稳定性具有至关重要的作用.但是很少有人敢贸然的对Linux系统的内核进行升级,担心会影响现有 ...
- 基于JDK 8的Dubbo Admin
在使用Dubbo Admin的时候,一直报错,无法启动,因为Dubbo Admin使用的各种库相对是比较旧的,在JDK 8下,有些小问题 具体解决过程参考的以下链接 https://github.c ...