/*
UTF-8 valid format list:
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
*/
char *filter_none_utf8_chars(char *src, int *len)
{
unsigned char *p;
unsigned char *pSub;
unsigned char *pStrEnd;
unsigned char *pCharEnd;
int bytes;
unsigned char *filtered;
unsigned char *pDest;
unsigned char *pInvalidCharStart; pStrEnd = (unsigned char *)src + (*len);
p = (unsigned char *)src;
pInvalidCharStart = NULL;
while (p < pStrEnd)
{
if (*p < 0x80)
{
p++;
continue;
} if ((*p & 0xE0) == 0xC0) //110xxxxx
{
bytes = ;
}
else if ((*p & 0xF0) == 0xE0) //1110xxxx
{
bytes = ;
}
else if ((*p & 0xF8) == 0xF0) //11110xxx
{
bytes = ;
}
else if ((*p & 0xFC) == 0xF8) //111110xx {
bytes = ;
}
else if ((*p & 0xFE) == 0xFC) //1111110x
{
bytes = ;
}
else
{
pInvalidCharStart = p;
break;
} p++;
pCharEnd = p + bytes;
if (pCharEnd > pStrEnd)
{
pInvalidCharStart = p - ;
break;
} for (; p<pCharEnd; p++)
{
if ((*p & 0xC0) != 0x80)
{
break;
}
} if (p != pCharEnd)
{
pInvalidCharStart = pCharEnd - (bytes + );
break;
}
} if (pInvalidCharStart == NULL) //all chars are valid
{
return src;
} filtered = (unsigned char *)malloc(sizeof(char) * (*len));
if (filtered == NULL)
{
*len = ;
*src = '\0';
return src;
} pDest = filtered;
bytes = (char *)pInvalidCharStart - src;
if (bytes > )
{
memcpy(pDest, src, bytes);
pDest += bytes;
} p = pInvalidCharStart + ; //skip this invalid char
while (p < pStrEnd)
{
if (*p < 0x80)
{
*pDest++ = *p++;
continue;
} if ((*p & 0xE0) == 0xC0) //110xxxxx
{
bytes = ;
}
else if ((*p & 0xF0) == 0xE0) //1110xxxx
{
bytes = ;
}
else if ((*p & 0xF8) == 0xF0) //11110xxx
{
bytes = ;
}
else if ((*p & 0xFC) == 0xF8) //111110xx
{
bytes = ;
}
else if ((*p & 0xFE) == 0xFC) //1111110x
{
bytes = ;
} else //invalid char
{
p++;
continue;
} pSub = p + ;
pCharEnd = pSub + bytes;
if (pCharEnd > pStrEnd)
{
p++;
continue;
} for (; pSub<pCharEnd; pSub++)
{
if ((*pSub & 0xC0) != 0x80)
{
break;
}
} if (pSub != pCharEnd)
{
p++;
continue;
} bytes += ;
memcpy(pDest, pSub-bytes, bytes);
pDest += bytes;
p += bytes;
} *len = pDest - filtered;
memcpy(src, filtered, *len);
* (src + (*len)) = '\0'; free(filtered); return src;
}

http://bbs.chinaunix.net/forum.php?mod=viewthread&tid=1230313

一个高效过滤非UTF8字符的C函数(也可用来判断是否utf8)的更多相关文章

  1. 过滤3个字节以上的utf-8字符

    /** * 过滤掉超过3个字节的UTF8字符 * @param text * @return * @throws UnsupportedEncodingException */ public stat ...

  2. Unicode其实是Latin1的扩展。只有一个低字节的Uncode字符其实就是Latin1字符——附各种字符编码表及转换表

    一.概念 1,ASCII             ASCII(American Standard Code for Information Interchange),中文名称为美国信息交换标准代码.是 ...

  3. 字符编码笔记:ASCII,Unicode和UTF-8

    很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...

  4. 字符编码笔记:ASCII,Unicode和UTF-8 转

    本文出处 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 只是为了记录一下省得要去搜. 今天中午,我突然想搞清楚 ...

  5. [转]字符编码笔记:ASCII,Unicode和UTF-8

    转自:http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html 作者: 阮一峰 日期: 2007年10月28日 今天中午, ...

  6. 字符编码笔记:ASCII,Unicode和UTF-8(转载)

    作者: 阮一峰 日期: 2007年10月28日 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...

  7. ASCII 非打印字符

    项目出了问题,因为AscII非打印字符的原因,后来找了一下啊ASCII的非打印字符,总共有31个,然后我们直接全部替换成问号了. 解决方式为先找到非打印字符,这是我从网上找的非打印字符表: 进制 十六 ...

  8. 字符编码笔记:ASCII,Unicode和UTF-8【转载】

    作者: 阮一峰 日期: 2007年10月28日 今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料. 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步 ...

  9. 【转】字符编码笔记:ASCII,Unicode和UTF-8

    今天整理笔记,关于NSString转NSData时,什么时候使用NSUTF8StringEncoding,或者NSASCIIStringEncoding,或者 NSUnicodeStringEncod ...

随机推荐

  1. 关于使用由CA机构(EJBCA)颁发的证书实现SLLSocket双向认证服务端报null cert chain的解决方案

    在 SSLSocket实现服务端和客户端双向认证的例子 文章中最后提到使用keytool.exe的自签证书实现双向认证可以,但是使用ejbca生成证书实现SLL Socket的双向认证是服务端老是报错 ...

  2. English - refer to...和refer to...as

    refer to...和refer to...as...本来就是refer的两个固定搭配,这个只能讲讲后两者用法,剩下的就是单独的refer的用法了. 1. refer to sb/sth 指的是/提 ...

  3. [原创] 小而美 | Mac上鲜为人知,但极大提升效率的小工具

    热爱收集实用又好用的软件,工具类软件不在多,发挥作用,提高效率最重要~推荐几个压箱底的藏货 一.Noizio -自然而然的白噪声,专注工作 Noizio是一款OS X 下的白噪音应用,可以让自己觉着是 ...

  4. ROS的文件系统

    这篇博客介绍一下ROS的文件系统的基本概念,用户可以直接在官方网站:http://wiki.ros.org/ROS/Tutorials/NavigatingTheFilesystem去查看官方手册. ...

  5. Win8安装ASP.net 4.5(转)

    (原文:http://blog.csdn.net/dingxu_ren/article/details/17607451) 今天在我的电脑上部署Web程序时发现页面打不开,网上搜了下是因为先安装的.n ...

  6. MVC上传文件受限制

    mvc自带设置4M一下的字体可以上传,4M以上的字体需要对web.config进行设置 <system.web> <httpRuntime targetFramework=" ...

  7. springmvc结合freemarker,非自定义标签

    参考:http://viralpatel.net/blogs/spring-mvc-freemarker-ftl-example/ 上图: 目录层级: 启动后的访问地址:http://localhos ...

  8. 3种方式实现可滑动的Tab

    1. 第一种,使用 TabHost + ViewPager 实现 该方法会有一个Bug,当设置tabHost.setCurrentTab()为0时,ViewPager不显示(准确的说是加载),只有点击 ...

  9. :last-child的诡异的问题!!

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  10. 工具类_java 数字转化为汉字大写

    public class Num2Rmb { private String[] hanArr = { "零", "壹", "贰", &quo ...