小心Windows7的UTF-8代码页
目录
第1章小心Windows7的UTF-8代码页
1.1 UTF-16与UTF-8相互转换
发现Windows7的UTF-8代码页有问题的根源就在于UTF-16与UTF-8的相互转换。
1.1.1 使用Windows API
使用Windows API,可以实现UTF-16编码与UTF-8编码的相互转换,如下面的代码:
|
char a1[128]; wchar_t w = 0; int n1 = 0; wchar_t w1[128]; int m1 = 0; n1 = WideCharToMultiByte(CP_UTF8,0,&w,1,a1,128,NULL,NULL); m1 = MultiByteToWideChar(CP_UTF8,0,a1,n1,w1,128); |
WideCharToMultiByte把UTF-16编码转换为UTF-8编码;
MultiByteToWideChar把UTF-8编码转换为UTF-16编码。
API函数WideCharToMultiByte和MultiByteToWideChar能够正常工作的前提是:Windows系统已经安装了UTF-8代码页。Windows XP、Windows 7默认已经安装了UTF-8代码页,因此不用太担心。Windows Mobile系统就有些麻烦了:有些Windows Mobile安装了UTF-8代码页,而有些没有。所以,为了程序在所有Mobile设备上正常运行,是不能使用WideCharToMultiByte和MultiByteToWideChar的。
1.1.2 自己编码
UTF-16与UTF-8的相互转换,不能使用WideCharToMultiByte和MultiByteToWideChar,怎么办?所幸的是:UTF-16与UTF-8的相互转换是有严格的转换关系的。本文不做这方面的论述,直接上VC++代码:
|
/*******************************************************************\ 将 UTF16 字符串转换为 UTF8 字符串 pUTF16 [in] UTF16 字符串首地址 nLen16 [in] UTF16 字符串字符数,小于 0 表示以 \0 结尾 pUTF8 [out] UTF8 字符串首地址,可以为 NULL 返回:转换的 UTF8 字符个数 \*******************************************************************/ long UTF16to8(const wchar_t*pUTF16,long nLen16,char*pUTF8) { long nLen8 = 0; if(pUTF16) { if(nLen16 < 0) { nLen16 = wcslen(pUTF16) + 1; } } else { nLen16 = 0; } if(nLen16 > 0) { long i = 0; wchar_t u = 0; for(i = 0;i < nLen16;++i) { u = pUTF16[i]; if(u <= 0x7F) { if(pUTF8) { *pUTF8++ = (char)u; } ++nLen8; } else if(u <= 0x7FF) { if(pUTF8) {//110xxxxx 10xxxxxx pUTF8[1] = (char)(u & 0x3F | 0x80); u >>= 6; pUTF8[0] = (char)(u & 0x1F | 0xC0); pUTF8 += 2; } nLen8 += 2; } else { if(pUTF8) {//1110xxxx 10xxxxxx 10xxxxxx pUTF8[2] = (char)(u & 0x3F | 0x80); u >>= 6; pUTF8[1] = (char)(u & 0x3F | 0x80); u >>= 6; pUTF8[0] = (char)(u & 0x0F | 0xE0); pUTF8 += 3; } nLen8 += 3; } } } return nLen8; } /*******************************************************************\ 将 UTF8 字符串转换为 UTF16 字符串 pUTF8 [in] UTF8 字符串首地址 nLen8 [in] UTF8 字符串字符数,小于 0 表示以 \0 结尾 pUTF16 [out] UTF16 字符串首地址,可以为 NULL 返回:转换的 UTF16 字符个数 \*******************************************************************/ long UTF8to16(const char*pUTF8,long nLen8,wchar_t*pUTF16) { long nLen16 = 0; if(pUTF8) { if(nLen8 < 0) { nLen8 = strlen(pUTF8) + 1; } } else { nLen8 = 0; } if(nLen8 > 0) { long i = 0; unsigned char u = 0; for(i = 0;i < nLen8;) { u = pUTF8[i]; if(u >= 0xE0) { if(pUTF16) { *pUTF16++ = (pUTF8[i] & 0x0f) << 12 | (pUTF8[i + 1] & 0x3f) << 6 | (pUTF8[i + 2] & 0x3f); } i += 3; } else if(u >= 0xC0) { if(pUTF16) { *pUTF16++ = (pUTF8[i] & 0x1f) << 6 | (pUTF8[i + 1] & 0x3f); } i += 2; } else { if(pUTF16) { *pUTF16++ = u; } ++i; } ++nLen16; } } return nLen16; } |
1.2 测试代码
自己编写的代码在使用前,那是要测试的。下面就是测试代码。其实就是与WideCharToMultiByte和MultiByteToWideChar进行比较:
|
void Test() { char a1[128]; char a2[128]; wchar_t w; int n1 = 0; int n2 = 0; wchar_t w1[128]; wchar_t w2[128]; int m1 = 0; int m2 = 0; for(long i = 0;i <= 0xFFFF;++i) { w = (wchar_t)i; n1 = WideCharToMultiByte(CP_UTF8,0,&w,1,a1,128,NULL,NULL); m1 = MultiByteToWideChar(CP_UTF8,0,a1,n1,w1,128); if(m1 != 1 && w1[0] != w) {//WideCharToMultiByte与MultiByteToWideChar相互转换有问题 TRACE(_T("WideCharToMultiByte,MultiByteToWideChar=%04X\n"),w); } n2 = UTF16to8(&w,1,a2); m2 = UTF8to16(a2,n2,w2); if(m2 != 1 && w2[0] != w) {//UTF16to8与UTF8to16相互转换有问题 TRACE(_T("UTF16to8,UTF8to16=%04X\n"),w); } if(n1 != n2 || memcmp(a1,a2,n1)) {//UTF16to8与WideCharToMultiByte有出入 TRACE(_T("WideCharToMultiByte,UTF16to8=%04X\n"),w); } } } |
1.3 测试结果
测试结果是:
1、在Windows XP下一切正常;
2、在Windows 7(64位旗舰版)下出问题了:当w在0xD800~0xD98A之间时,UTF16to8与WideCharToMultiByte的转换结果不一致!
笔者相信自己的代码,同时又有Windows XP的证明,最终得出的结论就是:Windows7的UTF-8代码页有问题!
还好,0xD800~0xD98A的395个字符并不是很常用,否则Windows7保存的UTF-8文件到了Windows XP或Linux下显示出乱码,问题就严重了。
解决方案:UTF-16与UTF-8编码的相互转换,还是自己编码实现吧。
小心Windows7的UTF-8代码页的更多相关文章
- CodePage------Encoding 类支持的编码以及与这些编码关联的代码页(CodePage)
Encoding 类 .NET Framework 4 表示字符编码. 继承层次结构 System.Object System.Text.Encoding System.Text.ASCII ...
- 刨根究底字符编码之七——ANSI编码与代码页(Code Page)
ANSI编码与代码页(Code Page) 一.ANSI编码 1. 如前所述,在全世界所有国家和民族的文字符号统一编码的Unicode编码方案问世之前,各个国家.民族为了用计算机记录并显示自己的字符, ...
- CMD代码页
不同字符编码在CMD模式下会出现乱码,需要使用 chcp 代码页 命令来更改代码页显示正常. UTF-8 65001 简体中文 936 437 美国 850 多语 ...
- 解决“在多字节的目标代码页中,没有此Unicode字符可以映射到的字符”
今天在处理Google网站管理员中的500错误时发现这样一些URL: http://www.cnblogs.com/Garnai/tag/3D%3F%96%CA/ http://www.cnblogs ...
- Windows代码页、区域
目录 第1章代码页 1 1 代码页 1 1.1 单字节字符集 1 1.2 双字节字符集 1 1.3 多字节字符集 1 1.4 ANSI代码页 2 2 枚举代码页 ...
- 更改cmd代码页,修正语言显示
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 rem 英文 chcp 437 rem 日文 chcp 932 rem 简体中文 chcp 936 re ...
- warning C4819: 该文件包含不能在当前代码页(936)中表示的字符。请将该文件保存为 Unicode 格式以防止数据丢失
bug来源: 一直在看sift然后就手贱的给 opencv源码做注释,如果在vs里面打开会一直相安无事,但是问题出在我用了notepad++. 这样就报了标题的错误. 因为notepad++会以uni ...
- Visual Studio在页面按F7不能跳转至cs代码页的解决方法
检查页面Page设置内的CodeBehind属性,看是否与代码页的文件名相同,不同则改正,问题得以解决.
- warning: C4819: 该文件包含不能在当前代码页(936)中表示的字符。请将该文件保存为 Unicode 格式以防止数据丢失
------问题-------------------- Qt项目使用 VC++ 编译器出现此错误. warning: C4819: 该文件包含不能在当前代码页(936)中表示的字符.请将该文件保存为 ...
随机推荐
- JAVA线程池的创建
/** * 创建不同类型的线程池 Executors * * @author */ public class ThreadPoolTest01 { public static void main(St ...
- LYK 与实验室
LYK 与实验室(lab)Time Limit:5000ms Memory Limit:64MB[题目描述] LYK 在一幢大楼里,这幢大楼共有 n 层,LYK 初始时在第 a 层上.这幢大楼有一个秘 ...
- CSocket服务器(TCP)
我的理解:把服务器和客户端的交互工程比喻成外来人员访问公司,每来一个客户端访问,需要服务器的前台经理接待此客户,然后前台经理呼叫一个接待员来将客户带上楼.服务器的两个角色前台经理和接待员就是服务器的两 ...
- Python3基础 逻辑与 and
镇场诗:---大梦谁觉,水月中建博客.百千磨难,才知世事无常.---今持佛语,技术无量愿学.愿尽所学,铸一良心博客.------------------------------------------ ...
- Python3基础 三元表达式实例
镇场诗:---大梦谁觉,水月中建博客.百千磨难,才知世事无常.---今持佛语,技术无量愿学.愿尽所学,铸一良心博客.------------------------------------------ ...
- 求数组中的最小子数组,时间复杂度o(n),java
石家庄铁道大学 信1405-1 班 唐炳辉 题目:给定一个整数数组,找到一个具有最小和的子数组.返回其最小和. 设计思路:两个变量 ,一个记录当前并入的数组的值,另外一个记录所算过得最大的数组的值,当 ...
- .NetDOM操作--un
DOM操作操作相关元素:里:children(),find("选择器")外:parent(),parents("选择器")下:next(),nextAll(选择 ...
- 【leetcode❤python】101. Symmetric Tree
#-*- coding: UTF-8 -*-# Definition for a binary tree node.# class TreeNode(object):# def __init_ ...
- TCP/IP协议简介
计算机网络是什么? 简单地理解,计算机网络的任务就是传输数据.为了完成这一复杂的任务,国际标准化组织ISO提供了OSI参考模型,这种模型把互联网网络氛围7层,分别是物理层.数据链路层.网络层.传输层. ...
- Linux TOP命令详解
先来看一下执行以后的结果: 各项数值的含义如下: 第一行是任务队列信息. :: 当前时间 up days,: 系统运行时间,格式为天,时:分 user 当前登录用户数 load average: 0. ...