最近遇到中文路径访问的问题,又重新学习了一遍ansi与Unicode的知识,博文记录下来以供后续参考。

ANSI 编码

ANSI一种字符代码,为使计算机支持更多语 言,通常使用0x80~0xFF 范围的2 个字节来表示1 个字符。不同的国家和地区制定了不同的标准,由此产生了GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。 这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称为ANSI 编码。

 

关于MBCS字符集(Multi Byte Character System):GB2312、GBK等编码被称为MBCS,MBCS同ASCII是完全兼容的。对于前ASCII的128个字符,在MBCS字符集下有完全相同的编码,而汉字等字符用多个字节存储。也意味着MBCS下,字符的长度有可能有1个字节的,也有多个字节的。

所以ANSI编码其实是一个统称,不同的语言使用不同的编码规范,并没有跨语言统一编码。比如 windows7 notepad记事本保存的时候,在弹出对话框的下方有“编码”下拉框,默认是“ANSI”,也可以选择“Unicode”(其实是UTF-16)和 “UTF-8”。如果选择了ANSI,那么实际使用的编码规范就跟你的操作系统版本强相关了,如果是简体中文的windows就会用GBK标准。

Unicode编码

就是把地球上所有的语言的符号,都用统一的字符集来表示,一个编码真正做到了唯一。Unicode只是确定了字符的二进制编码,但并没有确定字符存储的具体实现方式。比如UTF-8 ,UTF16是常见的Unicode实现方式。

UTF-8编码是变长的,一个字符可能是1个字节,2个字节,3个字节或者4个字节长。一般来说,欧洲的字母字符长度为1到2个字节,而亚洲的大部分字符则是3个字节,附加字符为4个字节长。Unix平台中普遍支持UTF-8字符集,HTML和大多数浏览器也支持UTF-8。

UTF-16编码的字符,要么是2个字节,要么是4个字节表示的。windows2000以上版本使用UTF-16,老版本windows用的ANSI。

VC下的格式转换

ANSI字符串转Unicode(windows下对应UTF-16编码)
在vc工程选择unicode编译的情况下,如果是字符串常量可以直接使用L和_T or _TEXT宏,也可以使用wsprintf函数进行转换(需要引用Windows.h)。

    TCHAR szW[];  
    //all strings are Unicode  
    swprintf(szW,L"%s",L"Unicode Str中文");  
    CString name = _T("Report.txt");  
      
    //ANSI to Unicode,wsprintf可以直接用,使用大写的%S  
    //注意swprintf函数是不行的,据说要先加setlocale(LC_CTYPE, "chs")语句  
    wsprintfW(szW,L"%S","Unicode Str中文"); 
如果是字符串变量,使用ATL 提供的字符转换宏会比较方便,也可以使用wsprintf函数。
    char buff[];  
    //获取工作目录的路径,ANSI编码,路径中的中文字符占用2个字节  
    std::string s_currPath = _getcwd(buff,);  
      
    TCHAR szW[];  
    USES_CONVERSION;  
    //注意使用A2W宏,不可直接调用swprintf_s(szW,512,L"%S",...)  
    swprintf_s(szW,,L"%s",A2W(s_currPath.c_str()));  
    //wsprintf可以直接使用
    wsprintfW(szW,L"%S",s_currPath.c_str()); 
Unicode转ANSI
和上面类似,使用ATL的宏W2A即可。或者使用wsprintfA(sA, "%S", L"中文"),其中sA是char数组。
另外,转换还可以使用功能更强大的WideCharToMultiByte函数和MultiByteToWideChar函数。
C++11与Unicode
C++11对Unicode提供了语言级别和库级别的支持,可以进行Unicode下不同编码方式的转换,我也没玩过,可以参考这篇blog:

ANSI与Unicode的转换的更多相关文章

  1. Ansi 与 Unicode 字符串类型的互相转换

    WideCharToMultiByte 实现宽字节转换到窄字节MultiByteToWideChar 实现窄字节转换到宽字节 WideCharToMultiByte 的代码页用来标记与新转换的字符串相 ...

  2. Ansi、Unicode、UTF8字符串之间的转换和写入文本文件

    转载请注明出处http://www.cppblog.com/greatws/archive/2008/08/31/60546.html 最近有人问我关于这个的问题,就此写一篇blog Ansi字符串我 ...

  3. 从Java String实例来理解ANSI、Unicode、BMP、UTF等编码概念

    转(http://www.codeceo.com/article/java-string-ansi-unicode-bmp-utf.html#0-tsina-1-10971-397232819ff9a ...

  4. unicode,ansi,utf-8,unicode big endian编码的区别

    知乎--http://www.zhihu.com/question/23374078 http://wenku.baidu.com/view/cb9fe505cc17552707220865.html ...

  5. 关于ASCII、GB231、GBK、UTF-8/UTF8、ANSI、unicode的学习笔记

    继续上次的学习内容,写一些自己学习的笔记吧!总是觉得没有笔记的学习总是不那么踏实,我承认自己是个记忆力很差的人,特别羡慕那些可以把自己学过的东西记得很牢靠的人.哎!可惜我不是,那只能做出来点东西,就算 ...

  6. 关于ANSI 和 Unicode

    关于ANSI和Unicode 1.ANSI American National Standards Institute(美国国家标准学会),ANSI编码不是一种具体的编码方式,而是一种指定在某些环境下 ...

  7. 字符编码的故事(ASCII,ANSI,Unicode,Utf-8区别)转载

    http://www.imkevinyang.com/2009/02/字符编解码的故事(ascii,ansi,unicode,utf-8区别).html 很久很久以前,有一群人,他们决定用8个可以开合 ...

  8. 《windows核心编程系列》二谈谈ANSI和Unicode字符集 .

    http://blog.csdn.net/ithzhang/article/details/7916732转载请注明出处!! 第二章:字符和字符串处理 使用vc编程时项目-->属性-->常 ...

  9. 多字符集(ANSI)和UNICODE及字符串处理方式准则

    在我们编写程序的时候,使用最多的是字符串的处理,而ANSI和UNICODE的相互转换经常搞的我们头晕眼乱. 应该说UNICODE是一种比较好的编码方式,在我们的程序中应该尽量使用UNICODE编码方式 ...

随机推荐

  1. BZOJ 1492 [NOI2007]货币兑换Cash:斜率优化dp + cdq分治

    传送门 题意 初始时你有 $ s $ 元,接下来有 $ n $ 天. 在第 $ i $ 天,A券的价值为 $ A[i] $ ,B券的价值为 $ B[i] $ . 在第 $ i $ 天,你可以进行两种操 ...

  2. Windows系统变量列表

    %ALLUSERSPROFILE% : 列出所有用户Profile文件位置. %APPDATA% :  列出应用程序数据的默认存放位置. %CD% :  列出当前目录. %CLIENTNAME% :  ...

  3. mac用ssh连接linux云服务器中文乱码或无法显示解决

    问题1:服务器是ubuntu16.04,用mac自带的ssh连接后无法正常输入中文? 解:这种情况一般是终端和服务器的字符集不匹配,MacOSX下默认的是utf8字符集. 打开编辑 .bashrc 文 ...

  4. linux下如何上传和下载文件

    一. 安装工具包rz及sz lrzsz是一个unix通信套件提供的X,Y,和ZModem文件传输协议,可以用在windows与linux 系统之间的文件传输,体积小速度快 yum install -y ...

  5. zzuli 2172 队列优化dp

    2172: GJJ的日常之购物 Time Limit: 3 Sec  Memory Limit: 128 MBSubmit: 9  Solved: 8 SubmitStatusWeb Board De ...

  6. Matplotlib -多组线用不同的线性、颜色、节点绘制

    先来看看我们要实现的效果图吧: 先来看看Matplotlib的plot函数原型 plt.plot(x, y, color='r', maker='o', linestyle='-', linewidt ...

  7. 再论typedef

    typedef 定义(或者叫重命名)类型而不是变量 1.类型是一个数据模板,变量是一个实在的数据.类型是不占内存的,而变量是占内存的. 2.面向对象的语言中:类型的类class,变量就是对象. #in ...

  8. LeetCode OJ:Divide Two Integers(两数相除)

    Divide two integers without using multiplication, division and mod operator. If it is overflow, retu ...

  9. Mac os x 下配置Intellij IDEA + Tomcat 出现权限问题的解决办法

    出现的错误提示如下: 下午9:11:27 All files are up-to-date下午9:11:27 All files are up-to-date下午9:11:27 Error runni ...

  10. Win 10 +python3.5 之sklearn 的安装

    一.文件下载 1.sklearn 需要在 numpy+mkl  安装之后和scipy 安装之后才可以安装. 2.scipy 在numpy+mkl安装之后才可以安装. 因此,三个软件的安装顺序是:num ...