描述 The Unicode 字符集使用的是 16 位(双字节)码.最普遍的 Unicode 编码方法( UCS-2) 由一个 16 位双字序列组成.这样的字符串中包括了的一些如‘\0’或‘/’这样的在文件名中或者是在 C 库函数中具有特殊意义的字符.另外,如果没有做重大的修正的话,大部分操作 ASCII 码文件的 UNIX 工具不能够正确识别 16 位的字符.因此, UCS-2 对于 Unicode 的文件名.文本文件.环境变量等等来说并不是一种合适的外部编码方式. ISO 10646 Uni…
1.各种编码的由来 1.1.计算机编码的由来 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.所以只能是用一些数字来表示文本,这就是编码的由来.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节.比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295. 1.2.ASCII 编码 由于计算机是美…
转载: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的"另存为",可以在GBK.Unicode.Unicode big endian和UTF-8这几种编码方式间相互转换.同样是txt文件,Windows是怎样识别编码方式的呢? 我很早前就发现Unicode.Unicode…
这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK.Unicode.Unicode big endian和UTF-8这几种编码方式间相互转换.同样是txt文件,Windows是怎样识别编码方式的呢? 我很早前就发现Unicode.Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF.FE(…
http://blog.csdn.net/longintchar/article/details/51079340 ******************************************** 字符编码的故事:ASCII,GB2312,Unicode,UTF-8,UTF-16 由于好奇,我非常想搞清楚关于字符编码的疑惑.比如Unicode,UTF-8,UTF-16,以及有BOM,无BOM之前的区别和联系.参考了很多资料后,我终于初步理解了.在这里总结成博文,希望对读者有所帮助.如果有…
前几天,Google给我Hotmail邮箱发了封确认信.我看不懂,不是因为我英文不行,而是"???? ????? ??? ????"的内容让我不知所措.有好多程序员处理不好编码问题.不是因为他们学不会,而是因为他们太保守或太不以为然了!我想说,初级程序员需要积累更多 的计算机高级知识:高级程序员需要了解更多的底层知识.  那么Content-Type标记到底有什么作用?UTF-8与Unicode到底有何关系?…………现在我们就一起来揭开编码那神奇的面纱! 从ASCII编码谈起:  我们…
(转载 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为”,可以在GBK.Unicode.Unicode big endian和UTF-8这几种编码方式间相互转换.同样是txt文件,Windows是怎样识别编码方式的呢? 我很早前就发现Unicode.Unicode big e…
http://www.imkevinyang.com/2009/02/字符编解码的故事(ascii,ansi,unicode,utf-8区别).html 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机"…
1. 多字节字符与单字节字符 char与wchar_t 我们知道C++基本数据类型中表示字符的有两种:char.wchar_t.  char叫多字节字符,一个char占一个字节,之所以叫多字节字符是因为它表示一个字时可能是一个字节也可能是多个字节.一个英文字符(如’s’)用一个char(一个字节)表示,一个中文汉字(如’中’)用3个char(三个字节)表示. wchar_t被称为宽字符,一个wchar_t占2个字节.之所以叫宽字符是因为所有的字都要用两个字节(即一个wchar_t)来表示,不管是…
Windows 既可以使用 Unicode 字符集又可以使用传统的字符集(如多字节编码)来实现对多种语言的支持,以适应国际市场的要求.与传统的字符集编码相比,Unicode 是世界通用的字符编码标准,使用 16 位数据表示一个字符,一共可以表示 65535 种字符,可以包括现代计算机中所使用的所有字符,包括各种字母.文字.在出版业中使用的特殊符号等. ANSI编码: 1.每种 ANSI 字符集只规定自己国家或地区使用的语言所需的'字符',比如简体中文编码标准 GB-2312 的字符集中就不会包含…