C++ 字符串的编码

转载链接：https://www.cnblogs.com/akb48/p/5439154.html

windows平台　　

　　　　　　　　char 表示单字符，占用一个字节

　　　　　　　　wchar_t 表示宽字符，占用两个字节

Linux平台　　　

　　　　　　　　char 占用一个字节
　　　　　　　　wchar_t 占用四个字节

windows平台下对于用字符串保存中文的问题，GBK和UTF8都是用char来表示，只是为了表示一个中文字符需要用到多个char。而对于UNICODE（其实应该说是UFT16），每一个字符都需要一个两个字节，也就是用wchar_t表示。

UNICODE只是一个字符集，规定了不同的字符对应于一个唯一的整数，平时所说的使用UNICODE编码其实说的是UFT16编码（顾名思义就是用16位来表示一个字符）。

UTF8、UTF16和UFT32则是基于UNICODE字符集的三种编码方式。不同之处是：对于一个字符所对应的整数，应该怎样用二进制位表示出来。对于UTF16和UTF32，不管字符对应的数字是多少，都用恒定的多字节表示，所以可以很方便的表示一个字符，但需要注意字节序问题。比较麻烦的是UFT8，对于不同的字符，可能会用到一个字节，两个字节到最多六个字节。这么做的好处是节省了空间。

在实际使用字符串保存时，因为UTF16不管什么字符，都用2个字节表示，所以可能会出现某一个字节全零的情况。例如字符‘A’编码是0x41，用UTF16表示就是0x0041。对于char表示的字符串，以0x00表示结尾，所以没有办法正确的存储此类数据，此时只能用wchar_t来保存。

UTF8编码方式如下：用1~6个字节存储一个字符，当第一个字节的首位为0时，表示这个字符只用一个字节表示（刚好与ASCII码一一对应），当用多字节表示一个字符时，首字节以连续的多个1和一个0开始，表示用多个字节。例如用3个字节是，首字节为1110xxxx，后面各字节均以10开始。

UNICODE原码（16进制） UTF8（2进制）
0000-007F 0xxxxxxx
0080-07FF 110xxxxx 10xxxxxx
0800-FFFF 1110xxxx 10xxxxxx 10xxxxxx
......

如上所示，UTF8中的‘x’就是实际表示字符编码的位。表示的最大值就是全1的情况，最小值就是少一个字节的情况下最大值加1，因为少一个字节已经可以存的下的字符，不会用多一个字节来保存。由上可知，UTF8可以直接用char类型的字符串来表示，只是用对应的解释方式来解释就可以正确显示了。

另外一种就是GBK等编码方式。这一类编码方式和UNICODE没有任何关系，是另一种字符集和编码方式的规定。使用方法可以类比于UTF8，在编码小于128时，就是ASCII，而中文的编码均大于128，用超过一个字节来表示。在平时编写的windows程序中，可以理解为如果使用了UNICODE宏，就是在用wchar_t来表示中文，使用UTF16编码，如果没有UNICODE宏，那么就是在用GBK，以char来表示中文。

windows平台下的TCHAR类型就是通过宏对char和wchar_t的封装。可根据当前平台情况选择对应的类型。_T修饰的字符串常量同理，根据是否定义的UNICODE宏，分别表示""或L""。

Linux平台的不同在于，wchar_t用4个字节表示，也就是UCS-4，而windows用两个字节，UCS-2。

C++ 字符串的编码的更多相关文章

Python字符串的编码与解码(encode与decode)
首先要搞清楚,字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unico ...
python基础——字符串和编码
python基础——字符串和编码字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用 ...
中文字符串的编码转换(c实现)
中文字符串在c/c++中表示为字节序列,在分词的时候需要根据不同的编码方式进行分词,一般分词器需要转换成统一的编码方式再进行转换,有些分词器如ICTCLAS在分词的时候可以不显示定义编码方式,可以检测 ...
java转换字符串的编码(转)
package com.Alex.base; import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class C ...
python入门（9）字符串和编码
python入门(9)字符串和编码字符串是一种数据类型,比较特殊的是字符串有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理. 最早的计算机在设计时采用8个比 ...
python笔记二（数据类型和变量、编码方式、字符串的编码、字符串的格式化）
一.数据类型 python可以直接处理的数据类型有:整数.浮点数.字符串.布尔值.空值. 整数浮点数字符串:双引号内嵌套单引号,可以输出 i'm ok. 也可以用\来实现,\n 换行 \t tab ...
python基础——字符串、编码、格式化
1.三种编码:ascii Unicode utf8 2.字符串和编码数字的两个函数:ord(字符转数字ord(‘A’)=65)和 chr(数字转字符chr(65)=A) 3.bytes存储编码,记住两 ...
c# 对html字符串进行编码
/// <summary> /// 对html字符串进行编码 /// </summary> /// <param name="html">htm ...
python教程1:Python基础之数据类型和变量、字符串和编码
视频链接:http://www.bilibili.com/video/av10730372/ 我是在Linux下玩python的,Linux下默认安装python,直接打个pyhon3就好了,pyth ...
JavaScript escape() unescape() decodeURI()函数对字符串进行编码解码
定义和用法 escape() 函数可对字符串进行编码,这样就可以在所有的计算机上读取该字符串. 语法 escape(string) 参数描述 string 必需.要被转义或编码的字符串. 返回值已 ...

随机推荐

MT【7】伯努利不等式
评:伯努利不等式: 若$r\le0$或者$r\ge1$,$(1+x)^r\ge1+rx$, 若$0\le r\le1$,$(1+x)^r\le1+rx$
LOJ #2721. 「NOI2018」屠龙勇士（set + exgcd）
题意 LOJ #2721. 「NOI2018」屠龙勇士题解首先假设每条龙都可以打死,每次拿到的剑攻击力为 $ATK$ . 这个需要支持每次插入一个数,查找比一个 $\le$ 数最大的数(或 ...
luogu1712 区间 (尺取法+线段树)
先把区间按照长度从小到大排序,然后用尺取法来做大概就是先一点一点把区间算上直到某个点被覆盖了m次,然后一点一点把最前面的区间扔掉,直到没有点被覆盖m次,这样反复做(相当于是它选择的区间左右端点在那 ...
Qt程序ibus输入法不跟随
在Qt程序中ibus框架的输入法无法跟随光标所在的位置,会出现如图所示的效果. 解决方法安装qt4-qtconfig和ibus-qt4. 运行qtconfig,在界面-XIM输入风格中,选择光标跟随 ...
HDU 3081 Marriage Match II (网络流,最大流,二分,并查集)
HDU 3081 Marriage Match II (网络流,最大流,二分,并查集) Description Presumably, you all have known the question ...
CF520E Pluses everywhere
题目大意给定一个 n 位的十进制数,可以在数字之间加 k 个' + ',得到一个式子,求每种方案的这个式子的和分析: 容易想到将式子的和转化为每个数字的贡献值之和. 设数组a为:a(n-1),a( ...
02-css的选择器
css的选择器:1.基本选择器 2.高级选择器基本选择器包含: 1.标签选择器标签选择器可以选中所有的标签元素,比如div,ul,li ,p等等,不管标签藏的多深,都能选中,选中的是所有的,而不是 ...
ADO.NET入门教程（五）细说数据库连接池
摘要今天我要讲的是数据库连接池.说实话,我表示鸭梨很大.因为相比其他章节来说,连接池相对来说难理解一点.我要用最通俗的语句给大家讲明白,讲透彻却也不是一件很容易的事.但是,连接池又是非常重要的知识点 ...
虚拟机下安装ubuntu后root密码登录失败的问题
问题描述: 在虚拟机下安装了ubuntu中要输入用户名,一般情况下大家都会输入一个自己的网名或绰号之类的,密码也在这时设置过了. 但是当安装成功之后,使用命令#su root,然后输入刚才设置的密码, ...
Tomcat服务启动成功，但访问index.jsp出错 (jspInit)【转】
本文引用自 --> http://zhouhaitao.iteye.com/blog/1164736 Tomcat服务启动成功,但访问index.jsp出错环境:Tomcat6 + jdk6 ...

C++ 字符串的编码

C++ 字符串的编码的更多相关文章

随机推荐

热门专题