今天由于在项目中用到一些与C++混合开发的东西，需要通过socket与C++那边交换数据，没啥特别的，字节码而已，两边确定一种编码规则就行了。我们确定的UTF-8。关于C++的这种又是宽字节又是MessageBoxW 又是MessageBoxA 的，说实话相比C#而言搞的确实非常的和稀泥搞的非常的糊，别说新手有些不是新手的都搞不明白。

字符串字面量怎么被编码成字节的

什么是字符串？C#里的 string？C++里的char* ? 字符串的本质是什么？字符串不过是一个特殊的数据字节包装带有编码信息，特别是C++的更原始更便于我们想清楚这个底层，其实其他的已经迎刃而解了。首先我们无论如何确定一个东西那就是交换的东西是字节码 ,说白了也就是C++ 里的char [ ] 也就是char *，在我不管你编码的情况下我新建VC++项目在代码里这样写：

1 char str1[] = "中a";

2 printf("%s\r\n", str1);

能不能输出东西？能不能输出中文当然能，那这个str1 字节码到底是什么字节码，只要我们把这个搞明白就可以了。一切未知的恐惧源于不明白。我们先调试C++代码取到字节码，然后编写下面这两句C#代码：

1 byte[] bts2 = new byte[] { 0xd6, 0xd0, 0x61 };

2 Console.WriteLine(Encoding.GetEncoding("gb2312").GetString(bts2));

正常输出了C++代码里的中文由此可见C++里默认代码到字节的字面量转换就是gb2312 ，就这样而已。就这样而已，真的就这么点东西，事情不要歪呀歪的想想复杂了。你看C++里是char [ ] 还不像C#的string经过包装的更便于你想明白这个过程。不是说C++有std库么不是有string 么还没讲呢，C++这门语言呢又好又不好设计特点是暴露的细节多各个细节你都可以自己控制让会用的人知道自己在做什么，但是也有些坑，其实string 就是char[] 的变种而已。你看C++里在你琢磨不透的情况下悄然在你不知情编码的情况下转换成了字节码，C#的string 封装的不会给你这个机会有明确的Encoding库调用指定编码。

窄字符和宽字符，怎么个宽法

C++里字符串的字面量分为两种一种是普通的窄字符，也就是普通的char [ ] 一个元素占1字节，另一种是宽字符 wchar_t [ ] 一个元素占2字节，_T("中a") 或者L"中a" 这种就是强行表示Unicode宽字符字面量。宽字符怎么个宽法呢，我们说他是Unicode 也就是utf-16，我们用C#进行验证：

1 byte[] bts3 = new byte[] {  0x2d,0x4e, 0x61,0x00, };

2 Console.WriteLine(Encoding.Unicode.GetString(bts3));

好了，这就明朗了，C++这玩意儿由于历史遗留原因，直接在代码书写字符串字面量搞了两套标准窄字符和宽字符 ,你看上面的同字符里面的字节码整的两套标准这就很扯，整的被迫大多数C++的函数或者接口都要按照这个套路玩。就有了看到的MessageBoxA ()接受char[]窄字符参数,MessageBoxW()接受宽字符参数 ,不要有误区哈觉得char[ ] 就不能输出中文，能不能是由对应的地方能不能解析这个字节码决定的而不是其他。

关于UTF-8

utf-8的现实意义更大于编程的字面量意义，为什么这么说，现在网络数据交换都是UTF-8 编码，C++编程字面量没有所谓UTF-8这个说法，UTF-8是一种落地编码，落地编码懂吗？就像图像编程保存最终格式有.jpg .png,utf-8 他是变长的对于字符串处理会出现很多问题不利于程序处理，图像编程中不管你jpg png格式也好载入到内存中最后都是易于处理的BMP内存映像。编程中都是Unicode因为2字节代表一个字符标标准准的是对齐的，利于编程处理。还有 utf-8 一个中文3字节其实比utf-16 一个中文2字节多，但是如果是英文的话就是1字节可以实现Unicode到ASCII的无缝转换可以处理一些老旧系统的兼容问题。 C++里Unicode可以通过手段转换为UTF-8：

1 void UnicodeToUtf8(const wchar_t* unicode,char  utf82[],int * lenout)

2 {

3     int len;

4     len = WideCharToMultiByte(CP_UTF8, 0, unicode, -1, NULL, 0, NULL, NULL);

5     char szUtf82[50] = { 0 };

6     *lenout = len;

7     WideCharToMultiByte(CP_UTF8, 0, unicode, -1, utf82, len, NULL, NULL);

8

9 }

关于VC++项目属性里的设置字符集

什么意思呢：

当选择“使用Unicode字符集”时，编译器会增加宏定义——UNICODE；而选择“使用多字节字符集”时，编译器则不会增加宏定义——UNICODE。https://blog.csdn.net/huashuolin001/article/details/95620424
当选用“使用Unicode字符集”时，调用函数MessageBox，实际使用的是MessageBoxW，MessageBoxW关于字符串的入参类型是LPCWSTR，使用MessageBox时，字符串前需加L::MessageBox(NULL, L"这是一个测试程序!", L"Title", MB_OK);

基于gb2312和Unicode编码我就不细说了哈，如果你想你的程序能够卖到国外在世界范围内使用，那么请使用Unicode。

最后，一些测试的大杂烩代码：

  1 // ConsoleApplication1.cpp : 定义控制台应用程序的入口点。

  2 //

  3

  4 #include "stdafx.h"

  5 #include <iostream>

  6 #include "h1.h"

  7 #include "FqTabData.h"

  8 #include "test1.h"

  9

 10 #include <windows.h>

 11 #include <string>

 12 #include <iomanip>

 13 #include <type_traits>

 14

 15 using namespace std;

 16

 17

 18 //引用的使用方式

 19 void test1(int &r){

 20     r = r+1;

 21 }

 22

 23 void UnicodeToUtf8(const wchar_t* unicode,char  utf82[],int * lenout)

 24 {

 25     int len;

 26     len = WideCharToMultiByte(CP_UTF8, 0, unicode, -1, NULL, 0, NULL, NULL);

 27     char szUtf82[50] = { 0 };

 28     *lenout = len;

 29     WideCharToMultiByte(CP_UTF8, 0, unicode, -1, utf82, len, NULL, NULL);

 30

 31 }

 32 int _tmain(int argc, _TCHAR* argv[])

 33 {

 34

 35     setlocale(LC_ALL, "");//注意控制台输出要先加上这句哈要不然无法输出中文

 36     wchar_t wstr2[] = L"中a";

 37     wprintf(L"%ls\r\n", wstr2);

 38

 39     char str1[] = "中ab";

 40     printf("%s\r\n", str1);

 41     return 0;

 42     //关于c++里的编码问题

 43     //    并非 不在在项目属性里设置编码字符集 为Unicode 就不能显示中文

 44     //char str11[] = "中a";         printf("%s", str11);

 45     //这段代码照样显示中文,中a被编译器编成3个元素存在str11 里+\0结尾

 46     //当选择“使用Unicode字符集”时，编译器会增加宏定义——UNICODE；而选择“使用多字节字符集”时，编译器则不会增加宏定义——UNICODE。

 47     //https://blog.csdn.net/huashuolin001/article/details/95620424

 48     //当选用“使用Unicode字符集”时，调用函数MessageBox，实际使用的是MessageBoxW，MessageBoxW关于字符串的入参类型是LPCWSTR，

 49     //使用MessageBox时，字符串前需加L

 50     //::MessageBox(NULL, L"这是一个测试程序!", L"Title", MB_OK);

 51

 52     //关于这个L ，等同于_T("")  Tchar 这些玩意儿他们都有同等意义

 53     //可以傻瓜的理解 L 本身就是搞一个宽字符型 字符串 ，每个字符占2字节

 54     //wchar_t ws[] = L"国家";

 55     //设置为Unicode 就意味着宽字符 就意味着字符串 要加L

 56     //就像前面的 好多函数接口有两种版本 MessageBoxA MessageBoxW ，

 57     //MessageBoxW就意味着你要传一个宽字符数组进去 也就是 wchar_t 或者L"dd"

 58

 59     //注意多字节字符集是一个很容易让人费解的玩意儿，

 60     //我们说  utf-8是 一种Unicode的落地编码

 61     //编程里都是用 Unicode 不管项目设没设置Unicode字符集 wchar_t ws[] = L"国家"; 得到的都是宽字符串

 62     //但是编程代码里 没有utf-8 这一说法 utf-8是变长的 也就是多字节   他是一种编码落地

 63     //你想想你整个变长 别人接口怎么写 ，怎么达到在让你用变长省内存的同时 识别你的有效字符

 64     //如果数组里存utf-8 你想想 别人要以字节数读字符 半个的时候怎么搞

 65     //这跟gdi图像处理是同一个道理 jpg png 各种是落地格式都可以读进来 但是到内存都是bmp

 66

 67     //还有不论哪种printf 或者其他接口 都不支持所谓的utf-8的参数 也没这种接口可言

 68     //https://zhuanlan.zhihu.com/p/23190549

 69     //前几天在微博上受到了@Belleve给我的启发，于是简单地实现了几个在 Windows

 70     //下接受 UTF - 8 参数的 printf 系列函数。大致思路是判断当前 stdout / stderr

 71     //是否为控制台，如果是控制台则将参数转为 UTF - 16 后调用 wprintf 输出，否则不转换直接调用 printf。

 72

 73     //L 是一个很微妙的 ，称之为转换为宽字符的字面量  什么叫字面量 根据你当前编程环境 以及源代码编码 转换成对应的字节

 74     //L"发" 字面量 你细品

 75     setlocale(LC_ALL, "");

 76

 77

 78

 79

 80     printf("--------------------");

 81     //wchar_t wc = L'破';

 82     std::wstring wstr = L"破a的";

 83     std::cout << wstr.size() << std::endl;

 84     //utf-8 只是流行 ，事实上utf-8 一个汉字要占3字节  而utf-16一个汉字一字节

 85     /*wchar_t wstr2[] = L"破晓S";

 86     wprintf(L"%ls", wstr2);*/

 87     printf("--------------------//");

 88

 89     char utf82[50] = { 0 };

 90     int len = 0;

 91     UnicodeToUtf8(wstr2, utf82, &len);

 92     //char* str222 = UnicodeToUtf8(wstr2);

 93     //printf("%S", str222);

 94     //printf("aaa");

 95     return 0;

 96     //

 97     //c++ 中指针的变种  引用的使用方式

 98     printf("aaa\r\n");

 99

100     int a = 123;

101     int& b = a;

102     a = 456;

103     printf("%d \r\n", b);

104

105     test1(b);

106     printf("%d \r\n", b);

107

108     int c = 345;

109     test1(c);

110     printf("%d \r\n", c);

111     return 0;

112 }

C++中的字符串编码处理的更多相关文章

Mapreduce中的字符串编码
Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序.如果对每一个数据的比较都需要先反序列化,对性能影响极大. RawComparator的作用就不言而喻,能够直接 ...
使用自己的Python函数处理Protobuf中的字符串编码
我目前所在的项目是一个老项目,里面的字符串编码有点乱,数据库中有些是GB2312,有些是UTF8:代码中有些是GBK,有些是UTF8,代码中转来转去,经常是不太清楚当前这个字符串是什么编码,由于是老项 ...
关于python中的字符串编码理解
python2.x 中中间编码为unicode,一个字符串需要decode为unicode,再encode为其它编码格式(gbk.utf8等) 以gbk转utf8为例: s = "我是字符串 ...
javascript中的字符串编码、字符串方法详解
js中的字符串是一种类数组,采用UTF-16编码的Unicode字符集,意味字符串的每个字符可用下标方式获取,而每个字符串在内存中都是一个16位值组成的序列.js对字符串的各项操作均是在对16位值进行 ...
Python2和Python3中的字符串编码问题解决
Python2和Python3在字符串编码上是有明显的区别. 在Python2中,字符串无法完全地支持国际字符集和Unicode编码.为了解决这种限制,Python2对Unicode数据使用了单独的字 ...
python中的字符串编码问题——1.理解编码和解码问题
理解编码与解码(python2.7):1)编码是根据一个想要的编码名称,把一个字符串翻译为其原始字节形式.>>> u_str=u'字符串编码aabbbcccddd'>> ...
JavaScript中有对字符串编码的三个函数：escape,encodeURI,encodeURIComponent
JavaScript中有三个可以对字符串编码的函数,分别是: escape,encodeURI,encodeURIComponent,相应3个解码函数:unescape,decodeURI,decod ...
Python3中转换字符串编码
在使用subprocess调用Windows命令时,遇到了字符串不显示中文的问题,源码如下:#-*-coding:utf-8-*-__author__ = '$USER' #-*-coding:utf ...
Code::Blocks开发中的字符串编码错误
刚开始使用Code::Blocks开发Windows中文应用程序的朋友们,如果在代码中使用了中文字符串,编译时可能遇到过Illegal byte sequence或Failure to convert ...
python中的字符串编码问题——4.unicode编解码（以实际工作中遇到的韩文编码为例）
韩文unicode编解码问题是这样,工作中遇到有韩文数据出现乱码,说是unicode码. 类似这样: id name 323 52186863 149 63637538 314 65516863 ...

随机推荐

1.1 [zabbix5.4]-部署
一.从容器安装 1.0 官网 https://www.zabbix.com/documentation/5.0/zh/manual/installation/containers # 官方文档 h ...
一文带你了解 JS Module 的始末
写在前面模块化开发是我们日常工作潜移默化中用到的基本技能,发展至今非常地简洁方便,但开发者们(指我自己)却很少能清晰透彻地说出它的发展背景, 发展过程以及各个规范之间的区别.故笔者决定一探乾坤,深入 ...
Java面试——架构设计与分布式
更多内容,移步 IT-BLOG 一.用 Java 自己实现一个 LRU LRU(Least Recently Used:最近最少使用):简单的说,就是保证基本的 Cache容量,如果超过容量则必须丢掉 ...
SpringBoot——配置嵌入式 Servlet容器
更多内容,前往 IT-BLOG 一.如何定制和修改Servlet容器的相关配置前言:SpringBoot 在Web 环境下,默认使用的是 Tomact 作为嵌入式的 Servlet容器: [1]修 ...
【故障公告】数据库服务器 CPU 近 100% 造成全站故障，雪上加霜难上加难的三月
数据库服务器 CPU 近 100% 问题几乎每年都要发生一次,上次发生在去年1月31日,每次都是通过主备切换或者重启实例解决,数据库服务用的是阿里云 RDS SQL Server 2016 标准版. ...
C++类的构造函数、析构函数、拷贝构造函数、赋值函数和移动构造函数详细总结
目录 1. 五种函数介绍 2. 左值&右值怎么区分?怎么看? 3. 匿名对象的3种使用情况 4. 代码详细验证每个函数调用情况 4.1 测试 f_1 函数(函数形参测试 -- 值传递) 4.2 ...
TypeScript 学习总结
TypeScript JavaScript 语言面向对象编程语言面向脚本编程是否支持可选参数支持不支持是否支持静态类型支持不支持是否支持接口支持不支持 TS:是JS的超集,即对J ...
容器云平台监控告警体系（三）—— 使用Prometheus Operator部署并管理Prometheus Server
1.概述 Prometheus Operator是一种基于Kubernetes的应用程序,用于管理Prometheus实例和相关的监控组件.它是由CoreOS开发的开源工具,旨在简化Prometheu ...
《爆肝整理》保姆级系列教程-玩转Charles抓包神器教程(13)-Charles如何进行Mock和接口测试
1.简介 Charles最大的优势在于抓包分析,而且我们大部分使用的功能也在抓包的功能上,但是不要忘记了,Charles也可以做接口测试.至于Mock,其实在修改请求和响应数据哪里就已经介绍了,宏哥就 ...
一些随笔 No.2
数据库单表VS多表联合多表联合查询的优势区域在于敏捷开发,主要用于过于庞大却可拆分的储存需求但是劣势也很明显:更多的查询约束条件会用掉数据库服务器额外的cpu/内存/io,也不方便更未来的分布式 ...

C++中的字符串编码处理

字符串字面量怎么被编码成字节的

窄字符和宽字符 ，怎么个宽法

关于VC++项目属性里的设置字符集

C++中的字符串编码处理的更多相关文章

随机推荐

热门专题

窄字符和宽字符，怎么个宽法