std::wstring ws=L"kkkk";    int il=ws.length();    int ia=sizeof(ws);    int ib=sizeof("dddd");    int ic=sizeof(L"kkkk");输出为    il=4,ia=32,ib=5,ic=10为什么ia=32 ?wstring到底对L"kkkk"做了什么? http://www.debugease.com/vc/2171…
彻底解密C++宽字符(一) 转:http://club.topsage.com/thread-2227977-1-1.html 1.从char到wchar_t “这个问题比你想象中复杂” 从字符到整数 char 是一种整数类型,这句话的含义是,char所能表示的字符在C/C++中都是整数类型.好,接下来,很多文章就会举出一个典型例子,比如,'a'的数值就是0x61.这种说法对吗?如果你细心的读过K&R和BS对于C和C++描述的原著,你就会马上反驳道,0x61只是'a'的ASCII值,并没有任何规…
在C语言中,我们使用char来定义字符,占用一个字节,最多只能表示128个字符,也就是ASCII码中的字符.计算机起源于美国,char 可以表示所有的英文字符,在以英语为母语的国家完全没有问题. 但是世界上存在很多不同的语言,例如汉语.汉语.日语等有成千上万个字符,需要用多个字节来表示,称之为宽字符(Wide Character).Unicode 是宽字符编码的一种,已经被现代计算机指定为默认的编码方式,Windows 2000以后的操作系统,包括Windows 2000.XP.Vista.Wi…
最早是使用VC++工具来学习C++,学的越多就越对VC挡住的我看不见的东西好奇,总想多接触一些开发环境,今日抽空摸索了一下CodeBlocks这个开源的IDE使用方法,配置的编译器是MinGW的gcc编译器,gcc编译多字节集的字符还没什么问题,但遇到宽字符,发现编译不通过,经过多方查找,发现gcc对宽字符的支持分规则同我用熟了的cl编译器有一些区别,具体用法如下: GNU   C/C++编译器gcc也可以正确支持wchar_t字符和字符串,但是源代码的保存格式必须符合下面条件:        …
转载自: http://www.ituring.com.cn/article/111027 问题的起因是和一个朋友讨论不同编码的转换问题,说到了wchar_t的类型,朋友的看法是,wchar_t的编码方式是utf-16,长度一定是16位的.我的看法不同,我认为wchar_t的长度和编码方式都是编译器和平台决定的,和语言没任何关系. 后来这个朋友为了说服我,回家把C++ Primer给我搬出来了,还给我截了个图(因为我没这本书),在这本书第30页有个表格,清楚地写着wchar_t是unicode字…
宽字符wchar_t 与 窄字符char 先说下窄字符char,这个大部分读者应该很清楚,char类型的变量占一个字节(byte)(也就是8个bit(比特)),能表示256个字符,那char的范围有两种 第一种(signed char):-128~127 第二种(unsigned char):0~255 (对char的范围感兴趣的读者可以看一下这篇文章:浅谈char类型范围) 但C标准并没有规定char 应该是unsigned还是signed,C标准定义了三种类型:char.signed cha…
转自:http://www.cnblogs.com/zplutor/archive/2010/11/27/1889227.html 在我刚开始学C/C++的时候,字符类型使用的都是char.接触Win32编程之后,养成了使用wchar_t的习惯,于是再写控制台程序的时候自然就使用wchar_t了.然而在控制台程序中使用宽字符会导致各种奇怪的问题,这些问题主要是在输出上.下面分享一下我在这方面的心得. 首先来看一下这段代码: #include <stdio.h> int main() { wpr…
了解 长度 宽字符wchar_t的长度16位,可以用来显示中文等除英文外的其他文字, 窄字符    char   的长度  8 位,只能处理英文. 哪里可以见到 在VS2010, 2012, 2013集成环境下面创建win32控制台工程后可以看到一个叫做 _tmain的主函数,其参数— int argc, _TCHAR* argv[],查看定义_TCHAR的定义就是wchar_t. 另外关于_tmain与main的区别,请看_tmain()和main()区别—lucyjiayou 转换函数 头文…
彻底解密C++宽字符(二) 转:http://club.topsage.com/thread-2227977-1-1.html 4.利用codecvt和use_facet转换 locale和facet C++ 的locale框架比C更完备.C++除了一个笼统本地策略集locale,还可以为locale指定具体的策略facet,甚至可以用自己定义的 facet去改造一个现有的locale产生一个新的locale.如果有一个facet类NewFacet需要添加到某个old_loc中形成新 new_l…
ACE网络库的主要优势之一就是跨平台,ACE提供了操作系统API和编译器级别的跨平台解决方法,使开发人员不用再去关心操作系统和编译器的差异,但因此也带来了ACE的复杂性. ACE网络库的组织结构主要分为四层:OS适配层.wrapper facade层.框架层.服务层,其中OS适配层为操作系统API提供了包装函数,保证了系统级的跨平台特性. 而不同的C++编译器在以下方面也有明显的差异: 1.模版: 2.数据类型和宽字符: 3.运行时初始化和关闭: 4.分配堆内存: 以上主要参考自APG里内容,但…
  原文链接:http://blog.csdn.net/sptoor/article/details/4930069 思路:汉字匹配,把字符都转换成宽字符,然后再匹配. 需要用到以下和宽字符有关的类: 1.wstring: 作为STL中和string相对应的类,专门用于处理宽字符串.方法和string都一样,区别是value_type是wchar_t.wstring类的对象要赋值或连接的常量字符串必须以L开头标示为宽字符. 2.wregex: 和regex相对应,专门处理宽字符的正则表达式类.同…
1 多字节字符 ASCII码表:0 ~ 2^7-1 扩展ASCII码表:2^7 ~ 2^8-1 什么是GB2312:1980年,两个字节存储一个汉字:不通用,别国会有乱码. UCICODE:只有一个字符集:每个字符都是16位宽. 2 C语言中的宽字符 2.1 宽字符的使用 "中"字的编码: ASCII:d6 d0 UNICODE:4e 2d char x = '中'; //汇编代码中出现的是d0 wchar_t x1 = '中'; //汇编代码中出现的是d0 d6 wchar_t x1…
通过编写串口助手工具学习MFC过程 因为以前也做过几次MFC的编程,每次都是项目完成时,MFC基本操作清楚了,但是过好长时间不再接触MFC的项目,再次做MFC的项目时,又要从头开始熟悉.这次通过做一个串口助手再次熟悉一下MFC,并做了一下记录,以便方便以后查阅.做的过程中多是遇到问题直接百度和谷歌搜索来的,所以很多都是不求甚解,知其然不知其所以然.另外做此工具只是为了熟悉了解,许多功能还没有完善!(开发工具VS2008) (三)Unicode字符集的宽字符和多字节字符转换 在上一节<(二)通过“…
//GBK转UTF8 string CAppString::GBKToUTF8(const string & strGBK) { string strOutUTF8 = ""; WCHAR * str1; int n = MultiByteToWideChar(CP_ACP, 0, strGBK.c_str(), -1, NULL, 0); str1 = new WCHAR[n]; MultiByteToWideChar(CP_ACP, 0, strGBK.c_str(), -…
原贴http://topic.csdn.net/u/20101022/16/1b2e0cec-b9d2-42ea-8d9c-4f1bb8320a54.html?r=70149216 ,看过并动手实现,记录下来以备再用. 如果是在java层,有String类可以很好的转换各种编码,在ndk下面就没有现成的公开的工具,不过可以用icu4c. ICU4C 是IBM的国际化开发组件ICU的C语言实现版本.在android系统里也有实现.ndk里面并没有公开可用的api,需要自己加载动态库来调用转换函数.…
转自:http://blog.csdn.net/nodeathphoenix/article/details/7416725 1.    首先,说下窄字符char了,大家都很清楚,就是8bit表示的byte,长度固定.char字符只能表示ASII码表中的256个字符,包括前128个可见字符和后面的128个不可见字符. 而wchar_t则是因为char所能表示的字符数太少(256个)而应运而生的,它的长度可以8bit,16bit,32bit,长度是与不同平台上的c库相关的.其实这个长度是根据指定平…
wchar_t是C/C++的字符类型,是一种扩展的存储方式.wchar_t类型主要用在国际化程序的实现中,但它不等同于uni编码.uni编码的字符一般以wchar_t类型存. IO库为了支持宽字符语言,定义了一组类型和对象来操作wchar_t类型.例如:wcin,wcout,wcerr;以及如下图头文件: #include <iostream> using namespace std; int main() { wchar_t wStr[]=L"ABCDEFG"; char…
由于vs各版本之间存在字符设置不兼容问题,特总结char与tchar的互相转换函数,如下,在之后的工程中可以使用. void TcharToChar(const TCHAR * tchar, char * _char) { int iLength; //获取字节长度 iLength = WideCharToMultiByte(CP_ACP, 0, tchar, -1, NULL, 0, NULL, NULL); //将tchar值赋给_char WideCharToMultiByte(CP_AC…
C语言小程序——推箱子(窄字符Version) 推箱子.c #include <stdio.h> #include <conio.h> #include <stdlib.h> #include <Windows.h> #include "Game.h" #define N 100 /* 二维数组最大100*100 */ #define NTAB 24 /* 调整界面位置 */ #define YES 1 /* 可以移动 */ #defin…
_T._TEXT.L.TEXT之间的区别 在分析前先对三者做一个简单的分类 _T._TEXT.TEXT三者都是根据编译器的环境进行ANSI/UNICODE变换的,_T和_TEXT是根据_UNICODE来确定宏,而TEXT是根据UNICODE来确定宏, (_UNICODE宏用于C运行期头文件,而UNICOED则用于Windows头文件,当编译源代码模块时,通常必须同时定义这两个宏) 第一种:L" " 在字符串前加一个大写字母L表示,告诉编译器这个字符串按照宽字符来存储,每个字符占2个字节…
在我的电脑上要想通过 std::wcout输出 宽字符 需加入以下代码 #include <io.h> #include <fcntl.h> void main() { _setmode(_fileno(stdout), _O_U16TEXT); } 而且以后的输出不能用std::cout必须要用std::wcout…
#pragma once #include <stdio.h> //getchar() #include <tchar.h> #include <stdlib.h> //sysytem() #include <string> //std #include <atlstr.h> //cstring #include <iostream> //cout using namespace std; using std::wcout; int…
今天遇到一个编码的问题,困惑了我很长时间,所以就简要的的了解了一下常用的编码类型. 我们最常见的是assic编码,它是一种单字节编码,对多容纳256个字符. 我们在编程的时候经常遇到unicode,unicode是一种宽字节编码,能够很好的融合世界各个国家的字符,具有国际通用性,所谓宽字符其实使用两个字节来表示一个符号. 而utf8是一种多字节编码,一个字符所占用的字节数不确定,是对unicode的精简版本,也用具有世界通用性.Gbk也是一种双字节编码,其实就是对中文简体的一种编码,不具有世界通…
只要看见“W”就是宽的意思,左边wchar_t,右边char 字符分类: 宽字符函数            普通C函数            描述 iswalnum()             isalnum()              测试字符是否为数字或字母 iswalpha()             isalpha()                测试字符是否是字母 iswcntrl()                iscntrl()                 测试字符是否是…
#include <locale.h> setlocale(LC_ALL, "zh-CN"); wchar_t wch = L'我'; putwchar(wch); #define _CRT_SECURE_NO_WARNINGS #include <string.h> #include <stdio.h> #include <locale.h> #include <Windows.h> //求长度 int mywcslen(w…
目录 Unicode.UCS UTF8 宽字符类型wchar_t locale 为什么需要宽字符类型 多字节字符串和宽字符串相互转换 最近使用到了wchar_t类型,所以准备详细探究下,没想到水还挺深,网上的资料大多都是复制粘贴,只有个结论,也没个验证过程.本文记录探究的过程及结论,如有不对请指正. Unicode.UCS UCS(Universal Character Set)本质上就是一个字符集. Unicode的开发结合了国际标准化组织所制定的 ISO/IEC 10646,即通用字符集(…
彻底弄懂UTF-8.Unicode.宽字符.locale linux后端开发   已关注   彻底弄懂UTF-.Unicode.宽字符.locale unicode 是字符集 utf-8是编码格式.. https://zhuanlan.zhihu.com/p/73794460 宽字符类型wchar_t locale 为什么需要宽字符类型 多字节字符串和宽字符串相互转换 最近使用到了wchar_t类型,所以准备详细探究下,没想到水还挺深,网上的资料大多都是复制粘贴,只有个结论,也没个验证过程.本文…
现象 excel手机号复制到input框子, length长度和可见长度不一致. "‭176xxxx1115‬" 长度是 13 而不是 11. 原因 手机号前后被 excel 插入了零宽字符 \u202d \u202c. 实际内容为 "\u202d176xxxx1115\u202c" 解决方案 过滤零宽字符 "‭176xxxx1115‬".replace(/[\u200b-\u200f\uFEFF\u202a-\u202e]/g, "&…
什么是零宽字符 一种不可打印的Unicode字符, 在浏览器等环境不可见, 但是真是存在, 获取字符串长度时也会占位置, 表示某一种控制功能的字符. 常见的零宽字符有哪些 零宽空格(zero-width space, ZWSP)用于可能需要换行处. Unicode: U+200B HTML: ​ 零宽不连字 (zero-width non-joiner,ZWNJ)放在电子文本的两个字符之间,抑制本来会发生的连字,而是以这两个字符原本的字形来绘制. Unicode: U+200C HTML: ‌…
.. #include <iostream> #include <windows.h> #include <locale> //#include<wchar.h> //#include <stdlib.h> int main() { short sh; unsigned short sh1; sh = ; sh1 = ; std::cout << "short类型的sh的值是: " << sh <…