宽字符与Unicode (c语言 汉语字符串长度)
在C语言中,我们使用char来定义字符,占用一个字节,最多只能表示128个字符,也就是ASCII码中的字符。计算机起源于美国,char 可以表示所有的英文字符,在以英语为母语的国家完全没有问题。
但是世界上存在很多不同的语言,例如汉语、汉语、日语等有成千上万个字符,需要用多个字节来表示,称之为宽字符(Wide Character)。Unicode 是宽字符编码的一种,已经被现代计算机指定为默认的编码方式,Windows 2000以后的操作系统,包括Windows 2000、XP、Vista、Win7、Win8、Win10、Windows Phone、Windows Server 等(它们统称为 Windows NT)都从底层支持Unicode,存取效率比 char 要高。
更多内容请查看:ASCII编码与Unicode编码
C语言中的宽字符
在C语言中,使用wchar.h头文件中的wchar_t来定义宽字符,例如:
wchar_t ch = 'A';
wchar_t 被定义为typedef unsigned short wchar_t,和一个无符号整型一样,占用两个字节。
如果定义宽字符串,需要加前缀L,例如:
wchar_t *str = L"C语言中文网";
L是必须要加的,并且与字符串之间不能有空格,只有这样编译器才知道每个字符占用两个字节。
宽字符示例:
- #include <stdio.h>
- #include <wchar.h>
- int main(){
- char ch = 'A';
- wchar_t wch = 'A';
- char str[] = "C语言中文网";
- wchar_t wstr[] = L"C语言中文网";
- printf("ch=%d, wch=%d, str=%d, wstr=%d\n", sizeof(ch), sizeof(wch), sizeof(str), sizeof(wstr));
- return 0;
- }
运行结果:
ch=1, wch=2, str=12, wstr=14
wstr 之所以比 str 多两个字节是因为:字符 'C' 占用两个字节,字符串结束标志 '\0' 也占用两个字节。
宽字符串的长度
计算ASCII字符串长度使用 strlen 函数,计算宽字符串长度使用 wcslen 函数:
- #include <stdio.h>
- #include <wchar.h>
- #include <string.h>
- int main(){
- char str[] = "C语言中文网";
- wchar_t wstr[] = L"C语言中文网";
- printf("strlen(str)=%d, wcslen(wstr)=%d\n", strlen(str), wcslen(wstr));
- return 0;
- }
运行结果:
strlen(str)=11, wcslen(wstr)=6
strlen 的运行结果显然不正确,因为它把一个字节作为一个字符计算,而 wcslen 把两个字节作为一个字符计算。
注意:wcslen 在 string.h 和 wchar.h 头文件中均有说明。
维护一个版本的源代码
在 Windows NT 以前的操作系统中,甚至包括 Windows 98,对宽字符的支持都不是很好,所以大多情况下使用ASCII编码。Windows NT 推出以后,已经从底层支持了Unicode,所以在 Windows NT 上的程序大多使用Unicode。
如果你希望程序能够在各种版本的Windows操作系统中运行,那么就需要维护两个版本的源代码,ASCII 版和 Unicode 版。ASCII 字符和 Unicode 字符的定义、使用都不一样,要想在一个版本的源代码中做兼容处理会非常困难,要做大量的工作,对程序员来说简直是噩梦。
不过,Windows 又为我们做了一件好事,已经处理了兼容性问题。它是怎么做到的呢?
例如对于字符串,ASCII 中使用 char 来定义,而 Unicode 中使用 wchar_t 来定义,并且需要添加前缀L。那么在 windows.h 头文件中(或者是它包含的其他头文件)就这样来处理:
- #ifdef UNICODE
- typedef wchar_t TCHAR;
- #define TEXT(quote) L##quote
- #else
- typedef char TCHAR
- #define TEXT(quote) quote
- #endif
我们在源码中可以这样来使用:
TCHAR str[] = TEXT("C语言中文网");
如果是Unicode版,也就是定义了UNICODE宏,那么上面的语句等价于:
wchar_t str[] = L"C语言中文网";
如果是ASCII,也就是没有定义UNICODE宏,那么等价于:
char str[] = "C语言中文网";
在Windows中,随处可见这样的处理。虽然现代操作系统都已经支持Unicode,无需再考虑与ASCII的兼容性问题,但是依然要为这些历史问题付出代价。
总结:由于各种各样的原因,我们优先使用Windows定义的数据类型、宏、结构体等,这样编写的程序兼容性较好,不用考虑ASCII和Unicode的问题。但这也带来了一个挑战,就是要熟悉Window定义的数据类型、宏、结构体等。
宽字符与Unicode (c语言 汉语字符串长度)的更多相关文章
- 要求产生10个随机的字符串,每一个字符串互相不重复,每一个字符串中组成的字符(a-zA-Z0-9)也不相同,每个字符串长度为10;
package text1; import java.util.ArrayList; import java.util.HashSet; /* * 要求产生10个随机的字符串, * 每一个字符串互相不 ...
- YTU 2417: C语言习题 字符串长度
2417: C语言习题 字符串长度 时间限制: 1 Sec 内存限制: 128 MB 提交: 758 解决: 548 题目描述 写一函数,求一个字符串的长度.在main函数中输入字符串,并输出其长 ...
- c语言 判断字符串长度 实现
/* 首先明白答案的本质(该函数)是一个计数器该计数器用for循环来实现实现对一串字符串的计数字符串以空格开头 不计算空格 计算空格后的数字直到遇到\0结束.num计算器字符串不以空格结束 计算空格后 ...
- 彻底弄懂UTF-8、Unicode、宽字符、locale
目录 Unicode.UCS UTF8 宽字符类型wchar_t locale 为什么需要宽字符类型 多字节字符串和宽字符串相互转换 最近使用到了wchar_t类型,所以准备详细探究下,没想到水还挺深 ...
- [转帖]彻底弄懂UTF-8、Unicode、宽字符、locale
彻底弄懂UTF-8.Unicode.宽字符.locale linux后端开发 已关注 彻底弄懂UTF-.Unicode.宽字符.locale unicode 是字符集 utf-8是编码格式.. ...
- 关于MultiByteToWideChar与WideCharToMultiByte代码测试(宽字符与多字节字符的转换)以及字符串的转换代码测试
#pragma once #include <stdio.h> //getchar() #include <tchar.h> #include <stdlib.h> ...
- windows 编程—— 宽字符集 与 Unicode
目录: 从ASCII码 到 Unicode Windows 编程中的 "字符” 定义 (如何在windows下进行通用编码) 常用的通用函数,定义 (本文为学习<Programming ...
- C语言里字符串的解析
根据给定的字符串,按照一定规则解析字符串,卡住好几次,这次做个笔记,以供参考 函数名称: strtok 函数原型: char *strtok(char *s1, const char *s ...
- [c/c++] programming之路(25)、字符串(六)——memset,Unicode及宽字符,strset
一.memset #include<stdio.h> #include<stdlib.h> #include<memory.h> void *mymemset(vo ...
随机推荐
- pycharm替换文件中所有相同字段方法
1.打开要修改的文件 2.ctrl r调出替换功能,如图所示: 3.上面红框是需要更改的部分,下面红框是想要更改为部分,编辑后,点击“replace all”即可
- linux桌面系统的约定
linux系统的桌面系统基本遵循同样的约定. mime类型 在linux下,关于文件类型的信息通常放在/usr/share/mime./usr/local/share/mime和用户目录下,所有应用程 ...
- Arduino+esp8266-01+舵机 制作基于局域网的遥控门禁
这个最终的效果呢,就是可以通过手机连接上esp8266创建的wifi,然后连接其创建的服务器,发送特定指令就可实现遥控开门 (做工比较粗糙还请不要见笑...) 一.原理 其实这个一看就会明白,非常简单 ...
- vuejs的导航栏固定
https://blog.csdn.net/wang1006008051/article/details/78003974 博主文章,超级详细,上面传送们 不过博主的导航栏跳动比较明显,我自己做了修复 ...
- Innodb整体架构
如下图展示了Innodb内存中和磁盘的结构: 内存中结构主要有如下几种: buffer pool change buffer adaptive hash index (自适应的hash索引) Log ...
- 【分布式搜索引擎】Elasticsearch之安装Elasticsearch可视化平台Kibana
一.Kibana简单介绍 Kibana 是为 Elasticsearch设计的开源分析和可视化平台.你可以使用 Kibana 来搜索,查看存储在 Elasticsearch 索引中的数据并与之交互.你 ...
- 2.1 Scala语言概述
一.编程范式 命令式编程没有办法充分利用多核CPU: 函数式编程很多变量是不可修改的. 二.Scala简介 特点 scala运行在JVM上,兼容现有的Java程序: 面向对象的编程语言: 一门函数式语 ...
- mysql-存储过程-触发器-事务---4
本节所讲内容: 存储过程 触发器 事务 一.存储过程 什么是存储过程 大多数SQL语句都是针对一个或多个表的单条语句.并非所有的操作都怎么简单.经常会有一个完整的操作需要多条才能完成.存储过程(S ...
- robotframework-post request请求携带上一个请求返回的cookie
公司的接口服务需要先登录,获取服务端的cookie后,在后续的请求中携带这个cookie才能够访问 在尝试用RF工具进行自动化接口测试时,发现先访问登录接口之后,接着请求其他接口时没有自动携带上次请求 ...
- HTML与CSS学习笔记(1)
1.web三大核心技术? HTML CSS JavaScript 2.HTML基本机构和属性 HTML:超文本 标记 语言 超文本:文本内容+非文本内容(图片.视频.音频等) 标记:<单词> ...