在C11(ISO/IEC 9899:2011)标准中引入了对UTF8、UTF16以及UTF32字符编码的支持。

其中,UTF8字符直接通过char来定义,字面量前缀使用u8。比如:

char c = u8'你';
const char *s = u8"你好";

而UTF16字符直接通过char16_t来定义,字面量前缀使用u。比如:

#include <uchar.h>

char16_t c = u'你';
const char16_t *s = "你好";

而UTF32字符直接通过char32_t来定义,字面量前缀使用U。比如:

#include <uchar.h>

char32_t c = U'你';
const char32_t *s = U"你好";

在使用char16_t以及char32_t的时候必须包含头文件<uchar.h>。除此之外,C11标准中还添加了诸如wsprintf、wfprintf、vwprintf、wprintf等宽字符函数。不过这些函数的字符串都是const wchar_t*类型的,即宽字符指针类型。而对于Unicode字符的显示是各家平台自己实现的。在OS X以及iOS中,至今(Apple LLVM 6.0)还没完美地支持这一C11特性,但是UTF8、UTF16以及UTF32字面量都已经支持了,尽管系统本身不支持对UTF32编码格式的解析。另外,也没有包含<uchar.h>头文件。不过,我们可以使用Foundation库自带的unichar类型来代替char16_t。另外,printf函数不支持对UTF16编码字符的打印,若要打印UTF16字符或字符串,只能用Foundation里的NSLog函数。

下面举些例子:

#include <stdio.h>
#include <wchar.h> - (void)viewDidLoad
{
[super viewDidLoad];
// Do any additional setup after loading the view, typically from a nib. const char *s = u8"你好,世界!";
printf("此UTF-8字符串为: %s\n", s); unichar ch = u'你';
const unichar *us = u"好,世界!";
NSLog(@"该UTF16是:%C%S", ch, us); wprintf(L"iOS does not support for printing wide-character unicodes!\n");
}

在NSString字符串格式中,%C对应类型为unichar(实际为unsigned short)的UTF16编码字符;%S对应类型为const unichar*,即UTF16编码的字符串。

由于OS X以及iOS所用的LLVM Clang编译器没有引入C11标准的<uchar.h>,因此有些UTF8与UTF16字符串的标准转换函数在这些环境下均无法支持,我们只能通过Foundation库的NSString来解决。不过,如果在Linux下,我们使用GCC4.8或更高版本的话,那么就能使用标准的C11提供的转换函数了。不过在标准C语言中,printf、puts这类打印函数只支持对UTF-8编码格式的字符串的正确打印,因此我们要输出的话需要把UTF-16编码的字符串转为UTF-8。下面介绍在标准C11情况下如果操作UTF-8、UTF16字符串,它们之间的相互转换以及打印输出。

#include <stdio.h>
#include <uchar.h> size_t UTF16StrLen(const char16_t *utf16String)
{
if(utf16String == NULL)
return ; size_t index;
for(index = ; utf16String[index] != u'\0'; index++);
return index;
} size_t UTF16ToUTF8(char *mbBuffer, const char16_t *utf16String)
{
if(mbBuffer == NULL || utf16String == NULL)
return ; mbstate_t state = { }; size_t mbIndex = ;
for(int utf16Index = ; utf16String[utf16Index] != u'\0'; utf16Index++)
{
const size_t length = c16rtomb(&mbBuffer[mbIndex], utf16String[utf16Index], &state);
mbIndex += length;
} mbBuffer[mbIndex] = '\0'; return mbIndex;
} int main(int argc, char *argv[])
{
char16_t ch = u'好';
char chBuffer[];
mbstate_t state = { }; size_t length = c16rtomb(chBuffer, ch, &state);
chBuffer[length] = '\0'; printf("The UTF-8 character length is: %zu, and the character is: %s\n", length, chBuffer); const char *utf8Str = u8"你好, 世界。";
printf("The UTF-8 string is: %s\n", utf8Str); const char16_t *utf16Str = u"你好, 世界。";
printf("The utf16 string length is: %zu\n", UTF16StrLen(utf16Str)); length = UTF16ToUTF8(chBuffer, utf16Str); printf("The UTF-8 string length is: %zu, and the content is: %s\n", length, chBuffer); printf("If the converted UTF-8 string is equal to the original one? %s\n", strcmp(chBuffer, utf8Str) == ? "YES" : "NO");
}

在上述代码中,<uchar.h>必须被包含。因为char16_t、char32_t、mbstate_t等类型都是定义在这个头文件中的。C11标准库仅提供了基本的UTF8字符串转UTF16字符串、UTF16字符转UTF8字符串等函数。但是木有提供获取UTF16字符串长度以及如何将UTF16字符串转UTF8字符串的函数。因此,我在开头就实现这两者功能。当然,上述代码对UTF16的处理基本是将它作为老式的UCS-2编码格式,因为它是双字节固定长度的,而现代的UTF16可能是双字节也可能是四字节变长的。像Apple搞出的Emoji就是四字节长度的UTF16编码。所以,对于四字节的UTF16编码而言,其转换是否能有效工作尚不可知。

由于UTF8编码格式的字符串对ASCII是兼容的,因此我们可以直接使用C90提供的strlen等标准库对它们进行操作。

C11中的Unicode的更多相关文章

  1. C#中文和UNICODE编码转换

    C#中文和UNICODE编码转换 //中文轉為UNICODE string str = "中文"; string outStr = ""; if (!strin ...

  2. C#中Encoding.Unicode与Encoding.UTF8的区别

    今天在园子首页看到一篇博文-简单聊下Unicode和UTF-8,从中知道了UTF-8是Unicode的一种实现方式: Unicode只是给这世界上每个字符规定了一个统一的二进制编号,并没有规定程序该如 ...

  3. 如何利用java把文件中的Unicode字符转换为汉字

    有些文件中存在Unicode字符和非Unicode字符,如何利用java快速的把文件中的Unicode字符转换为汉字而不影响文件中的其他字符呢, 我们知道虽然java 在控制台会把Unicode字符直 ...

  4. String 字符串中含有 Unicode 编码时,转为UTF-8

    1.单纯的Unicode 转码 String a = "\u53ef\u4ee5\u6ce8\u518c"; a = new String(a.getBytes("UTF ...

  5. Wpf中显示Unicode字符

    1. 引言 今天在写一个小工具,里面有些字符用Unicode字符表示更合适.但是一时之间却不知道怎么写了.经过一番查找,终于找到了办法.记到这里,一是加深印象,二则以备查询. 2. C#中使用Unic ...

  6. Python中的Unicode编码和UTF-8编码

    下午看廖雪峰的Python2.7教程,看到 字符串和编码 一节,有一点感受,结合崔庆才的Python博客 ,把这种感受记录下来: ASCII码:是用一个字节(8bit, 0-255)中的127个字母表 ...

  7. python2中的unicode()函数在python3中会报错:

    python2中的unicode()函数在python3中会报错:NameError: name 'unicode' is not defined There is no such name in P ...

  8. 从ord()中对Unicode编码的理解

    刚开始学习编程的时候,老对字符串编码的理解模模糊糊.也一直看这方便的资料,今天在看Dive in python时,突然有了新的理解(不知道是否正确). Python有个built-in函数ord(), ...

  9. json中含有Unicode的处理办法 C#

    public static class StringExtension { #region unicode 字符转义 /// <summary> /// 转换输入字符串中的任何转义字符.如 ...

随机推荐

  1. MySQL操作规范总结

    来源:静以致远√团团 用户权限管理创建用户命令:CREATE USER 'username'@'host' IDENTIFIED BY 'password';说明:Username所创建的用户名hos ...

  2. 安装sass时遇到Failed to build gem native extension

    错误信息 执行命令: sudo gem install sass时遇到下面的错误信息 Building native extensions. This could take a while... ER ...

  3. 捷克200套UR51出货新版本FTP问题(FTP主动模式无法正常传输数据问题)

    FTP alg功能 普通NAT实现了对UDP或TCP报文头中的的IP地址及端口转换功能,但对应用层数据载荷中的字段无能为力,在许多应用层协议中,比如多媒体协议(H.323.SIP等).FTP.SQLN ...

  4. 接口自动化平台搭建(二),搭建django项目与接口自动化平台的由来与功能特征

    1.创建django项目 a.使用命令创建,安装完django之后就有django-admin命令了,执行命令创建即可,命令如下: django-admin startproject my_djang ...

  5. 获取当前日期或者某个日期相隔N天内的全部日期以及星期几

    业务需要需要获取当前日期相隔30天内的全部日期以及星期几,没插件因此特地写了一个: /* 说明:获取当前日期或者某个日期相隔N天内的全部日期以及星期几 使用: let test = new getdi ...

  6. 查看postgresql的日志show queries log in PostgreSQL?

    原文:https://tableplus.io/blog/2018/10/how-to-show-queries-log-in-postgresql.html -------------------- ...

  7. 算法设计与分析 - 李春葆 - 第二版 - pdf->word v3

    1.1 第1章─概论 练习题 . 下列关于算法的说法中正确的有( ). Ⅰ.求解某一类问题的算法是唯一的 Ⅱ.算法必须在有限步操作之后停止 Ⅲ.算法的每一步操作必须是明确的,不能有歧义或含义模糊 Ⅳ. ...

  8. rabbitmq 配置多个消费者(转载)

    Concurrency与Prefetch 在通常的使用中(Java项目),我们一般会结合spring-amqp框架来使用RabbitMQ,spring-amqp底层调用RabbitMQ的java cl ...

  9. ip_srcroute函数

    当响应某个分组时,I C M P和标准的运输层协议必须把分组带的任意源路由逆转.逆转源路由是通过i p _ s r c r o u t e保存的路由构造的. 7 7 7 - 7 8 3 i p _ s ...

  10. vue1 动态组件