首先需要知道 Unicode 编码范围 [U+00, U+10FFFF], 其中 [U+00, U+FFFF] 称为基础平面(BMP), 这其中的字符最为常用.
当然, 这 65536 个字符是远远不够的.
0x010000 - 0x10FFFF 为辅助平面, 共可存放16 * 65536个字符,划分为16个不同的平面
 
http://www.oschina.net/code/snippet_179574_15065
按照如下的编码方式,对UTF8和UTF16之间进行转换

从UCS-2到UTF-8的编码方式如下(没有处理扩展面):

UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
 
typedef unsigned long   UTF32;  /* at least 32 bits */
typedef unsigned short UTF16; /* at least 16 bits */
typedef unsigned char UTF8; /* typically 8 bits */
typedef unsigned int INT; /*
UCS-2编码 UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
*/ #define UTF8_ONE_START (0xOOO1)
#define UTF8_ONE_END (0x007F)
#define UTF8_TWO_START (0x0080)
#define UTF8_TWO_END (0x07FF)
#define UTF8_THREE_START (0x0800)
#define UTF8_THREE_END (0xFFFF) void UTF16ToUTF8(UTF16* pUTF16Start, UTF16* pUTF16End, UTF8* pUTF8Start, UTF8* pUTF8End)
{
UTF16* pTempUTF16 = pUTF16Start;
UTF8* pTempUTF8 = pUTF8Start; while (pTempUTF16 < pUTF16End)
{
if (*pTempUTF16 <= UTF8_ONE_END
&& pTempUTF8 + 1 < pUTF8End)
{
//0000 - 007F 0xxxxxxx
*pTempUTF8++ = (UTF8)*pTempUTF16;
}
else if(*pTempUTF16 >= UTF8_TWO_START && *pTempUTF16 <= UTF8_TWO_END
&& pTempUTF8 + 2 < pUTF8End)
{
//0080 - 07FF 110xxxxx 10xxxxxx
*pTempUTF8++ = (*pTempUTF16 >> 6) | 0xC0;
*pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;
}
else if(*pTempUTF16 >= UTF8_THREE_START && *pTempUTF16 <= UTF8_THREE_END
&& pTempUTF8 + 3 < pUTF8End)
{
//0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
*pTempUTF8++ = (*pTempUTF16 >> 12) | 0xE0;
*pTempUTF8++ = ((*pTempUTF16 >> 6) & 0x3F) | 0x80;
*pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;
}
else
{
break;
}
pTempUTF16++;
}
*pTempUTF8 = 0;
} void UTF8ToUTF16(UTF8* pUTF8Start, UTF8* pUTF8End, UTF16* pUTF16Start, UTF16* pUTF16End)
{
UTF16* pTempUTF16 = pUTF16Start;
UTF8* pTempUTF8 = pUTF8Start; while (pTempUTF8 < pUTF8End && pTempUTF16+1 < pUTF16End)
{
if (*pTempUTF8 >= 0xE0 && *pTempUTF8 <= 0xEF)//是3个字节的格式
{
//0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
*pTempUTF16 |= ((*pTempUTF8++ & 0xEF) << 12);
*pTempUTF16 |= ((*pTempUTF8++ & 0x3F) << 6);
*pTempUTF16 |= (*pTempUTF8++ & 0x3F); }
else if (*pTempUTF8 >= 0xC0 && *pTempUTF8 <= 0xDF)//是2个字节的格式
{
//0080 - 07FF 110xxxxx 10xxxxxx
*pTempUTF16 |= ((*pTempUTF8++ & 0x1F) << 6);
*pTempUTF16 |= (*pTempUTF8++ & 0x3F);
}
else if(*pTempUTF8 >= 0 && *pTempUTF8 <= 0x7F)//是1个字节的格式
{
//0000 - 007F 0xxxxxxx
*pTempUTF16 = *pTempUTF8++;
}
else
{
break;
}
pTempUTF16++;
}
*pTempUTF16 = 0;
} int main()
{
UTF16 utf16[256] = {L"你a好b吗234中国~!"};
UTF8 utf8[256]; UTF16ToUTF8(utf16, utf16+wcslen(utf16), utf8, utf8+256); memset(utf16, 0, sizeof(utf16)); UTF8ToUTF16(utf8, utf8 + strlen(utf8), utf16, utf16+256); return 0;
}

  UTF-16 并不比 UTF-8 更受待见, 只是 Windows 默认使用 UTF-16 而已, 所以不得不在它们之间做转换(如果你还在使用非 Unicode 编码, 那你已经是受到微软的毒害了)

  当然, 万恶的微软还是给出了更简单的方法的, 那就是下面的两个函数:

WideCharToMultiByte

将UTF-16(宽字符)字符串映射到新的字符串。新的字符串不一定来自多字节字符集。(那你取这个名字是闹哪样? 多字节字符集是什么鬼??? 你怎么不去屎)

https://msdn.microsoft.com/en-us/library/windows/desktop/dd374130(v=vs.85).aspx

MultiByteToWideChar

将字符串映射到UTF-16(宽字符)字符串。字符串不一定来自多字节字符集。

https://msdn.microsoft.com/en-us/library/windows/desktop/dd319072(v=vs.85).aspx

程序: 将 UTF-16 编码的字符串转换为 UTF-8 编码, 并在控制台输出

#include <Windows.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h> void use(const char *utf8str) {
system("Pause");
system("chcp 65001");
if (utf8str == NULL) {
printf("NULL\n");
return;
}
printf("%s\n", utf8str);
} char *utf16to8(const wchar_t *str) {
if (str == NULL) {
return NULL;
}
int cBuf = 0; // 缓冲区大小
// 计算缓冲区需要的大小, 如果函数成功, 则返回值至少是 1 (UTF-8以0x00结尾)
if (cBuf = WideCharToMultiByte(
CP_UTF8,
0,
str,
-1,
NULL,
0,
NULL,
NULL), !cBuf ){
// 计算失败
fprintf(stderr, "计算内存失败!");
return NULL;
}
printf("缓冲区大小 %d .\n", cBuf);
char *buf = NULL; // 指向缓冲区
buf = (char *)malloc(cBuf); // 分配缓冲区
if (!WideCharToMultiByte(
CP_UTF8,
0,
str,
-1,
buf,
1024,
NULL,
NULL) ){
fprintf(stderr, "转换失败!\n");
return NULL;
}
// 返回缓冲区地址
return buf;
} void run() {
const wchar_t *str = L"Hello你好我的朋友!";
char *utf8str = utf16to8(str);
use(utf8str);
     free(utf8str);
} int main(int argc, char* argv[]) {
run();
system("Pause");
return EXIT_SUCCESS;
}

  Output如下------>

缓冲区大小 25 .
请按任意键继续. . .

Active code page: 65001
Hello你好我的朋友!
Press any key to continue . . .

上面这个函数调用了两次 WideCharToMultiByte(), 第一次是计算转换所需的空间, 第二次开始转换(It's stupid!)

那么依葫芦画瓢, 你现在可以将 UTF-8 -> UTF16了吗?

补两张图

最终版本:

wchar_t *
utf8to16(const char *str) {
if (str == NULL) return L"(null)";
// 计算缓冲区需要的大小, 如果函数成功, 则返回 UTF-8 字符数量, 所以无法确定具体字节数
int cBuf = MultiByteToWideChar(CP_UTF8, 0, str, -1, NULL, 0);
if (cBuf == 0) return L"(null)";
wchar_t *buf = malloc(cBuf * 4);
if (cBuf != MultiByteToWideChar(CP_UTF8, 0, str, -1, buf, cBuf)) return L"(null)";
return buf;
} char *
utf16to8(const wchar_t *str) {
if (str == NULL) return "(null)";
// 计算缓冲区需要的大小, 如果函数成功, 则返回具体字节数, 所以 cBuf 至少是 1 (UTF-8以0x00结尾)
int cBuf = WideCharToMultiByte(CP_UTF8, 0, str, -1, NULL, 0, NULL, NULL);
if (cBuf < 1) return "(null)";
char *buf = malloc(cBuf); // 分配缓冲区
if (cBuf != WideCharToMultiByte(CP_UTF8, 0, str, -1, buf, 1024, NULL, NULL)) return "(null)";
return buf;
}

  

UTF8 UTF16 之间的互相转换的更多相关文章

  1. (转) Unicode(UTF-8, UTF-16)令人混淆的概念

    原文地址:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html 为啥需要Unicode 我们知道计算机其实挺笨的,它只认识010 ...

  2. Unicode(UTF-8, UTF-16)令人混淆的概念(转)

    文章转自http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html (http://swiftlet.net/archives/cat ...

  3. 关于编码:Unicode/UTF-8/UTF-16/UTF-32

    关于编码,绕不开下面这些概念 ①Unicode/UTF-8/UTF-16/UTF-32 ②大小端字节序(big-endian/little-endian) ③BOM(Byte Order Mark) ...

  4. Unicode(UTF-8, UTF-16)令人混淆的概念----我看完了 不错

    来自:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html ---------------------------------- ...

  5. 【转】Unicode(UTF-8, UTF-16)令人混淆的概念

    参考地址:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html Java中,char类型用UTF-16编码描述一个代码单元 为啥 ...

  6. 细说:Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4

    1. Unicode与ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不想通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GB ...

  7. Unicode 字符集及UTF-8 UTF-16编码

    很久以前发在他处的一篇博文,今天翻出来重新整理了一下 Unicode 字符集 共分为 17 个平面(plane), 分别对应 U+xx0000 - U+xxFFFF 的 code points, 其中 ...

  8. 从字节理解Unicode(UTF8/UTF16)

    如果你不知道或者不了解什么是Unicode/UTF8/UTF16,请详细阅读这篇文章(这也是这篇博文的先决条件): 学点编码知识又不会死:Unicode的流言终结者和编码大揭秘 但是如果你看完以上文章 ...

  9. 一句话理解字符编码(Unicode ,UTF8,UTF16)

    Unicode和ASCII码属于同一级别的,都是字符集,字符集规定从1到这个字符集的最大范围每个序号都各表示什么意思.比如ASCII字符集中序号65表示"A". 那接下来的UTF8 ...

随机推荐

  1. linux test条件测试

    语法 test EXPRESSION [ EXPRESSION ] [[ EXPRESSION ]] 1.数值测试 -eq 是否等于 -ne 是否不等 -gt 是否大于 -ge 是否大于等于 -lt ...

  2. opencontrail-vrouter命令

    vif命令 vrouter需要vrouter接口(vif)来转发流量.使用vif命令查看vrouter已知的接口. 注意: 仅在OS(Linux)中使用接口不足以进行转发.相关接口必须添加到vrout ...

  3. luogu5020 [NOIp2018]货币系统 (完全背包)

    我那个新的货币系统,就是把原来的货币系统中能被其他数表示的数删掉 那我就算有多少数能被别的数表示,那肯定是要被比它小的表示 于是排个序做完全背包就好了 但是我太zz不会完全背包,然后写了个bitset ...

  4. CF1106E Lunar New Year and Red Envelopes

    比赛时看到这题懵逼了,比完赛仔细一想是个很简单的dp = = 由于题目限制,可以发现\(B\)取红包的策略是唯一的,可以用优先队列预处理出\(B\)在第\(i\)秒可以拿到的红包的收益\(w_i\)和 ...

  5. centos7安装较高版本python3.5/3.6

    应用环境: Centos7或者RHEL7下默认安装的python版本为2.7.x,更新不够及时,现在很多时候需要额外安装较高版本的python环境, 网上搜罗一圈总结记录一下常用两种方式: ① 源码编 ...

  6. PHP函数memory_get_usage获取PHP内存清耗量

    (PHP 4 >= 4.3.2, PHP 5, PHP 7) memory_get_usage — 返回分配给 PHP 的内存量 说明 int memory_get_usage ([ bool ...

  7. Developing JSF applications with Spring Boot

    Developing JSF applications with Spring Boot Spring Boot can leverage any type of applications, not ...

  8. 【洛谷P1164 小A点菜】

    题目背景 uim神犇拿到了uoi的ra(镭牌)后,立刻拉着基友小A到了一家……餐馆,很低端的那种. uim指着墙上的价目表(太低级了没有菜单),说:“随便点”. 题目描述 不过uim由于买了一些辅(e ...

  9. Echarts关于仪表盘

    https://blog.csdn.net/zc763375777/article/details/53837391 来无事,制作不一样的图标一发,领导让把仪表盘做成百分条,我TM也是醉了,大体样式如 ...

  10. TestNg 5.类分组

    类分组是可以给类去分组,几个类分成不同的组. 比如,建立3个类GroupsOnClass1,GroupsOnClass2,GroupsOnClass3.   GroupsOnClass1和Groups ...