举例说明Unicode 和UTF-8之间的转换

筱筱的春天 2024-10-24 20:32:33 原文

1)写这篇博客的原因

首先我要感谢这篇博客，卡了很久，看完下面这篇博客终于明白Unicode怎么转换成UTF-8了。

https://blog.csdn.net/qq_32252957/article/details/83054183

2)啰嗦一些相关的东西

Unicode是一个字符集，Unicode是定长的都为双字节。

对于汉字来说Unicode占有的字节比UTF-8占用的字节少1个字节。Unicode为双字节，而UTF-8中汉字占三个字节。

Unicode为双字节，而UTF-8中汉字占三个字节。

Unicode为双字节，而UTF-8中汉字占三个字节。

3)UTF-8编码表

        U-00000000 - U-0000007F: 0xxxxxxx

        U-00000080 - U-000007FF: 110xxxxx 10xxxxxx

        U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

        U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

        U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

        U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目。而第一行中以0开头，是为了兼容ASCII编码，为一个字节，第二行就为双字节字符串，第三行为3字节，如汉字就属于这种，以此类推。(个人认为：其实我们可以简单的把前面的1的个数看成字节数)

4)例子

为了要将Unicode转换为UTF-8，当然要知道他们的区别到底在什么地方。下面来看一下，在Unicode中的编码是怎样转换成UTF-8的，在UTF-8中，如果一个字符的字节小于0x80（128）则为ASCII字符，占一个字节，可以不用转换，因为UTF-8兼容ASCII编码。假如在Unicode中汉字“你”的编码为“u4F60”，把它转换为二进制为100111101100000，然后按照UTF-8的方法进行转换。可以将Unicode二进制从地位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下所示的格式，前面按格式填补，不足8位用0填补。

unicode: 100111101100000                  4F60

utf-8:    11100100,10111101,10100000       E4BDA0

5)逆转换 UTF-8转换成Unicode

从上面就可以很直观的看出Unicode到UTF-8之间的转换，当然知道了UTF-8的格式后，就可以进行逆运算，就是按照格式把它在二进制中的相应位置上取出，然后在转换就是所得到的Unicode字符了（这个运算可以通过“位移”来完成）。

举例说明Unicode 和UTF-8之间的转换的更多相关文章

java中unicode utf-8以及汉字之间的转换工具类
1. 汉字字符串与unicode之间的转换 1.1 stringToUnicode /** * 获取字符串的unicode编码 * 汉字"木"的Uni ...
Java 经典实例： Unicode字符和String之间的转换
在Java诞生之际,Unicode码是一个16位的字符集,因此char值似乎顺其自然为16位宽,多年来一个char变量几乎可以表示任何Unicode字符. /** * Created by Frank ...
golang实现unicode码和中文之间的转换
将中文转换为unicode码,使用golang中的strconv包中的QuoteToASCII直接进行转换,将unicode码转换为中文就比较麻烦一点,先对unicode编码按\u进行分割,然后使用s ...
Ansi、Unicode、UTF8字符串之间的转换和写入文本文件
转载请注明出处http://www.cppblog.com/greatws/archive/2008/08/31/60546.html 最近有人问我关于这个的问题,就此写一篇blog Ansi字符串我 ...
CString-int-string-char-BSTR之间的转换
一．CString, int, string, char*之间的转换 string 转 CString CString.Format("%s", string.c_str());c ...
Python - 字符和字符值之间的转换
字符和字符值之间的转换 Python中, 字符和字符值, 直接的转换, 包含ASCII码和字母之间的转换,Unicode码和数字之间的转换; 也可以使用map, 进行批量转换, 输出为集合, 使用jo ...
Unicode和UTF的关系
目录结构: contents structure [+] 什么是USC UCS的编码方式 Unicode的来源为什么需要Unicode Unicode的方式 Unicode和UTF UTF和Unic ...
汉字编码（【Unicode】【UTF-8】【Unicode与UTF-8之间的转换】【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】）
Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围:http: ...
Unicode、UTF－8 和 ISO8859-1
Unicode.UTF-8 和 ISO8859-1到底有什么区别 1.本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文" ...

随机推荐

Orchard Core 中数据库使用postgresql-10
在配置好Startup.cs后,运行程序: 首先需要设置一些基本信息.这里我试着配置如下,数据库使用postgresql,连接字符串像这样: Host=192.168.0.111;UserName=u ...
并查集——易爆物D305
部分内容摘自博客http://blog.csdn.net/u012881011/article/details/46883863,感谢易爆物D305 运行时间限制:1000m ...
【Loadrunner】Loadrunner 手动关联技术
Loadrunner 手动关联技术录制成功,回放失败,怀疑和动态数据有关: 1 重新录制一份脚本,两次录制的脚本进行比对,确定动态数据,复制动态数据: 2 找到第一次产生该动态数据的响应对应的相应 ...
SHOW STATUS 查看各种类型SQL执行的频率
通过 SHOW STATUS 可以提供服务器状态信息,也可以使用 mysqladmin extendedstatus 命令获得.SHOW STATUS 可以根据需要显示 session 级别的统计结果 ...
MySQL5.7配置基于GTID的复制
MySQL5.7下配置GTID复制的方法: 修改主库和从库的配置文件,加入下列部分的配置项:主库:[mysqld]log-bin=mysql-binbinlog_format= ROWgtid-mod ...
Python3学习之路~5.7 Json & pickle 模块
用于序列化的两个模块 json,用于字符串和 python数据类型间进行转换 pickle,用于python特有的类型和 python的数据类型间进行转换 Json模块提供了四个功能:dumps. ...
C++中类的前向声明
概念可以声明一个类而不是定义它; class Screen; 这个声明被称为"前向声明".在声明之后,定义之前,类screen是一个不完全类型,即已知Screen是一个类型,但不 ...
【设计模式】用追MM来解释23种设计模式，转
创建型模式 1.FACTORY—追MM少不了请吃饭了,麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西,虽然口味有所不同,但不管你带MM去麦当劳或肯德基,只管向服务员说“来四个鸡翅”就行了.麦当劳和肯德基 ...
windows下使用pyinstaller把python文件打包成exe可执行文件
使用pyinstaller打包有个好处就是所有依赖都打包进去了,可以随意把文件移动到别的电脑上使用安装 pip install pyinstaller 新建一个demo.py文件 #!/usr/bi ...
gerrit设置非小组成员禁止下载代码
对gerrit有所了解的同学,都知道gerrit 是我们常用的一个来做代码审核的工具,其中的权限管理,是一个非常重要的环节,关于每个权限的使用范围,可以参考博客https://blog.csdn.ne ...