举例说明Unicode 和UTF-8之间的转换

筱筱的春天 2024-10-24 20:32:33 原文

1)写这篇博客的原因

首先我要感谢这篇博客，卡了很久，看完下面这篇博客终于明白Unicode怎么转换成UTF-8了。

https://blog.csdn.net/qq_32252957/article/details/83054183

2)啰嗦一些相关的东西

Unicode是一个字符集，Unicode是定长的都为双字节。

对于汉字来说Unicode占有的字节比UTF-8占用的字节少1个字节。Unicode为双字节，而UTF-8中汉字占三个字节。

Unicode为双字节，而UTF-8中汉字占三个字节。

Unicode为双字节，而UTF-8中汉字占三个字节。

3)UTF-8编码表

        U-00000000 - U-0000007F: 0xxxxxxx

        U-00000080 - U-000007FF: 110xxxxx 10xxxxxx

        U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx

        U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

        U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

        U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

在多字节串中, 第一个字节的开头"1"的数目就是整个串中字节的数目。而第一行中以0开头，是为了兼容ASCII编码，为一个字节，第二行就为双字节字符串，第三行为3字节，如汉字就属于这种，以此类推。(个人认为：其实我们可以简单的把前面的1的个数看成字节数)

4)例子

为了要将Unicode转换为UTF-8，当然要知道他们的区别到底在什么地方。下面来看一下，在Unicode中的编码是怎样转换成UTF-8的，在UTF-8中，如果一个字符的字节小于0x80（128）则为ASCII字符，占一个字节，可以不用转换，因为UTF-8兼容ASCII编码。假如在Unicode中汉字“你”的编码为“u4F60”，把它转换为二进制为100111101100000，然后按照UTF-8的方法进行转换。可以将Unicode二进制从地位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下所示的格式，前面按格式填补，不足8位用0填补。

unicode: 100111101100000                  4F60

utf-8:    11100100,10111101,10100000       E4BDA0

5)逆转换 UTF-8转换成Unicode

从上面就可以很直观的看出Unicode到UTF-8之间的转换，当然知道了UTF-8的格式后，就可以进行逆运算，就是按照格式把它在二进制中的相应位置上取出，然后在转换就是所得到的Unicode字符了（这个运算可以通过“位移”来完成）。

举例说明Unicode 和UTF-8之间的转换的更多相关文章

java中unicode utf-8以及汉字之间的转换工具类
1. 汉字字符串与unicode之间的转换 1.1 stringToUnicode /** * 获取字符串的unicode编码 * 汉字"木"的Uni ...
Java 经典实例： Unicode字符和String之间的转换
在Java诞生之际,Unicode码是一个16位的字符集,因此char值似乎顺其自然为16位宽,多年来一个char变量几乎可以表示任何Unicode字符. /** * Created by Frank ...
golang实现unicode码和中文之间的转换
将中文转换为unicode码,使用golang中的strconv包中的QuoteToASCII直接进行转换,将unicode码转换为中文就比较麻烦一点,先对unicode编码按\u进行分割,然后使用s ...
Ansi、Unicode、UTF8字符串之间的转换和写入文本文件
转载请注明出处http://www.cppblog.com/greatws/archive/2008/08/31/60546.html 最近有人问我关于这个的问题,就此写一篇blog Ansi字符串我 ...
CString-int-string-char-BSTR之间的转换
一．CString, int, string, char*之间的转换 string 转 CString CString.Format("%s", string.c_str());c ...
Python - 字符和字符值之间的转换
字符和字符值之间的转换 Python中, 字符和字符值, 直接的转换, 包含ASCII码和字母之间的转换,Unicode码和数字之间的转换; 也可以使用map, 进行批量转换, 输出为集合, 使用jo ...
Unicode和UTF的关系
目录结构: contents structure [+] 什么是USC UCS的编码方式 Unicode的来源为什么需要Unicode Unicode的方式 Unicode和UTF UTF和Unic ...
汉字编码（【Unicode】【UTF-8】【Unicode与UTF-8之间的转换】【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】）
Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围:http: ...
Unicode、UTF－8 和 ISO8859-1
Unicode.UTF-8 和 ISO8859-1到底有什么区别 1.本文主要包括以下几个方面:编码基本知识,java,系统软件,url,工具软件等. 在下面的描述中,将以"中文" ...

随机推荐

27-5-LTDC控制LCD显示屏
1.显示原理 (1).液晶显示是分2层显示的,配置层级结构体参数再将数据输出到混合器合成,显示再液晶上. (2).LTDC初始化结构体控制 LTDC 涉及到非常多的寄存器,利用 LTDC 初始化结构 ...
c语言常见编程
//输入一个整数,然后按照原顺序输出相应字符 # import <stdio.h> void main() { void convert (int n); int a; printf (& ...
mysql-utilities1.6
mysql-utilities1.6 mysql-utilities是一个用python编写的mysql工具集 mysql-utilities是Oracle专门开发的一共有28个工具 /usr/bi ...
what's the python之if判断、while循环以及for循环
Python缩进原则顶级代码必须顶行写,即如果一行代码本身不依赖于任何条件,那它必须不能进行任何缩进同一级别的代码,缩进必须一致官方建议缩进用4个空格 Python程序语言指定任何非0和非空的布 ...
Fast-R-CNN
基于R-CNN和SPP-Net思想,RBG提出了Fast-R-CNN算法.如果选用VGG16网络进行特征提取,在训练阶段,Fast-R-CNN的速度相比RCNN和SPP-Net可以分别提升9倍和3倍: ...
asp.net中Request请求参数的自动封装
这两天在测一个小Demo的时候发现一个很蛋疼的问题----请求参数的获取和封装,例: 方便测试用所以这里是一个很简单的表单. <!DOCTYPE html> <html xmlns= ...
PHP 注册错误和异常处理机制
注册错误和异常处理机制有三个PHP函数需要学习 1. register_shutdown_function('Bootstrap\Library\Frame::fatalError'); 2. set ...
Spark Sql数仓报-Metastore contains multiple versions
Spark版本为2.1.0,Hadoop版本为2.7.1,元数据存储在mysql中,异常信息如下: Exception in thread "main" java.lang.Run ...
（转）面试必备技能：JDK动态代理给Spring事务埋下的坑！
一.场景分析最近做项目遇到了一个很奇怪的问题,大致的业务场景是这样的:我们首先设定两个事务,事务parent和事务child,在Controller里边同时调用这两个方法,示例代码如下: 1.场景A ...
Python 初始函数
python之路——初识函数阅读目录为什么要用函数函数的定义与调用函数的返回值函数的参数本章小结为什么要用函数我们就想啊,要是我们能像使用len一样使用我们这一大段“计算长度”的代 ...