计算机只能处理二进制,因此需要把文字表示为二进制才能被计算机理解和识别。
一般的做法是为每一个字母或汉字分配一个id,然后用二进制表示这个id,存在内存或磁盘中。计算机可以根据二进制数据知道这个id是什么,然后再根据id来知道二进制数据表示的是什么字母或汉字。
Unicode做的事情是为每一个字母或汉字分配id。
UTF-8、UTF-16、UTF-32是三种把Unicode 的code point表示为二进制的方法,一般我们称之为编码格式。

Unicode Standard包括哪些字符(Characters)

Unicode标准为所有的主流语言的字符指定了码位,包括西欧、中东、东亚的很多语言。此外,还包括标点符号、变音符号、数学符号、科技符号、箭头、装饰符号、emoji等。
最常用的字符在最起始的64K个code point中,这部分codespace叫做基本多语言平面(basic multilingual plane),简称BMP。除此之外,还包括16个其他的supplementary planes供其他字符使用。
Unicode为个人保留了一些code point,厂商或个人可以指定自己的字符或符号。在BMP中有6400个private的code point,在supplementary plane有131,068个保留的code point。

编码格式

即把code point编码为二进制的方法。
先看下code unit的概念。

The minimal bit combination that can represent a unit of encoded text for processing or interchange. The Unicode Standard uses 8-bit code units in the UTF-8 encoding form, 16-bit code units in the UTF-16 encoding form, and 32-bit code units in the UTF-32 encoding form.

  • UTF-8
    把Unicode字符表示为变长的比特,和ASCII码完美兼容。也就是说对于ASCII码,用一个字节表示,其他字符用2个或者更多个字节表示。code unit的长度是8bit。
  • UTF-16
    常用与存储空间和获取字符效率需要取得平衡的场景。常用的字符用16bit(一个code unit)编码,其他的用一对code unit编码(pairs of 16-bit code units)。
  • UTF-32
    用户存储空间不是问题,需要等宽的code unit的场景。每一个Unicode字符被表示为32bit。

定义文本的元素(Defining Elements of Text)

文本的组成元素在不同的场景下有所不同。比如在历史上的西班牙语,“ll”是一个单独的元素,但是当这个字符在输入时,“ll”是两个“l”的组合。
Unicode定义了code elements(通常意义的“characters”),即用于计算机文本处理的基本元素。在上面的例子中,把两个“l”合并为一个“ll”是文本处理软件的事情。

字符序列(Character Sequences)

有时候,text element可以由多个character表示,这些多个character组成的序列叫做combining character sequences
比如说“â”可以表示为 “a”和“^”的组合。Unicode定义了这些组合的顺序,一般是基本的字符“a”在前,紧跟着一个non-spacing(不占空间?)的符号“^”。
一些字符按顺序排列可以表示一个单独的字符,叫做precomposed charactercomposite characterdecomposable character。比如“ü”有一个单独的code point U+00FC,也可以表示为基本字母“u”(U+0075)后跟着一个non-spacing字符“¨”(U+0308)。这样子便于排序,因为有时候字母的变形并不影响排序。
也就是说,一个字符有多个表示方法,Unicode又给出了判断字符是否相等的方法。

Programs should always compare canonical-equivalent Unicode strings as equal (For the details of this requirement, see Section 3.2, Conformance Requirements and Section 3.7, Decomposition, in The Unicode Standard). One of the easiest ways to do this is to use a normalized form for the strings: if strings are transformed into their normalized forms, then canonical-equivalent ones will also have precisely the same binary representation. The Unicode Standard provides well-defined normalization forms that can be used for this: NFC and NFD.

参考

The Unicode® Standard: A Technical Introduction
Unicode equivalence wiki
CANONICAL EQUIVALENCE IN APPLICATIONS
FAQ Normalization

Unicode简介的更多相关文章

  1. Windows程序设计(第五版)学习:第二章 Unicode简介

    第二章 Unicode简介 1,Windows通过双字节技术DBCS解决这个问题,代码页定义不同的字符集,称为ANSI字符集,比如日文为CP932,韩文为CP949,繁体中文为CP950,简体中文为C ...

  2. Windows程序设计--(二)Unicode 简介

    2.2 宽字符和C语言 2.2.2 更宽的字符 在C语言中的宽字符正是基于short型数据的, 这一数据类型在头文件WCHAR.H中的定义为: typedef unsigned short wchar ...

  3. 第二章 Unicode简介

    /*------------------------------------------------------------- screensize.cpp -- Displays screen si ...

  4. unicode 编码总结

    unicode简介: unicode又称为unicode character set,缩写为ucs,意为字符集.编码方式有utf-7,utf-8,utf-16,utf-32几种,常用的是utf-8和u ...

  5. UNICODE编码表

    UNICODE简介 Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进 ...

  6. Unicode、UTF-8、UTF-16 终于懂了

    计算机起源于美国,上个世纪,他们对英语字符与二进制位之间的关系做了统一规定,并制定了一套字符编码规则,这套编码规则被称为ASCII编码 ASCII 编码一共定义了128个字符的编码规则,用七位二进制表 ...

  7. Python 编码简单说

    先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...

  8. Java 中文字符判断 中文标点符号判断

    Java Character 实现Unicode字符集介绍  CJK中文字符和中文标点判断 主要内容: 1. Java Character类介绍: 2. Unicode 简介及 UnicodeBloc ...

  9. [十一]基础数据类型之Character

    Character与Unicode Character 基本数据类型char  的包装类 Character 类型的对象包含一个 char 类型的字段   该类提供了几种方法来确定字符的类别(小写字母 ...

随机推荐

  1. Forward+ Rendering Framework

    近几天啃各种新技术时又一个蛋疼的副产品...额,算是把AMD的Forward+ Sample抄了一遍吧. 其实个人感觉这个AMD大肆宣传的Forward+跟Intel很早之前提的Tiled-Based ...

  2. IM 去中心化概念模型与架构设计

    今天打算写写关于 IM 去中心化涉及的架构模型变化和设计思路,去中心化的概念就是说用户的访问不是集中在一个数据中心,这里的去中心是针对数据中心而言的. 站在这个角度而言,实际上并非所有的业务都能做去中 ...

  3. 淘宝UWP中的100个为什么

    从淘宝UWP第一版发布到现在,已经有十个月了,期间收到了用户各种各样的反馈,感谢这些用户的反馈,指导我们不断的修正.完善应用.但是也有一部分需求或建议,由于资源或技术的限制,目前确实无法做到,只能对广 ...

  4. 基于 SailingEase WinForm Framework 开发客户端程序(3:实现菜单/工具栏按钮的解耦及状态控制)

    本系列文章将详细阐述客户端应用程序的设计理念,实现方法. 本系列文章以  SailingEase WinForm Framework 为基础进行设计并实现,但其中的设计理念及方法,亦适用于任何类型的客 ...

  5. Windows Server 2008 小操作汇总

    用惯了Windows2003,去配置2008的时候还真有点摸不着头脑.干脆把有用到的都列在这里,方便后续查找. 一.安装IIS.Telnet      点击:开始 -> 管理工具 -> 服 ...

  6. [转]: stm328种GPIO模式

    [原创]:这段时间开始研究stm32,今天撸着一段代码一直追,追到了GPIO口模式的枚举类型这里,遂去网上查看这8种模式到底是什么,网上一查,看到了一个答案被很多博主转载或者原创,那我也就不重复废话了 ...

  7. Html5 简单选择排序演示

    简单选择排序,是选择排序算法的一种.基本思想:每趟从待排序的记录中选出关键字最小的记录,顺序放在已排序的记录序列末尾,直到全部排序结束为止.由于在每次循环中,会对数值相等的元素改变位置,所以属于非稳定 ...

  8. MySQL基础之视图

    关于视图 视图是虚表,其中并不存在数据,只是多个表的组成 使用视图的优势 视图可以代替复杂的查询SQL语句,可以事先将不同表的多个数据组织起来 提高权限控制管理,能够将权限限制为行级管理,更具有安全性 ...

  9. Redis学习手册(目录)

    为什么自己当初要选择Redis作为数据存储解决方案中的一员呢?现在能想到的原因主要有三.其一,Redis不仅性能高效,而且完全免费.其二,是基于C/C++开发的服务器,这里应该有一定的感情因素吧.最后 ...

  10. Function Set in OPEN CASCADE

    Function Set in OPEN CASCADE eryar@163.com Abstract. The common math algorithms library provides a C ...