计算机只能处理二进制,因此需要把文字表示为二进制才能被计算机理解和识别。
一般的做法是为每一个字母或汉字分配一个id,然后用二进制表示这个id,存在内存或磁盘中。计算机可以根据二进制数据知道这个id是什么,然后再根据id来知道二进制数据表示的是什么字母或汉字。
Unicode做的事情是为每一个字母或汉字分配id。
UTF-8、UTF-16、UTF-32是三种把Unicode 的code point表示为二进制的方法,一般我们称之为编码格式。

Unicode Standard包括哪些字符(Characters)

Unicode标准为所有的主流语言的字符指定了码位,包括西欧、中东、东亚的很多语言。此外,还包括标点符号、变音符号、数学符号、科技符号、箭头、装饰符号、emoji等。
最常用的字符在最起始的64K个code point中,这部分codespace叫做基本多语言平面(basic multilingual plane),简称BMP。除此之外,还包括16个其他的supplementary planes供其他字符使用。
Unicode为个人保留了一些code point,厂商或个人可以指定自己的字符或符号。在BMP中有6400个private的code point,在supplementary plane有131,068个保留的code point。

编码格式

即把code point编码为二进制的方法。
先看下code unit的概念。

The minimal bit combination that can represent a unit of encoded text for processing or interchange. The Unicode Standard uses 8-bit code units in the UTF-8 encoding form, 16-bit code units in the UTF-16 encoding form, and 32-bit code units in the UTF-32 encoding form.

  • UTF-8
    把Unicode字符表示为变长的比特,和ASCII码完美兼容。也就是说对于ASCII码,用一个字节表示,其他字符用2个或者更多个字节表示。code unit的长度是8bit。
  • UTF-16
    常用与存储空间和获取字符效率需要取得平衡的场景。常用的字符用16bit(一个code unit)编码,其他的用一对code unit编码(pairs of 16-bit code units)。
  • UTF-32
    用户存储空间不是问题,需要等宽的code unit的场景。每一个Unicode字符被表示为32bit。

定义文本的元素(Defining Elements of Text)

文本的组成元素在不同的场景下有所不同。比如在历史上的西班牙语,“ll”是一个单独的元素,但是当这个字符在输入时,“ll”是两个“l”的组合。
Unicode定义了code elements(通常意义的“characters”),即用于计算机文本处理的基本元素。在上面的例子中,把两个“l”合并为一个“ll”是文本处理软件的事情。

字符序列(Character Sequences)

有时候,text element可以由多个character表示,这些多个character组成的序列叫做combining character sequences
比如说“â”可以表示为 “a”和“^”的组合。Unicode定义了这些组合的顺序,一般是基本的字符“a”在前,紧跟着一个non-spacing(不占空间?)的符号“^”。
一些字符按顺序排列可以表示一个单独的字符,叫做precomposed charactercomposite characterdecomposable character。比如“ü”有一个单独的code point U+00FC,也可以表示为基本字母“u”(U+0075)后跟着一个non-spacing字符“¨”(U+0308)。这样子便于排序,因为有时候字母的变形并不影响排序。
也就是说,一个字符有多个表示方法,Unicode又给出了判断字符是否相等的方法。

Programs should always compare canonical-equivalent Unicode strings as equal (For the details of this requirement, see Section 3.2, Conformance Requirements and Section 3.7, Decomposition, in The Unicode Standard). One of the easiest ways to do this is to use a normalized form for the strings: if strings are transformed into their normalized forms, then canonical-equivalent ones will also have precisely the same binary representation. The Unicode Standard provides well-defined normalization forms that can be used for this: NFC and NFD.

参考

The Unicode® Standard: A Technical Introduction
Unicode equivalence wiki
CANONICAL EQUIVALENCE IN APPLICATIONS
FAQ Normalization

Unicode简介的更多相关文章

  1. Windows程序设计(第五版)学习:第二章 Unicode简介

    第二章 Unicode简介 1,Windows通过双字节技术DBCS解决这个问题,代码页定义不同的字符集,称为ANSI字符集,比如日文为CP932,韩文为CP949,繁体中文为CP950,简体中文为C ...

  2. Windows程序设计--(二)Unicode 简介

    2.2 宽字符和C语言 2.2.2 更宽的字符 在C语言中的宽字符正是基于short型数据的, 这一数据类型在头文件WCHAR.H中的定义为: typedef unsigned short wchar ...

  3. 第二章 Unicode简介

    /*------------------------------------------------------------- screensize.cpp -- Displays screen si ...

  4. unicode 编码总结

    unicode简介: unicode又称为unicode character set,缩写为ucs,意为字符集.编码方式有utf-7,utf-8,utf-16,utf-32几种,常用的是utf-8和u ...

  5. UNICODE编码表

    UNICODE简介 Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进 ...

  6. Unicode、UTF-8、UTF-16 终于懂了

    计算机起源于美国,上个世纪,他们对英语字符与二进制位之间的关系做了统一规定,并制定了一套字符编码规则,这套编码规则被称为ASCII编码 ASCII 编码一共定义了128个字符的编码规则,用七位二进制表 ...

  7. Python 编码简单说

    先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...

  8. Java 中文字符判断 中文标点符号判断

    Java Character 实现Unicode字符集介绍  CJK中文字符和中文标点判断 主要内容: 1. Java Character类介绍: 2. Unicode 简介及 UnicodeBloc ...

  9. [十一]基础数据类型之Character

    Character与Unicode Character 基本数据类型char  的包装类 Character 类型的对象包含一个 char 类型的字段   该类提供了几种方法来确定字符的类别(小写字母 ...

随机推荐

  1. BZOJ 2127: happiness [最小割]

    2127: happiness Time Limit: 51 Sec  Memory Limit: 259 MBSubmit: 1815  Solved: 878[Submit][Status][Di ...

  2. Fedora 22中的Locale and Keyboard Configuration

    Introduction The system locale specifies the language settings of system services and user interface ...

  3. ASP.NET MVC Model验证(四)

    ASP.NET MVC Model验证(四) 前言 本篇主要讲解ModelValidatorProvider 和ModelValidator两种类型的自定义实现,前者是Model验证提供程序,而Mod ...

  4. egret GUI 和 egret Wing 是我看到h5 最渣的设计

    一个抄袭FlexLite抄的连自己思想都没有,别人精髓都不懂的垃圾框架.也不学学MornUI,好歹有点自己想法. 先来个最小可用集合吧: 1. egret create legogame --type ...

  5. Azure Queue Storage 基本用法 -- Azure Storage 之 Queue

    Azure Storage 是微软 Azure 云提供的云端存储解决方案,当前支持的存储类型有 Blob.Queue.File 和 Table. 笔者在<Azure File Storage 基 ...

  6. ABP(现代ASP.NET样板开发框架)系列之17、ABP应用层——参数有效性验证

    点这里进入ABP系列文章总目录 基于DDD的现代ASP.NET开发框架--ABP系列之17.ABP应用层——参数有效性验证 ABP是“ASP.NET Boilerplate Project (ASP. ...

  7. xamarin优化listView.ScrollTo

    在xamarinz中关于listview的滚动,我这里有点小优化,我做了一个类似QQ的聊天页面,上面是一个listview,下面时一个editText,当在手机上使用时,发现在android平台下,如 ...

  8. ceph架构剖析

    unitedstack有云 :https://www.ustack.com/blog/ceph_infra/

  9. [转载]从MyEclipse到IntelliJ IDEA-让你摆脱鼠标,全键盘操作

    从MyEclipse转战到IntelliJ IDEA的经历 注转载址:http://blog.csdn.net/luoweifu/article/details/13985835 我一个朋友写了一篇“ ...

  10. QunInfo群数据库的还原与优化

    一. 背景 这个数据库的数据文件mdf大概有8.5G左右,当还原数据库之后感觉可以做很多性能方面上的调优,合并数据后mdf数据文件大概有6.2G左右,行压缩后mdf数据文件大概有4.8G左右,页压缩后 ...