Unicode简介
计算机只能处理二进制,因此需要把文字表示为二进制才能被计算机理解和识别。
一般的做法是为每一个字母或汉字分配一个id,然后用二进制表示这个id,存在内存或磁盘中。计算机可以根据二进制数据知道这个id是什么,然后再根据id来知道二进制数据表示的是什么字母或汉字。
Unicode做的事情是为每一个字母或汉字分配id。
UTF-8、UTF-16、UTF-32是三种把Unicode 的code point表示为二进制的方法,一般我们称之为编码格式。
Unicode Standard包括哪些字符(Characters)
Unicode标准为所有的主流语言的字符指定了码位,包括西欧、中东、东亚的很多语言。此外,还包括标点符号、变音符号、数学符号、科技符号、箭头、装饰符号、emoji等。
最常用的字符在最起始的64K个code point中,这部分codespace叫做基本多语言平面(basic multilingual plane),简称BMP。除此之外,还包括16个其他的supplementary planes供其他字符使用。
Unicode为个人保留了一些code point,厂商或个人可以指定自己的字符或符号。在BMP中有6400个private的code point,在supplementary plane有131,068个保留的code point。
编码格式
即把code point编码为二进制的方法。
先看下code unit的概念。
The minimal bit combination that can represent a unit of encoded text for processing or interchange. The Unicode Standard uses 8-bit code units in the UTF-8 encoding form, 16-bit code units in the UTF-16 encoding form, and 32-bit code units in the UTF-32 encoding form.
- UTF-8
把Unicode字符表示为变长的比特,和ASCII码完美兼容。也就是说对于ASCII码,用一个字节表示,其他字符用2个或者更多个字节表示。code unit的长度是8bit。 - UTF-16
常用与存储空间和获取字符效率需要取得平衡的场景。常用的字符用16bit(一个code unit)编码,其他的用一对code unit编码(pairs of 16-bit code units)。 - UTF-32
用户存储空间不是问题,需要等宽的code unit的场景。每一个Unicode字符被表示为32bit。
定义文本的元素(Defining Elements of Text)
文本的组成元素在不同的场景下有所不同。比如在历史上的西班牙语,“ll”是一个单独的元素,但是当这个字符在输入时,“ll”是两个“l”的组合。
Unicode定义了code elements(通常意义的“characters”),即用于计算机文本处理的基本元素。在上面的例子中,把两个“l”合并为一个“ll”是文本处理软件的事情。
字符序列(Character Sequences)
有时候,text element可以由多个character表示,这些多个character组成的序列叫做combining character sequences。
比如说“â”可以表示为 “a”和“^”的组合。Unicode定义了这些组合的顺序,一般是基本的字符“a”在前,紧跟着一个non-spacing(不占空间?)的符号“^”。
一些字符按顺序排列可以表示一个单独的字符,叫做precomposed character或composite character、decomposable character。比如“ü”有一个单独的code point U+00FC,也可以表示为基本字母“u”(U+0075)后跟着一个non-spacing字符“¨”(U+0308)。这样子便于排序,因为有时候字母的变形并不影响排序。
也就是说,一个字符有多个表示方法,Unicode又给出了判断字符是否相等的方法。
Programs should always compare canonical-equivalent Unicode strings as equal (For the details of this requirement, see Section 3.2, Conformance Requirements and Section 3.7, Decomposition, in The Unicode Standard). One of the easiest ways to do this is to use a normalized form for the strings: if strings are transformed into their normalized forms, then canonical-equivalent ones will also have precisely the same binary representation. The Unicode Standard provides well-defined normalization forms that can be used for this: NFC and NFD.
参考
The Unicode® Standard: A Technical Introduction
Unicode equivalence wiki
CANONICAL EQUIVALENCE IN APPLICATIONS
FAQ Normalization
Unicode简介的更多相关文章
- Windows程序设计(第五版)学习:第二章 Unicode简介
第二章 Unicode简介 1,Windows通过双字节技术DBCS解决这个问题,代码页定义不同的字符集,称为ANSI字符集,比如日文为CP932,韩文为CP949,繁体中文为CP950,简体中文为C ...
- Windows程序设计--(二)Unicode 简介
2.2 宽字符和C语言 2.2.2 更宽的字符 在C语言中的宽字符正是基于short型数据的, 这一数据类型在头文件WCHAR.H中的定义为: typedef unsigned short wchar ...
- 第二章 Unicode简介
/*------------------------------------------------------------- screensize.cpp -- Displays screen si ...
- unicode 编码总结
unicode简介: unicode又称为unicode character set,缩写为ucs,意为字符集.编码方式有utf-7,utf-8,utf-16,utf-32几种,常用的是utf-8和u ...
- UNICODE编码表
UNICODE简介 Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进 ...
- Unicode、UTF-8、UTF-16 终于懂了
计算机起源于美国,上个世纪,他们对英语字符与二进制位之间的关系做了统一规定,并制定了一套字符编码规则,这套编码规则被称为ASCII编码 ASCII 编码一共定义了128个字符的编码规则,用七位二进制表 ...
- Python 编码简单说
先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...
- Java 中文字符判断 中文标点符号判断
Java Character 实现Unicode字符集介绍 CJK中文字符和中文标点判断 主要内容: 1. Java Character类介绍: 2. Unicode 简介及 UnicodeBloc ...
- [十一]基础数据类型之Character
Character与Unicode Character 基本数据类型char 的包装类 Character 类型的对象包含一个 char 类型的字段 该类提供了几种方法来确定字符的类别(小写字母 ...
随机推荐
- 第14章 Linux启动管理(2)_启动引导程序grub
2. 启动引导程序grub 2.1 Grub配置文件 (1)grub中分区的表示 硬盘 分区 Linux设备文件名 Grub中设备文件名 第1块SCSI硬盘 第1个主分区 /dev/sda1 hd(0 ...
- 让Mono 4在Raspberry Pi上飞
最近公司有项目想要在树莓派上做,代替原来的工控机(我们是把工控主机当作小的主机用,一台小的工控主机最少也要600左右,而树莓派只要200多).于是,公司买了一个Raspberry Pi B+和一个Ra ...
- Immutable(不可变)集合
不可变集合,顾名思义就是说集合是不可被修改的.集合的数据项是在创建的时候提供,并且在整个生命周期中都不可改变. 为什么要用immutable对象?immutable对象有以下的优点: 对不可靠的客户代 ...
- 延迟求值-如何让Lo-Dash再提速x100?
「注释」作者在本文里没有说明这么一个事实: 目前的版本Lo-Dash v2.4.1并没有引入延迟求值的特性,Lo-Dash 3.0.0-pre中部分方法进行了引入,比如filter(),map(),r ...
- Android开发之基本控件和详解四种布局方式
Android中的控件的使用方式和iOS中控件的使用方式基本相同,都是事件驱动.给控件添加事件也有接口回调和委托代理的方式.今天这篇博客就总结一下Android中常用的基本控件以及布局方式.说到布局方 ...
- Core Java 总结(关键字,特性问题)
2016-10-19 说说&和&&的区别 初级问题,但是还是加入了笔记,因为得满分不容易. &和&&都可以用作逻辑与的运算(两边是boolean类型), ...
- 探寻<a>中的href和onclick
一.知识点: onclick的方法参数必须加引号 href跳转参数有长度限制 href中执行js会把encodeURIComponent()编码之后的东西自动解码,有时会影响参数传递 a标签中的onc ...
- Java豆瓣电影爬虫——小爬虫成长记(附源码)
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
- docker对数据卷容器进行备份
转载请注明出处 官网的数据以及各大博客都没有对这个的具体说明,本人也是理解了好久. 我们使用docker的过程中,使用共享的数据卷是经常的,那么.我们要怎么进行备份呢? 首先,我们得了解下面4个命 ...
- Docker容器环境下ASP.NET Core Web API应用程序的调试
本文主要介绍通过Visual Studio 2015 Tools for Docker – Preview插件,在Docker容器环境下,对ASP.NET Core Web API应用程序进行调试.在 ...