如果你现在使用的是chrome查看那么你是看不到我标题中的汉字的，显示为一个小方框，但是你使用edge查看的话，这个字就能正常的显示出来，不信你试试！

本故事源于我在做数据过程中遇到Unicode编码中的私人使用区PUA编码的汉字，然后导入到产品端后他们说有些汉字是乱码无法显示，然后针对这个问题进行了排查。

首先在我标题中的汉字是如下汉字：

Unicode

其实我之前的文章都提到过很多编码的问题，平时对编码问题也比较了解，所以拿到这个问题首先我这边数据处理用的utf-8，关于utf-8和unicode的关系就不赘述了。因为我这边能正常在sqlserver里面看到这个字，所以可以确定它不是一个乱码，至少是一个符合规范的unicode编码。然后我用工具查看了这个字的编码为 U+E188。查看文字的unioncode编码也可以使用在线工具https://symbl.cc/cn/

关于Unicode的分区：

在Unicode中，码位的总范围为\x0到\x10FFFF，共1,114,112个码位。2048个用于编码代理(UTF-16)，66个非字符码位(例如BOM)，137,468个预留给私人使用，最终剩余974,530用于普通字符分配。

码位的最大值为\x10FFFF，对应二进制有21位，将2^{16个值分为一组，Unicode总共可以分为17份，每一份称之为平面(Plane)，每一个平面有65,536(2}16)个码位。

为什么Unicode的最大值为\x10FFFF？因为对于UTF16编码，双字节最多可编码2^{20个字符，单字节可编码2}16个字符，加起来共17个平面的字符数。

平面编号	码位范围	名称简写	名称描述
Plane 0	0000–FFFF	BMP	基础多语言平面(Basic Multilingual Plane)
Plane 2	10000–1FFFF	SMP	补充多语言平面(Supplementary Multilingual Plane)
Plane 2	20000–2FFFF	SIP	补充表意语言平面(Supplementary Ideographic Plane)
Plane 3	30000–3FFFF	TIP	第三表意语言平面(Tertiary Ideographic Plane)
Planes 4–13	40000–DFFFF	- (未分配)	- (未分配)
Plane 14	E0000–EFFFF	SSP	补充特殊用途平面(Supplementary Special-purpose Plane)
Planes 15–16	F0000–10FFFF	SPUA-A/B	补充私有使用区平面(Supplementary Private Use Area planes)

通过这个平面表我们可以看到该字的编码在BMP中，Unicode中，私人使用区(PUA)是一系列代码点，根据定义，Unicode 联盟不会为其分配字符，定义了二个私人使用区域:一个位于基本多语言平面( U+E000-U+F8FF),一个位于并几乎覆盖平面 15 和 16(U+F0000-U+FFFFD ,U+ 100000-U+10FFFD )即SPUA。这些区域中的代码点不能被视为 Unicode 本身的标准化字符。

字符集和字体

Windows 允许在双字节字符集中 (DBCS) 和 Unicode 中对非标准字符进行本地定义。对于 DBCS，这些非标准字符称为最终用户定义字符， (EUDC) 。 Unicode 通过其专用区域 (PUA) 提供类似的功能。应用程序通过使用关联的 DBCS 或 Unicode 字符值来标识指定的字符。

可以分配的 DBCS 字符值取决于指定的字符集。每个东亚 Windows 代码页至少有一个保留值范围用作 EUDC。范围由 EUDCCodeRange 注册表项定义。用于此目的的 Unicode 值始终来自 Unicode PUA，值 U+E000 到 U+F8FF，U+F0000 到 U+FFFFD，U+100000 到 U+10FFFD。

若要创建 EUDC 或 PUA 字符，用户选择指定范围内的字符值，并将字形添加到与该字符值相对应的条目中的字体中。用户使用 EUDC 编辑器或使用从字体供应商处购买的字体包创建字形。任何 DBCS 字体都可以包含 EUDC，任何 Unicode 字体都可以包含 PUA 字符。如果字体仅包含 EUDC/PUA，则称为“独立”EUDC/PUA 字体。如果字体包含标准字符和 EUDC，则为“集成”EUDC/PUA 字体。

系统默认的 EUDC/PUA 字体是操作系统自动与所有 DBCS 和 Unicode 字体关联的字体，但具有显式关联的 EUDC/PUA 字体的字体除外。应用程序通过在 EUDC 注册表项下设置 SystemDefaultEUDCFont 名称的值来设置系统默认的 EUDC /PUA 字体。同样，应用程序可以通过在 EUDC 键下指定字体名称和关联的字体文件，将单独的 EUDC/PUA 字体与相应的字体相关联。操作系统始终首先尝试查找当前所选字体中的 EUDC/PUA。如果未找到该字体，则操作系统将在关联的 EUDC/PUA 字体中查找字符（如果已为当前所选字体定义了一个字体）。如果仍然找不到字符，操作系统将在系统默认的 EUDC/PUA 字体中查找它。

TrueType 字体可以安装为 .ttf 文件或 .tte 文件。由于操作系统隐藏 .tte 文件，因此应用程序无法使用 GDI API 函数枚举或以其他方式检查已安装的字体。在许多操作系统上，系统默认的 EUDC/PUA 字体和单独的 EUDC/PUA 字体作为 .tte 文件安装。 EUDC 编辑器和控制面板等应用程序必须使用注册表项来添加、修改和删除此类字体

上面描述摘自微软文档https://learn.microsoft.com/zh-cn/windows/win32/intl/character-sets-and-fonts

EUDC 注册表项包含一个或多个子项，这些子项包含的值定义与给定代码页的最终用户定义字符关联的字体 (EUDC) 。它具有以下注册表位置：

HKEY_CURRENT_USER\EUDC

EUDCCodeRange 注册表项 (EUDC) 代码范围 (字符集) 定义最终用户定义字符。它仅由创建 EUDC 的工具使用，对欧盟发展委员会用户没有直接关系。

显示

所以为啥微软系的应用能够显示这个字呢，上面字符集和字体描述可以看到自己可以定义EUDC，在微软字符映射表中有一类叫做“专用字符”，而这个专用字符就是我们自己可以定义的PUA区域。

我们找到系统的字符映射表：

可以看到这个字刚好对应U+E188。

我们找到注册表，并查看上面表格中codePage中对应的936为中文简体，看到字体文件位置。

找到对应的字体文件，并引入到html中，我们就能在任何浏览器看到这个字了。

简单的写一个html：

<html>

	<head>

		<meta http-equiv="Content-Type" content="text/html; charset=utf-8">

		<style>

		@font-face {

			font-family: "SGPYEUDC";

			src: url("SGPYEUDC_1.TTE") format("truetype");

		}

		</style>

	</head>

	<body style="font-family:Microsoft YaHei,SGPYEUDC">

		<p></p>

	</body>

</html>

你能看到这个汉字么“  ” ？关于Unicode的私人使用区(PUA) 和浏览器端显示处理的更多相关文章

json_encode如何防止汉字转义成unicode
众所周知,json_encode通常会把json中的汉字转义成unicode,但是这并不一定是我们想要的.有时候,我们需要获得汉字形式的json字符串,比如需要获得gbk编码的json字符串(只要把汉 ...
简体和繁体加起来有六七万个汉字，所以Unicode只能排除一些几乎不用的汉字，Unicode编码的熟悉与研究过程（内附全部汉字编码列表）
我有一个问题是:是不是会有个别汉字无法在Unicode下表示,这种情况下就不能完全显示了? 各种编码查询表:http://bm.kdd.cc/ ---------------------------- ...
FreeMarker的基础语法
FreeMarker语言 FreeMarker语言概述 FreeMarker是一个模板引擎,一个基于模板生成文本输出的通用工具,使用纯Java编写. FreeMarker被设计用来生成HTML Web ...
FreeMarker的基础语法使用 && 心得和技巧
FreeMarker语言 FreeMarker语言概述 FreeMarker是一个模板引擎,一个基于模板生成文本输出的通用工具,使用纯Java编写. FreeMarker被设计用来生成HTML Web ...
freemarker模版引擎技术总结
FreeMarker语言概述 FreeMarker是一个模板引擎,一个基于模板生成文本输出的通用工具,使用纯Java编写. FreeMarker被设计用来生成HTML Web页面,特别是基于MVC模式 ...
.Net(c#)汉字和Unicode编码互相转换
{"Tilte": "\u535a\u5ba2\u56ed", "Href": "http://www.cnblogs.com&q ...
各种编码中汉字所占字节数；中文字符集编码Unicode ,gb2312 , cp936 ,GBK，GB18030
vim settings set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936,latin1set termencoding=utf-8se ...
JS之汉字与Unicode码的相互转化
有时候,我们在给后端传递变量的的值中有汉字,可能由于编码的原因,传递到后端后变为乱码了.所以有时候为了省事或者其它特殊要求的时候,会把传递的汉字转换成Unicode编码后再进行传递. 当然汉字转换成u ...
python3进行汉字和unicode码的转换
输出某个unicode码对应的汉字和某个汉字对应的unicode编码. # -*- coding=UTF-8 -*- str1 = "\u6000"#某个汉字的unicode码 s ...
c# 实现获取汉字十六进制Unicode编码字符串
1. 汉字转十六进制UNICODE编码字符串 /// <summary> /// //// /// </summary> /// & ...

随机推荐

vue全家桶进阶之路20：ECMAScript脚本语言规范
ECMAScript(简称 ES)是一种由 Ecma 国际组织定义的脚本语言标准,它定义了 JavaScript 语言的基本规范和特性.JavaScript 是一种基于 ECMAScript 标准的编 ...
drf——restful规范、序列化反序列化、drf介绍和快速使用、drf之APIView源码
1.restful规范 # restful是一种定义API接口的设计风格,API接口的编写规范,尤其适用于前后端分离的应用模式中这种风格的理念人为后端开发任务就是提供数据的,对外提供的是数据资源的访 ...
ADG级联备库环境PSU应用验证
上篇文章源端为备库的场景下Duplicate失败问题我只在中间备库环境应用了PSU,解决了级联备库从中间备库duplicate数据库的问题: 细心的朋友已经发现,因为是备库环境,并没有做数据库执行 ...
ODOO升级可能遇到问题
a,找不到模块或视图不存在. 解决方案:查看是否将相应py文件加入到__init__文件中,或xml文件加入到manifest->data文件中. b, 找不到关联模块. 解决方案:这种一般要么 ...
python---序列化小结
python 序列化 1 什么叫序列化在我们存储数据或网络传输数据时候,需要多我们对象进行处理,把对象处理成方便储存和网络传输的数据格式,这个过程叫做序列化 2 对象序列化有三种方式; 2.1 pi ...
玩转服务器之网站篇：新手使用WordPress搭建博客和静态网站部署
静态网站部署和WordPress搭建博客都是网站运营中常见的工作.静态网站是一种不需要服务器端脚本的网站形式,通常使用HTML.CSS和JavaScript等静态资源进行构建和显示.而WordPres ...
00.XML入门
0.了解XML Extensible Markup Language 可扩展标记语言申明信息不算元素,左图中book为根元素,根元素有且仅有一个; 1.初识XML 1.3用IDE创建xml(以ecl ...
曲线艺术编程 coding curves 第八章贝赛尔曲线（Bézier Curves）
贝赛尔曲线(Bézier Curves) 原作:Keith Peters https://www.bit-101.com/blog/2022/11/coding-curves/ 译者:池中物王二狗(s ...
大数据实战手册-开发篇之IO
2.4 sparkContext IO:读 2.4.1 textFile # Load a text file and convert each line to a Row. lines = sc.t ...
快上车，搭乘HUAWEI HiCar驶向未来
HUAWEI HiCar(以下简称HiCar)是华为提供的人-车-家全场景智慧互联解决方案,连接手机与车辆,充分发挥各自的优势属性,将手机的应用/服务生态延伸进车辆,实现以手机为核心的全场景体验.消费 ...

你能看到这个汉字么“  ” ？关于Unicode的私人使用区(PUA) 和浏览器端显示处理

Unicode

字符集和字体

显示

你能看到这个汉字么“  ” ？关于Unicode的私人使用区(PUA) 和浏览器端显示处理的更多相关文章

随机推荐

热门专题