由iPhone emoji问题牵出UTF-16编码,UTF-8编码查询
前言
iOS平台,系统输入法emoji表达。表达式不能在很多其他平台上显示,尤其是在Android。Symbian系统。我决定到底要探索1;我指的是一些知识:
(注意:该博文已经如果读者已经了解utf-8的知识了)
1. 笔者提供的“将字符串转化成unicode和utf-8”的工具。
2. 维基百科utf-16 点击打开
3. 笔者博文,utf-8的介绍 点击打开
4. 笔者博文,完整unicode码表(网页打开较慢) 点击打开
问题描写叙述
开发和产品讨论字符占用的字节数。有人说2个,有人说4个。还有开发说iPhone的表情是iOS自定特定的。以下介绍一下emoji表情。
比方,在输入框输入一个emoji——微笑,然后通过UTF-8转化工具,看看它的编码是什么情况:
能够看到Unicode编码是 D83D-DE03。utf-8的编码是F09F-9883.这个不平常的,以下会具体介绍。
这里须要注意一下:通常utf-8是1到3个字节的,也就是说在Unicode编码空间的第0个平面上。
这里有必要说明一下utf-8的编码规则(很多其它点击这里)如图所看到的:
就上面这个表格。我们举个样例:拿“汉”字的汉来说。
它的unicode是0x6C49。utf8是0xE6B189,带入公式,发现是合乎规则的。
我们再看看“微笑”emoji符号的Unicode:D83D-DE03,已经超过了最大的0X10FFFF了,超过了最大的了怎么回事???以下我们依据utf-8的值:F09F-9883.来反推Unicode相应的数值吧,看看到底是为什么:
得出的结果是0x1-F603。我把这个值叫做utf-16.这个结果跟Unicode:D83D-DE03的值相差非常大,所以,中间肯定经过了一些转换步骤。这个转换就是utf-16的代理!
。!
UFT-16
UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某种格式之意。上面第二张图片展示的是utf-8和unicode的相应表,这仅仅是一个简单的相应。却很好用。
在正常情况下一个Unicode两个字节。在转化uft-8的时候,依据协议。两个两个字节。相应一个uft-8这样完毕转化或者称为映射!
事实上在第0个平面中,专门有一个代理区域,不表示不论什么字符,仅仅用于指向第1到第16个平面中的字符,这段区域是:D800——DFFF.。当中0xD800——0xDBFF是前导代理(lead surrogates).0xDC00——0xDFFF是后尾代理(trail surrogates).
一个代理对儿(前导,后尾),就表示一个utf-16的字符。
就那emoji的微笑来说。前导是代理:D83D;后尾代理是:DE03。依据下图能够得出utf-16的值是:0x1-F603。这就照顾上了。
详细的公式是:0x10000 + (前导-0xD800) * 0x400 + (后导-0xDC00) = utf-16编码。
就我们说的样例emoji而言。代入前导和后导。结果是:0x10000+(0xD83D - 0xD800)*0x400 + (0xDE03-0xDC00) = 0x1F603
作为程序猿的我们,笔者做一个形象的比喻:这对儿(前导代理,后尾代理)就像一个指针,指向了第1——16平面上的每个码位。
经过计算,不难得出:16个平面X每个平面码位65536 = 1,048,576个。前导X后尾代理。能够表示的码位也是1,048,576个(哈!
真是一个完美的解决方式)如上图所看到的。
这样做的优点是:程序依据Unicode的第一个字节来推断:(伪代码)
if(Unicode第一个字节 >=0xD8 && Unicode <=0xDB){
//这是代理区域,表示第1——16平面的字符。每四个字节表示一个单元
}
else{
//这是正常映射区域,表示第0个平面。每两个字节表示一个单元。
}
这种结果是:依据这个协议推断。计算机能够知道两个字节,还是四个自己表示一个字符。
总结
这里说的utf-8和utf-16,事实上本质上是一样的。
仅仅是utf-8是一个直接的映射。而utf-16须要依据代理区的(前导代理,后尾代理)来映射。utf-16比utf-8多了一步而已!
话又说回来:假设不是代理区域的出现,就emoji 微笑的unicode: D83D-DE03为。
计算机甚至不知道这是不是一个字符。或两个字符?
版权声明:本文博客原创文章,博客,未经同意,不得转载。
由iPhone emoji问题牵出UTF-16编码,UTF-8编码查询的更多相关文章
- 记录一下通过分析Tomcat内部jar包找出request.getReader()所用的字符编码在哪里设置和起效的完整分析流程
前言: 之前写Java服务端处理POST请求时遇到了请求体转换成字符流所用编码来源的疑惑,在doPost方法里通过request.getReader()获取的BufferedReader对象内部的 R ...
- mysql存储emoji表情报错的处理方法【更改编码为utf8mb4】
utf-8编码可能2个字节.3个字节.4个字节的字符,但是MySQL的utf8编码只支持3字节的数据,而移动端的表情数据是4个字节的字符.如果直接往采用utf-8编码的数据库中插入表情数据,Java程 ...
- 一口气说出 Redis 16 个常见使用场景!
1.缓存 String类型 例如:热点数据缓存(例如报表.明星出轨),对象缓存.全页缓存.可以提升热点数据的访问数据. 文章首发于:http://ht5n8.cn/LEc6v 2.数据共享分布式 St ...
- 带emoji表情弹出层的评论框,semantic+emoji picker,java.sql.SQLException: Incorrect string value: '\xF0\x9F..'
在自己做一个项目玩时,在做评论的时候. 选中了semantic.js原型,这个在国内用的不是很多,但是在github上star数量很高,想当初我想找一个js框架是就在上面找的. semantic中文网 ...
- P2P风险淮安样本:5000万连锁漩涡牵出银行内案
春节后第一个工作周,来自南京的投资人李宏(化名)频繁游走于两个维权群,因为在江苏淮安的网贷平台投资经历,他结识了136名P2P投资人. 在他们的QQ群里,每个投资人的备注均为网名+投资额,如他自己的“ ...
- 小明很喜欢数学,有一天他在做数学作业时,要求计算出9~16的和,他马上就写出了正确答案是100。但是他并不满足于此,他在想究竟有多少种连续的正数序列的和为100(至少包括两个数)。没多久,他就得到另一组连续正数和为100的序列:18,19,20,21,22。现在把问题交给你,你能不能也很快的找出所有和为S的连续正数序列? Good Luck!
// test20.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include<iostream> #include< ...
- 去掉iphone上拨号弹出框
1.常规的方法可以直接去除默认事件event.preventDefault() 2.使用vue的话可以: <div @click.stop.prevent=</div> //或者 & ...
- [No000033]码农网-如何锻炼出最牛程序员的编码套路
最近,我大量阅读了Steve Yegge的文章.其中有一篇叫"Practicing Programming"(练习编程),写成于2005年,读后令我惊讶不已: 与你所相信的恰恰相反 ...
- 在PHP中对查询出得数据库数据进行json编码
select.php <?php $con = mysql_connect("localhost","Thh","920920thh" ...
随机推荐
- iOS7 文本转语音 AVSpeechSynthesizer
OS7 的这个功能确实不错.我刚试了下,用官方提供的API ,简单的几句代码就能实现文本转语音! Xcode 5.0 工程建好后首先把AVFoundation.framework 加入到工程 AVSp ...
- php判断页面是电脑登录还是手机登录
首先说最根本的解决方法: 手机访问时,会附带发送user-agent信息,这个信息里面会有手机号码信息,那么如果能取得手机号码,则可以肯定是通过手机wap访问的.但是目前 中国移动已经屏蔽了user- ...
- App如何选择移动广告平台的开发者3 - 选择标准广告平台
App开发公司.通常他们不能走品牌.要挑品牌的能力,我们将面临两大问题:业务团队.广告填充率.一系列的问题,以现金周期. 无线商务本才刚刚开始,大多数都是没有商业经验.产品.设计.运营.销售的人才都不 ...
- Android开发之文件下载,状态时显示下载进度,点击自动安装
在进行软件升级时,需要进行文件下载,在这里实现自定义的文件下载,并在状态栏显示下载进度,下载完成后,点击触发安装. 效果如图: 用于下载文件和显示现在进度的线程类如下: [java] view pl ...
- POJ 1659 Frogs' Neighborhood
转载请注明出处:http://blog.csdn.net/a1dark 分析:切图论切的第一道题.也是图论的例题.主要用到一个Havel-Hakimi 定理 有以下两种不合理的情形: (1) 某次对剩 ...
- STL源代码分析——STL算法remove删除算法
前言 因为在前文的<STL算法剖析>中,源代码剖析许多.不方便学习,也不方便以后复习,这里把这些算法进行归类.对他们单独的源代码剖析进行解说.本文介绍的STL算法中的remove删除算法. ...
- Ext4功能和文件系统的简单功能
Linux kernel 自 2.6.28 開始正式支持新的文件系统 Ext4. Ext4 是 Ext3 的改进版,改动了 Ext3 中部分重要的数据结构,而不只像 Ext3 对 Ext2 那样,不过 ...
- C#中使用gRPC
C#中使用gRPC 我的这几篇文章都是使用gRPC的example,不是直接编译example,而是新建一个项目,从添加依赖,编译example代码,执行example.这样做可以为我们创建自己的项目 ...
- OGG-01008 Extract displays Discarding bad record (discard recs=1) when using filter or where clause
因为在extract參数文件里使用了where语句,而where后面的的条件列又不是主键,没有为update.delete操作记录日志,因此会报1008错误. Applies to: Oracle G ...
- [ACM] POJ 3687 Labeling Balls (拓扑排序,反向生成端)
Labeling Balls Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 10161 Accepted: 2810 D ...