另类字符 回忆上次内容
  • 上次再次输出了大红心<span style="font-size:64px;color:red"></span>
  • 找到了红心对应的编码
  • 黑红梅方都对应有编码
 
  • 原来的编码叫做 ascii️
  • \u这种新的编码方式叫unicode
  • 包括了 中日韩字符集等 各书写系统的字符集
 
  • 除了这些常规字符之外
  • 还有什么好玩的东西呢?
 
颠倒字符

 
添加图片注释,不超过 140 字(可选)
 
尝试

 
添加图片注释,不超过 140 字(可选)
 
  • 序号还是比较靠前的
  • 应该是一些拉丁字符
  • 类似的还有带圈圈的英文字符
带圈字符

 
添加图片注释,不超过 140 字(可选)
 
  • 带上圈圈之后
  • 给人一种ꫛꫀꪝ的感觉
 
  • 这些都是谁规定的呢?
继续探索
  • unicode 其实有个委员会
  • 各种大厂都在里面指定标准
  • 我们也可以访问 unicode.org
  • 具体的编码字符都可以在里面找

 
添加图片注释,不超过 140 字(可选)
炼金术师的符号

 
添加图片注释,不超过 140 字(可选)
 
古代字符编码
 
 

 
添加图片注释,不超过 140 字(可选)
 
  • 回忆起拉丁字符走过的路
拉丁字符之路

 
添加图片注释,不超过 140 字(可选)
时间相关
  • 这个编码可以解决等宽的问题
  • 而且还有汉字
  • 目前大多数字体支持
  • ㋀㋁㋂㋃㋄㋅㋆㋇㋈㋉㋊㋋
  • ㏠㏡㏢㏣㏤㏥㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹㏺㏻㏼㏽㏾
  • ㍘㍙㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭㍮㍯㍰
 
货币相关

 
添加图片注释,不超过 140 字(可选)
音乐相关

 
添加图片注释,不超过 140 字(可选)
中文字符

 
添加图片注释,不超过 140 字(可选)
 

 
添加图片注释,不超过 140 字(可选)
 
  • 这些编码实在是偏门
亚文化
  • 不过很有趣
  • 目前大多数字库文件还不支持

 
添加图片注释,不超过 140 字(可选)
 
  • 不知道这些参与 unicode 编码规则制定的大公司在想些什么?
扑克编码

 
添加图片注释,不超过 140 字(可选)
 
  • 我们以前介绍过黑红梅方的编码
  • 配合数字可以做出扑克效果
  • 这个编码直接就是牌
  • C 是骑士牌(knight card)
  • 我们一般都是 54 张牌
  • 目前大多数字符库还不支持 unicode 这个编码段的部分
  • 支持了之后就可以直接字符打牌了
国际象棋

 
添加图片注释,不超过 140 字(可选)
 

 
添加图片注释,不超过 140 字(可选)
 
  • 目前大多数字体不支持
麻将
  • 中式麻将牌在这里
  • 红红火火
  • 梅兰竹菊 春夏秋冬 就连百搭都有
 
  • 以后用户名也许可以用麻将字符了
  • 九筒
 
 
  • 不过目前多数字库还不支持

 
添加图片注释,不超过 140 字(可选)
各种符号

 
添加图片注释,不超过 140 字(可选)
 
  • 符号还在不断添加中
新的符号

 
添加图片注释,不超过 140 字(可选)
 

 
添加图片注释,不超过 140 字(可选)
 
  • 各种杂项费用还是很多的甚至包含 emoji
  • 这些新增的字符除了好玩之外
  • 也会对于我们产生影响
  • 其实我们也有这种符号
五岳真形图

 
添加图片注释,不超过 140 字(可选)
 
  • 也许有一天unicode中会出现五岳的符号
  • 还有一些同型不同序号的字
易混淆文字

 
添加图片注释,不超过 140 字(可选)
 
  • 这两个文字非常相像但却是两个不同的字符
  • 第1个是常用的
  • 第2个是1999年更新中新加进去的康熙部首
 

 
添加图片注释,不超过 140 字(可选)
 
  • 这种长相类似的字符有什么用么?
阴阳话题
  • 作为计算机理解这就是两个词条

 
添加图片注释,不超过 140 字(可选)
 
  • 这是公关降热度的一个手法
部首
  • 还有什么类似的字符吗?

 
添加图片注释,不超过 140 字(可选)
 
  • 康熙部首
  • 2F00-2FD5
 
  • 扩展部首
  • 2E80-2EF3
 
  • 如果当前系统不认识这个字符
  • 怎么办呢?
不识别
  • 但是如果发送过来的字符
  • 在当前的系统中没有对应的字符
  • 应该怎么办呢?

 
添加图片注释,不超过 140 字(可选)
  • 发过来一个不认识的字符
  • 机器就傻了
  • 因为不知道如何表现
  • 于是他会用一个问号对应的字符进行替换
  • U+FFFD �

 
添加图片注释,不超过 140 字(可选)
 
  • 这个字符本应该是 unicode 中的字符
  • 但如果硬要用 gbk 解码会如何呢?
乱解码
  • � 对应 utf-16 编码 0xFFFD
  • 转化为 utf-8 对应 0xEF 0xBF 0xBD
  • 但是如果这个编码用 gbk 解码的话
  • 就会出现锟斤拷
  • 锟(0xEFBF)
  • 斤(0xBDEF)
  • 拷(0xBFBD)
 

 
添加图片注释,不超过 140 字(可选)
 
  • 锟斤拷会出现在各种地方
  • 甚至有个笑话
  • 手持两把锟斤拷
  • 口中疾呼烫烫烫
 
  • 烫烫烫又是怎么回事
烫烫烫和屯屯屯
  • 0xcc 正好是
  • x86指令集中 中断(int 3)指令
  • 起到保护作用
 
  • 在分配内存的时候
  • 栈内存默认初始数值为 0xcc
  • 0xcccc 用使用 bgk 的终端来表示刚好就是烫
  • 未初始化的栈空间用 0xcc 填充
 

 
添加图片注释,不超过 140 字(可选)
 
  • 而未初始化的堆空间用 0xcd 填充
  • 所以 0xcdcd 用 gbk 来解释的话,就是屯
 

 
添加图片注释,不超过 140 字(可选)
 
  • 动态分配的内存被回收之后
  • 就是 DDDD
  • 0xcdcd
  • 在gbk编码格式中
  • 对应汉字葺
 
 
  • 甚至有拼音标号
拼音标号

 
添加图片注释,不超过 140 字(可选)
 
  • 符号还在不断增加中
中文字符集进化
  • unicode 如果 2 个字节总共 16 位
  • 16 位最多 65536 各字符
  • 想要把全世界的字符都编码是不现实的
  • 光是中文就超了好几次
 

 
添加图片注释,不超过 140 字(可选)
 
  • 如果使用 3 字节编码就大大增加了存储和带宽的压力
  • 那到底应该怎么办呢?
  • 到底应该按照 1 字节、2 字节还是 3 字节进行读取呢?
 
总结
  • unicode 里面有各种字体
  • 扑克
  • 国际象棋
  • 麻将
  • 偏旁部首
  • 各种好玩的编码
  • 字符编码就是这样一步步发展过来的
 
  • 但是有个问题
  • 拜这个字
  • 在字节中应该是b"\x62\xdc"两个字节
 

 
添加图片注释,不超过 140 字(可选)
 
  • 该如何理解b"\x62\xdc"这两个字节呢?
  • 究竟是"拜"
  • 还是"bÜ"呢?
 

 
添加图片注释,不超过 140 字(可选)
 


[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符的更多相关文章

  1. [19/03/30-星期六] IO技术_四大抽象类_ 字节流( 字节输入流 InputStream 、字符输出流 OutputStream )_(含字节文件缓冲流)

    一.概念及分类 InputStream(输入流)/OutputStream(输出流)是所有字节输入输出流的父类 [注]输入流和输出流的是按程序运行所在的内存的角度划分的 字节流操作的数据单元是8的字节 ...

  2. [转]程序员趣味读物:谈谈Unicode编码

    from : http://pcedu.pconline.com.cn/empolder/gj/other/0505/616631_all.html#content_page_1 这是一篇程序员写给程 ...

  3. [百度空间] [转]程序员趣味读物:谈谈Unicode编码

    出处:CSDN [ 2005-05-13 10:05:53 ] 作者:fmddlmyy 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG ...

  4. 程序员趣味读物:谈谈Unicode编码

    这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为 ...

  5. python的str,unicode对象的encode和decode方法, Python中字符编码的总结和对比bytes和str

    python_2.x_unicode_to_str.py a = u"中文字符"; a.encode("GBK"); #打印: '\xd6\xd0\xce\xc ...

  6. python利用utf-8编码判断中文英文字符(转)

    下面这个小工具包含了判断unicode是否是汉字.数字.英文或者其他字符,全角符号转半角符号,unicode字符串归一化等工作. #!/usr/bin/env python # -*- coding: ...

  7. python(40):利用utf-8编码判断中文英文字符

    #!/usr/bin/env Python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全 ...

  8. C#、Java实现按字节截取字符串包含中文汉字和英文字符数字标点符号等

    C#.Java实现按字节截取字符串,字符串中包含中文汉字和英文字符数字标点符号等. 在实际项目应用过程中,尤其是在web开发时可能遇到的比较多,就以我的(JiYF笨小孩管理系统)为例,再发布文章时候, ...

  9. [19/03/31-星期日] IO技术_四大抽象类_字符流( 字符输入流 Reader、 字符输出流 Writer )(含字符缓冲类)

     一.概念 Reader Reader用于读取的字符流抽象类,数据单位为字符. int read(): 读取一个字符的数据,并将字符的值作为int类型返回(0-65535之间的一个值,即Unicode ...

  10. 基于stm32f4的ucGUI通过外部flash存储汉字库显示任意英文字符和汉字组合(控件可用)

    在做一个用到ucGUI的项目的时候要用到不定的汉字和英文字符,但是ucGUI本身又不支持读取芯片外部flash的字库来显示,于是查了下资料,如下: http://www.cnblogs.com/hik ...

随机推荐

  1. kubelet gc 源码分析

    代码 kubernetes 1.26.15 问题 混部机子批量节点NotReady(十几个,丫的重大故障),报错为: 意思就是 rpc 超了,节点下有太多 PodSandBox,crictl ps - ...

  2. WPF插件之 - PropertyChanged.Fody使用详解

    总目录文章目录总目录一.PropertyChanged.Fody是什么?二.PropertyChanged.Fody的安装三.PropertyChanged.Fody的功能1. 特性1 实现属性通知的 ...

  3. 002. git 分支管理

    git分支 git分支,从本质上来讲仅仅是指向提交对象的可变指针,在这一点上与svn是有着本质区别,svn的分支实际就是个目录而已. git默认分支名字是 master,在多次提交操作后,你其实已经有 ...

  4. Java 中 hashCode 和 equals 方法是什么?它们和 == 各有什么区别?

    在 Java 中,hashCode 和 equals 方法都是 Object 类的方法.它们的作用分别如下: hashCode 方法返回对象的哈希码,用于支持基于哈希表的集合,如 HashMap.Ha ...

  5. 初学go语言

    for(int a = 0; a<10 ; a++){ // c语言的循环 } for a := 0 ; a<10 ; a++ {     // go语言的循环 } // for二边的括号 ...

  6. JS获取表单所有内容

    var formData = {}; var t = $('#Form').serializeArray(); $.each(t, function() { formData[this.name] = ...

  7. Prometheus 14 点实践经验分享

    这是 2017 年的 promcon 的分享,原文地址在这里,作者 Julius Volz,今天偶然看到,虽然已经过去 6 年,有些实践经验还是非常值得学习.做个意译,加入一些自己的理解,分享给大家. ...

  8. 模拟epoll的饥饿场景

    说明 一直听说epoll的饥饿场景,但是从未在实际环境中面对过,那么能不能模拟出来呢?实际的情况是怎样呢? 模拟步骤 基于epoll写一个简单的tcp echo server,将每次read返回的字节 ...

  9. PasteSpider的集群组件PasteCluster(让你的项目快速支持集群模式)的思路及实现(含源码)

    PasteSpider是什么? 一款使用.net编写的开源的Linux容器部署助手,支持一键发布,平滑升级,自动伸缩, Key-Value配置,项目网关,环境隔离,运行报表,差量升级,私有仓库,集群部 ...

  10. Aspect切面进行统一参数处理demo

    Aspect切面进行统一参数处理demo //导入 implementation('org.springframework:spring-aspects:5.3.22') import com.exa ...