unicode 中文字符分类 回忆上次内容
  • 字符集
  • 从博多码
  • 到 ascii
  • 再到 iso-8859 系列
  • 各自割据
 
  • 如何把世界上各种字符统进行编码
  • unicode顺势而生不断进化
  • 不过字符总量超过了65536
  • 每个汉字都有位置
 

 
添加图片注释,不超过 140 字(可选)
 
  • 所有汉字里面第一个汉字是什么呢?
分布

 
添加图片注释,不超过 140 字(可选)
 
  • 第一个字就是一

 
添加图片注释,不超过 140 字(可选)
 
  • 一切本是混沌
  • 河出图洛出书
  • 一划开天
  • 分出阴阳
 
  • 一生二
  • 太极生两仪
 
  • unicode把一放在中文第一个
  • 感受先人创建文明之源
 
后面的汉字
  • 分在几个 blocks 里面
  • 最常用的在0x4E00-0x9FBF
  • F、B都是16进制的数字就像1、2、3一样
  • 这个范围就是中日韩(CJK)字符的范围
 
  • 也属于 2个字节 以内
  • 字符数量也很多
 

 
添加图片注释,不超过 140 字(可选)
 
  • 不过由于汉字数量太多
  • 原来给的空间不够用了
 
新分空间
  • 又给CJK分配了几个扩展空间
  • Extension
 

 
添加图片注释,不超过 140 字(可选)
 
  • 我们 对比一下
  • 原来 \x表示法 和 \u表示法
 
两种转义
  • 原来ascii字符a可以用\x61表示
  • \x61 对应十六进制的(61)十六进制
  • 占用一个字节
  • 使用\x进行转义
 
  • 现在unicode字符一可以用\u4e00表示
  • \u4e00 对应十六进制的(4e00)十六进制
  • 占用两个字节
  • 使用\u进行转义
 

 
添加图片注释,不超过 140 字(可选)
 
  • ascii 字符也能用 \u 的方式进行转义

 
添加图片注释,不超过 140 字(可选)
 
  • \u必须得4位16进制数
  • 不过这样有点浪费空间和带宽
  • 序号、字节状态和字符是什么关系呢?
关系

 
添加图片注释,不超过 140 字(可选)
 
  • 序号、字节状态和字符
  • 这三个东西也构成一个闭环
  • 就像ascii一样

 
添加图片注释,不超过 140 字(可选)
 
  • 我们现在再看一下ord和chr的帮助
ord 和 chr
  • ord将字符的unicode编码转化为单字字符串

 
添加图片注释,不超过 140 字(可选)
 
  • chr 将[0,0x10ffff] 转化为unicode 单字字符串

 
添加图片注释,不超过 140 字(可选)
 
  • 序号是unicode的序号
  • 在[0,127]范围内
  • ascii 和 unicode 重合
  • unicode 兼容 ascii
 
  • unicode 形成了主流 之后
  • 会吸取周围的小支流
 
  • 类似的还有办公文档的标准
办公文档的标准
  • dos时代之后
  • win3.1的年代
  • 微软推出了字体处理软件
 
 

 
添加图片注释,不超过 140 字(可选)
 
  • 金山在wps的基础上推出了盘古系统

 
添加图片注释,不超过 140 字(可选)
win95之后
  • win95之后
  • 图形用户界面都基于微软的api进行开发
  • 微软自身也有office系列
 

 
添加图片注释,不超过 140 字(可选)
 
  • 客观上
  • 微软也就制定了办公软件的标准
 
  • 微软office系列
  • 形成了 主流 之后
  • wps、中文之星只能按照去兼容它的格式
 
  • 失去了定义标准的可能
 
  • 规则一旦形成
  • 就会对后来的事物产生影响
 
  • 其实汉字
  • 也有自己的一套归类规则
 
按照发音来归类
  • 可以按照发音来归类
  • 甚至可以生成语音...
 

 
添加图片注释,不超过 140 字(可选)
 
  • 还可以进一步归类吗?
韵母归类
 

 
添加图片注释,不超过 140 字(可选)
 
  • 可以用来找到押韵词汇
十三道大辙
  • 字典用的是拼音排序
  • 按照声母的顺序
  • 大辙按的是韵母
 
  • 这样就可以更方便找相同韵母的汉字了
大辙
对应十八韵
一发花
十八韵的一麻
二梭波
十八韵的二波三歌
三乜斜
十八韵的四皆
四衣欺
十八韵的五支、六儿、七齐
五灰堆
十八韵的八微
六怀来
十八韵的九开
七姑苏
十八韵的十姑
八衣欺
十八韵的十一鱼
九由求
十八韵的十二侯
十遥条
十八韵的十三豪
十一言前
十八韵的十四寒
十二人臣
十八韵的十五痕
十三汪洋
十八韵的十六唐
十四中东
十八韵的十七庚和十八东
  • 四、八其实可以合成一道大辙
  • 如果要双押
  • 就得找词组韵母一致的
  • 其实都可以把所有的词归类
  • 然后制作一个押韵神器
 
  • 很多各种各样的发音
  • 也被所谓的韵
  • 进行分类
 
 
  • 词是由字组成的
  • 词是如何编码进入计算机的呢?
 
编码解码
  • 两个汉字的unicode编码
  • 占用四个字节

 
添加图片注释,不超过 140 字(可选)
 
  • 已知汉字,得到 unicode 值,叫做编码
  • 过程为 encode
 
  • 已知 unicode 值,得到汉字,叫做解码
  • 过程为 decode
 
encode decode
  • 把 str 字符串 encode 编码 为 bytes 字节序列

 
添加图片注释,不超过 140 字(可选)
 
  • 把 bytes 字节序列 decode 解码 为 str 字符串
  • 编码和解码是互为逆运算的

 
添加图片注释,不超过 140 字(可选)
 
  • 绕了一圈又回来了
ascii 和 eval
  • ascii 得到字符串的unicode编码状态

 
添加图片注释,不超过 140 字(可选)
 
  • eval 得到编码的字符串状态
  • 这两个也是逆运算
  • 好像也可以然绕一个圈
  • eval应该如何理解呢?
eval
  • help(eval)

 
添加图片注释,不超过 140 字(可选)
 
  • eval
  • 意思是evaluate衡量
  • 是一个内置的函数
  • 在__builtins__这个module里面
 
  • 根据全局变量和局部变量的值进行衡量
  • 这里衡量的是
  • 按unicode形式的编码好的字符串
 
 
  • 实际编码的时候是按照什么排序的呢?
unicode 汉字排序

 
添加图片注释,不超过 140 字(可选)
偏旁部首检字法

 
添加图片注释,不超过 140 字(可选)
 
  • 禾木字旁的放到一起

 
添加图片注释,不超过 140 字(可选)
 
  • 按照偏旁的次序排列
  • 其实偏门的汉字很多的
 
  • 偏门的汉字
  • 形成了 小众火星文
 
火星文
  • 在火星文转化器中
  • 如果爱,请深爱
  • 洳淉嬡,埥堔嬡。
 
  • 团长,我从此就是杀马特的人了,爱你呦
  • 團萇,莪苁泚僦湜摋骉特哋亾孒,嬡沵呦。
 
  • 爱我不是你的错
  • 嬡莪芣湜沵哋措
 
  • 你是我的翅膀
  • ༺༒妳ィ是俄棏翄艕ོ
 
  • today is my birthday
  • 特嘚孓麥波斯嘚
 
 

 
添加图片注释,不超过 140 字(可选)
 
  • 这真的有点亚文化
  • 用这个问人工智能
  • 也会晕吧?!
 
 
火星文输入法
  • 其实火星文就是把常用汉字序号
  • 和不常用的汉字的序号
  • 对应了起来
  • 文字转化就是找到序号的映射
 
 

 
添加图片注释,不超过 140 字(可选)
 
  • 也是一种 加密方法
  • 你用这语料进行深度学习
  • 学出来也是一头雾水
 
 
总结
  • 中文字符可以有各种分类方法
  • 声母
  • 拼音检字法
 
  • 韵母
  • 合辙押韵的分类
 
  • 偏旁部首
  • 实际上unicode的排序方法
 
 

 
添加图片注释,不超过 140 字(可选)
 
  • 我们以前勇闯地下城时候获得了一把屠龙宝刀
  • 给他镶上了️宝石
  • 这宝石应该如何理解?
 

 
添加图片注释,不超过 140 字(可选)
 


[oeasy]python0129_unicode_中文字符序号_十三道大辙_字符编码解码_eval_火星文的更多相关文章

  1. C#中的流_字节_字符_字符串之间的相互转换

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.I ...

  2. 字符串化#、拼接字符##和可变参数宏(...和_ _VA_ARGS_ _)

    宏定义的使用与注意事项 ##是一个连接符号,用于把参数连在一起 #是“字符串化”的意思.出现在宏定义中的#是把跟在后面的参数转换成一个字符串#define paster( n ) printf( &q ...

  3. [19/03/28-星期四] IO技术_基本概念&字符编码与解码

    一.概念 输入(Input)  指的是:可以让程序从外部系统获得数据(核心含义是“读”,读取外部数据) 常见的应用: Ø 读取硬盘上的文件内容到程序.例如:播放器打开一个视频文件.word打开一个do ...

  4. 字节与字符_字节流与字符流_ASCII与Unicode_GB2312_GBK_GB18030_BIG-5

    字节(Byte):通常将可表示经常使用英文字符8位二进制称为一字节. 一个英文字母(不分大写和小写)占一个字节的空间,一个中文汉字占两个字节的空间. 符号:英文标点2占一个字节,中文标点占两个字节. ...

  5. ECMA Script 6_字符串_扩展_字符 是4字节还是2字节?_模板字符串

    ES6 字符串扩展 ES6 加强了对 Unicode 的支持,并且扩展了字符串对象 字符 的 Unicode 表示法 允许采用 \uxxxx 形式表示一个字符, 其中 xxxx 表示字符的 Unico ...

  6. js分析 天_眼_查 字体文件

    0. 参考 js分析 猫_眼_电_影 字体文件 @font-face 1. 分析 1.1 定位目标元素 1.2 查看网页源代码 1.3 requests 请求提取得到大量错误信息 对比猫_眼_电_影抓 ...

  7. Oracle学习总结_day03_day04_条件查询_排序_函数_子查询

    本文为博主辛苦总结,希望自己以后返回来看的时候理解更深刻,也希望可以起到帮助初学者的作用. 转载请注明 出自 : luogg的博客园 谢谢配合! day03_条件查询_排序_函数 清空回收站: PUR ...

  8. C Primer Plus_第6章_循环_编程练习

    1.题略 #include int main(void) { int i; char ch[26]; for (i = 97; i <= (97+25); i++) { ch[i-97] = i ...

  9. 转:HIBERNATE一些_方法_@注解_代码示例---写的非常好

    HIBERNATE一些_方法_@注解_代码示例操作数据库7步骤 : 1 创建一个SessionFactory对象 2 创建Session对象 3 开启事务Transaction : hibernate ...

  10. 宏定义中的##操作符和... and _ _VA_ARGS_ _

    1.Preprocessor Glue: The ## Operator 预处理连接符:##操作符 Like the # operator, the ## operator can be used i ...

随机推荐

  1. EasyUI组件新增方法与事件

    以window组件为例 事件 扩展事件直接定义在options中,可以再初始化组件时定义事件,也可以使用时临时定义事件.这里是组件初始化后在添加的. 使用情景:添加,插入功能.主界面表格分别点击添加和 ...

  2. systemctl管理自定义服务模版

    一  日常工作中,有许多需要使用systemctl进行管理服务的时候 [Unit] Description=radius Release [Service] ExecStart=/etc/init.d ...

  3. 关于sass(scss)、less、postcss、stylus的简介与区别

    为什么会出现css预处理器 ​ CSS不是一种编程语言,仅仅只能用来编写网站样式,在web初期时,网站的搭建还比较基础,所需要的样式往往也很简单.但是随着用户需求的增加以及网站技术的升级,css一成不 ...

  4. 微软的文本转语音服务Microsoft.CognitiveServices.Speech

    微软的Edge 浏览器里的大声朗读里-"晓晓" 很接近自然人,比起其它平台的强很多. 在AZURE 可免费体验,每月限额50万字,每个语音转换不超过10分钟长度. C# 调用: u ...

  5. 腾讯蓝鲸平台部署v5.1版本[去坑]

    腾讯蓝鲸平台部署 1. 环境准备 #1. 基础优化 ulimit -SHn 655360 yum remove mysql-devel -y && yum install mysql- ...

  6. Python爬虫 | 批量爬取今日头条街拍美图

    01 前言 上篇文章我们爬取了今日头条街拍美图,心情相当愉悦,今天这篇文章我们使用Selenium来爬取当当网的畅销图书排行.正所谓书中自有黄金屋,书中自有颜如玉,我们通过读书学习来提高自身的才华,自 ...

  7. js 实现仿百度换肤效果

    图片自行换掉即可查看效果,原理就是基于tab切换的效果实现的 效果图 1 <!DOCTYPE html> 2 <html> 3 4 <head> 5 <met ...

  8. JavaSE的方法 (函数)

    目录 Java中的方法(函数) 方法声明格式:(与函数类似) Java中的方法(函数) Java方法是一段可重复使用的代码块,用于执行特定的任务.方法可以接受输入参数并返回一个值.在Java中,方法由 ...

  9. java中以字符分隔的字符串与字符串数组的相互转换

    1.字符串数组拼接成一个以指定字符(包括空字符)分隔的字符串--String.join(),JDK8的新特性 String[] strArray = {"aaa","bb ...

  10. Windows 预览体验计划显示空白

    Open PowerShell as Administator.In the elevated PowerShell window, copy and paste the following comm ...