[oeasy]python0129_unicode_中文字符序号_十三道大辙_字符编码解码_eval_火星文
- 字符集
- 从博多码
- 到 ascii
- 再到 iso-8859 系列
- 各自割据
- 如何把世界上各种字符统进行编码
- unicode顺势而生不断进化
- 不过字符总量超过了65536
- 每个汉字都有位置
- 所有汉字里面第一个汉字是什么呢?
- 第一个字就是一
- 一切本是混沌
- 河出图洛出书
- 一划开天
- 分出阴阳
- 一生二
- 太极生两仪
- unicode把一放在中文第一个
- 感受先人创建文明之源
- 分在几个 blocks 里面
- 最常用的在0x4E00-0x9FBF
- F、B都是16进制的数字就像1、2、3一样
- 这个范围就是中日韩(CJK)字符的范围
- 也属于 2个字节 以内
- 字符数量也很多
- 不过由于汉字数量太多
- 原来给的空间不够用了
- 又给CJK分配了几个扩展空间
- Extension
- 我们 对比一下
- 原来 \x表示法 和 \u表示法
- 原来ascii字符a可以用\x61表示
- \x61 对应十六进制的(61)十六进制
- 占用一个字节
- 使用\x进行转义
- 现在unicode字符一可以用\u4e00表示
- \u4e00 对应十六进制的(4e00)十六进制
- 占用两个字节
- 使用\u进行转义
- ascii 字符也能用 \u 的方式进行转义
- \u必须得4位16进制数
- 不过这样有点浪费空间和带宽
- 序号、字节状态和字符是什么关系呢?
- 序号、字节状态和字符
- 这三个东西也构成一个闭环
- 就像ascii一样
- 我们现在再看一下ord和chr的帮助
- ord将字符的unicode编码转化为单字字符串
- chr 将[0,0x10ffff] 转化为unicode 单字字符串
- 序号是unicode的序号
- 在[0,127]范围内
- ascii 和 unicode 重合
- unicode 兼容 ascii
- unicode 形成了主流 之后
- 会吸取周围的小支流
- 类似的还有办公文档的标准
- dos时代之后
- win3.1的年代
- 微软推出了字体处理软件
- 金山在wps的基础上推出了盘古系统
- win95之后
- 图形用户界面都基于微软的api进行开发
- 微软自身也有office系列
- 客观上
- 微软也就制定了办公软件的标准
- 微软office系列
- 形成了 主流 之后
- wps、中文之星只能按照去兼容它的格式
- 失去了定义标准的可能
- 规则一旦形成
- 就会对后来的事物产生影响
- 其实汉字
- 也有自己的一套归类规则
- 可以按照发音来归类
- 甚至可以生成语音...
- 还可以进一步归类吗?
- 押韵助手
- 可以用来找到押韵词汇
- 字典用的是拼音排序
- 按照声母的顺序
- 大辙按的是韵母
- 这样就可以更方便找相同韵母的汉字了
|
大辙
|
对应十八韵
|
|---|---|
|
一发花
|
十八韵的一麻
|
|
二梭波
|
十八韵的二波三歌
|
|
三乜斜
|
十八韵的四皆
|
|
四衣欺
|
十八韵的五支、六儿、七齐
|
|
五灰堆
|
十八韵的八微
|
|
六怀来
|
十八韵的九开
|
|
七姑苏
|
十八韵的十姑
|
|
八衣欺
|
十八韵的十一鱼
|
|
九由求
|
十八韵的十二侯
|
|
十遥条
|
十八韵的十三豪
|
|
十一言前
|
十八韵的十四寒
|
|
十二人臣
|
十八韵的十五痕
|
|
十三汪洋
|
十八韵的十六唐
|
|
十四中东
|
十八韵的十七庚和十八东
|
- 四、八其实可以合成一道大辙
- 如果要双押
- 就得找词组韵母一致的
- 其实都可以把所有的词归类
- 然后制作一个押韵神器
- 很多各种各样的发音
- 也被所谓的韵
- 进行分类
- 词是由字组成的
- 词是如何编码进入计算机的呢?
- 两个汉字的unicode编码
- 占用四个字节
- 已知汉字,得到 unicode 值,叫做编码
- 过程为 encode
- 已知 unicode 值,得到汉字,叫做解码
- 过程为 decode
- 把 str 字符串 encode 编码 为 bytes 字节序列
- 把 bytes 字节序列 decode 解码 为 str 字符串
- 编码和解码是互为逆运算的
- 绕了一圈又回来了
- ascii 得到字符串的unicode编码状态
- eval 得到编码的字符串状态
- 这两个也是逆运算
- 好像也可以然绕一个圈
- eval应该如何理解呢?
- help(eval)
- eval
- 意思是evaluate衡量
- 是一个内置的函数
- 在__builtins__这个module里面
- 根据全局变量和局部变量的值进行衡量
- 这里衡量的是
- 按unicode形式的编码好的字符串
- 实际编码的时候是按照什么排序的呢?
- 禾木字旁的放到一起
- 按照偏旁的次序排列
- 其实偏门的汉字很多的
- 偏门的汉字
- 形成了 小众火星文
- 在火星文转化器中
- 如果爱,请深爱
- 洳淉嬡,埥堔嬡。
- 团长,我从此就是杀马特的人了,爱你呦
- 團萇,莪苁泚僦湜摋骉特哋亾孒,嬡沵呦。
- 爱我不是你的错
- 嬡莪芣湜沵哋措
- 你是我的翅膀
- ༺༒妳ィ是俄棏翄艕ོ
- today is my birthday
- 特嘚孓麥波斯嘚
- 这真的有点亚文化
- 用这个问人工智能
- 也会晕吧?!
- 其实火星文就是把常用汉字序号
- 和不常用的汉字的序号
- 对应了起来
- 文字转化就是找到序号的映射
- 也是一种 加密方法
- 你用这语料进行深度学习
- 学出来也是一头雾水
- 中文字符可以有各种分类方法
- 声母
- 拼音检字法
- 韵母
- 合辙押韵的分类
- 偏旁部首
- 实际上unicode的排序方法
- 我们以前勇闯地下城时候获得了一把屠龙宝刀
- 给他镶上了️宝石
- 这宝石应该如何理解?
- 我们下次再说!
[oeasy]python0129_unicode_中文字符序号_十三道大辙_字符编码解码_eval_火星文的更多相关文章
- C#中的流_字节_字符_字符串之间的相互转换
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.I ...
- 字符串化#、拼接字符##和可变参数宏(...和_ _VA_ARGS_ _)
宏定义的使用与注意事项 ##是一个连接符号,用于把参数连在一起 #是“字符串化”的意思.出现在宏定义中的#是把跟在后面的参数转换成一个字符串#define paster( n ) printf( &q ...
- [19/03/28-星期四] IO技术_基本概念&字符编码与解码
一.概念 输入(Input) 指的是:可以让程序从外部系统获得数据(核心含义是“读”,读取外部数据) 常见的应用: Ø 读取硬盘上的文件内容到程序.例如:播放器打开一个视频文件.word打开一个do ...
- 字节与字符_字节流与字符流_ASCII与Unicode_GB2312_GBK_GB18030_BIG-5
字节(Byte):通常将可表示经常使用英文字符8位二进制称为一字节. 一个英文字母(不分大写和小写)占一个字节的空间,一个中文汉字占两个字节的空间. 符号:英文标点2占一个字节,中文标点占两个字节. ...
- ECMA Script 6_字符串_扩展_字符 是4字节还是2字节?_模板字符串
ES6 字符串扩展 ES6 加强了对 Unicode 的支持,并且扩展了字符串对象 字符 的 Unicode 表示法 允许采用 \uxxxx 形式表示一个字符, 其中 xxxx 表示字符的 Unico ...
- js分析 天_眼_查 字体文件
0. 参考 js分析 猫_眼_电_影 字体文件 @font-face 1. 分析 1.1 定位目标元素 1.2 查看网页源代码 1.3 requests 请求提取得到大量错误信息 对比猫_眼_电_影抓 ...
- Oracle学习总结_day03_day04_条件查询_排序_函数_子查询
本文为博主辛苦总结,希望自己以后返回来看的时候理解更深刻,也希望可以起到帮助初学者的作用. 转载请注明 出自 : luogg的博客园 谢谢配合! day03_条件查询_排序_函数 清空回收站: PUR ...
- C Primer Plus_第6章_循环_编程练习
1.题略 #include int main(void) { int i; char ch[26]; for (i = 97; i <= (97+25); i++) { ch[i-97] = i ...
- 转:HIBERNATE一些_方法_@注解_代码示例---写的非常好
HIBERNATE一些_方法_@注解_代码示例操作数据库7步骤 : 1 创建一个SessionFactory对象 2 创建Session对象 3 开启事务Transaction : hibernate ...
- 宏定义中的##操作符和... and _ _VA_ARGS_ _
1.Preprocessor Glue: The ## Operator 预处理连接符:##操作符 Like the # operator, the ## operator can be used i ...
随机推荐
- C#应用的用户配置窗体方案 - 开源研究系列文章
这次继续整理以前的代码.本着软件模块化的原理,这次笔者对软件中的用户配置窗体进行剥离出来,单独的放在一个Dll类库里进行操作,这样在其它应用程序里也能够快速的复用该类库,达到了快速开发软件的效果. 笔 ...
- phpstorm配置laravel语法提示
摘自:https://cloud.tencent.com/developer/article/1426699 phpstorm配置laravel语法提示 2019-05-15阅读 1930 用习惯 ...
- wpf – 如何在UIElement.Margin上为绑定设置FallbackValue?
<Border BorderBrush="#cccccc" BorderThickness="1" Margin="{Binding PushM ...
- 如何从零开始实现TDOA技术的 UWB 精确定位系统(6)
这是一个系列文章<如何从零开始实现TDOA技术的 UWB 精确定位系统>第6部分. 重要提示(劝退说明): Q:做这个定位系统需要基础么? A:文章不是写给小白看的,需要有电子技术和软件编 ...
- 7.21考试总结(NOIP模拟22)[d·e·f]
你驻足于春色中,于那独一无二的春色之中. 前言 首先,这套题的暴力分数十分丰厚,大概是 81+89+30=200 . T1 的特殊性质比较多,也都很好想,于是考场 81pts 是没有问题的. T2 暴 ...
- autojs拉人进群
/* 微信 version:8.0.1 语言:AutoJs [https://hyb1996.github.io/AutoJs-Docs/#/] @author:奔跑的前端猿 */ auto.wait ...
- 阿里bxet逆向
声明 本文章中所有内容仅供学习交流,抓包内容.敏感网址.数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 目标网站 x82y 分析过 ...
- kettle从入门到精通 第二十六课 再谈 kettle Transformation executor
1.前面文章有学习过Transformation executor ,但后来测试kettle性能的时候遇到了很大的问题,此步骤的处理性能太慢,导致内存溢出等问题.所以再次一起学习下此步骤的用法. 2. ...
- realtek高清晰音频管理器 WIN10
在WIN10里已经改名了: Realtek Audio Console . 在安装realtek声卡驱动后,Realtek Audio Console 会自动安装.
- 网络诊断工具traceroute的使用
在 Linux 系统中,traceroute 是一个网络诊断工具,用于确定数据包从你的计算机到目标主机(如一个网站或远程服务器)所经过的路由路径. 如果你的系统中没有安装 traceroute,你可以 ...