[oeasy]python0122_日韩字符_日文假名_JIS_Shift_韩国谚文
- 上次回顾了非ascii的拉丁字符编码的进化过程
- 0-127 是 ascii 的领域
- 世界各地编码分布
- 拉丁字符扩展 ascii 共 16 种
- 由iso组织制定
- 从iso-8859-1
- 到iso-8859-16
- 无法同时显示俄文和法文
- 此时中日韩的文字也需要进入计算机
- 象形文字的字符集超级巨大
- 日本、韩国也用汉字
- 数量2万起步

- 真能把 如此巨大的字符集
- 编码进入计算机吗?
- 日本汉字我们可以直接看懂

- 地铁里的 标记

- 日文中 为什么
- 这么多汉字呢?
- 皇子公卿僧侣
- 都要 专门
- 来中国 朝圣
- 学文化

- 日文 很多词
- 都 能看懂
- 管 老师 叫做 先生
- 管 火车 叫做 机车
- 管 学习 叫做 勉强
- 管 辣 叫 辛

- 特别辣
- 叫 激辛
- 这些汉字怎么来的呢?
- 从日本来的 留学僧
- 不但学习 汉语佛法
- 也学习 汉字书法

- 并把这些文化带回日本
- 汉字 成为 书写符号
- 口头系统的 日语
- 可以 记录下来了
- 正如同
- 使用圣书体的一些字型
- 将腓尼基的口语记录下来
- “叶” 是 “世”
- 即时代
- 希望能流传到万世
- 各种各样的歌
- 敬畏自然山神、河神 的歌
- 男女恋爱 的歌
- 挽歌

- 汉字
- 数量很多
- 记起来、写起来也比较复杂
- 只有 最有文化的人
- 才能 都写下来
- 自己 写东西 的时候
- 有些字 忘了 怎么写
- 就拿一个 同音字
- 来 假借
- 假借的 次数 多了
- 就 固定了下来
- 形成了
- 专门的 日语拼音 字符

- 假名
- 存在着多个体系
- 不同的时代
- 不同的地域
- 直到明治33年
- 发行公文才得以统一
- 万葉仮名(假名)
- 草书风格的符号
- 有女性的柔美
- 抄文众多
- 《枕草子》
- 《源氏物语》

- 把写法也固定了下来
- 成为铅字
- 万葉仮名(假名)
- 形成了
- 现代假名系统 中的 平假名
- 除了平假名之外
- 还有片假名
- 片假名来自 汉字 的 一片
- 也是一种 假名系统
- 有 硬朗的 楷书 转化而来

- 明治维新时期
- 大量欧美外来语涌入日本
- 日语只取其读音
- 用片假名将其表示出来
- 假名系统
- 是 拼音文字 系统
- 字符数量 不多
- 在ascii的基础上
- 把片假名加了上去

- 字型什么样呢?

- 可以把这些片假名输出出来吗?
- 下面的代码是将a1到e0
- 封包进入一个字节
- 然后再将字节解码

- 可以动手试试
- 以后我们会详细讲解封包解包
- 范围[0xa1, 0xe0)

- 当时的日文
- 能显示出ascii和假名的字型
- 就已经很厉害

- 想显示出中文字型
- 是不可能的
- 是中文的拼音文字
- 只是假名都加在一起就至少 100+
- 128 根本不够用

- 更何况日文里面用日本汉字
- 虽然只有2000个不到
- 但是是文化的象征
- 不过假名毕竟是假的
- 日文中最厉害的还是汉字
- 日语中混有各种汉字

- 感觉根本不用翻译

- 也会造一些日本汉字
汉字
|
发音
|
含义
|
---|---|---|
凪
|
なぎ
|
风平 浪静
|
雫
|
しずく
|
水滴 如雨下
|
躾
|
しつけ
|
教育
|
榊
|
さかき
|
寺庙里的 树
|

- 所以日文中的字符直接超过2000+
- 1 个字节 是不够了
- 至少需要 2 个字节

- 日本规格协会制定标准
- JIS X 0212
- 点阵字库 产生了
- 日本汉字的黑体模式
- 无衬线
- 黑体
- 注重实效
- 注重清晰度

- 任何字帖一般都有两种风格
- 板正规范的生硬风格
- 圆润灵动的手写风格

- 不像大写字母
- 那么生硬

- 就像小写字母
- 那么圆滑
- 韩文字符又是如何编码的呢?
- 韩文也是一种拼音文字
- 基础字母有二十四个
- 符号是朝鲜王朝世宗大王时创作的
- 从此韩文有了谚文

- 但是韩国士大夫会写汉字
- 不愿意推广谚文
- 不过拼音文字
- 更容易一些

- 谚文书写 普及速度 比汉字书写 快得多
- 拼音 是有结构的
- 谚文是由表音符号组合而成的
- 有各种间架结构

- 这些声旁都发什么音呢?
- 韩文名字
- 宋仲基(송중기)
- 金喜善(김희선)
- 李英爱(이영애)
- 阿一古(아이구)
- 圆圈不发音

- 从此就连哎呦喂(阿一古)
- 都有了标准发音方法
- 用拼音文字把读音固化下来
- 谚文有多少字符呢?
- 声母韵母拼写在一起算一个
- 共 554 个
- 而且这还不算朝鲜汉字

- 这554个基础字符导致
- 1 个字节不够
- 2 个字节才够
- 韩文的字符集为
- KS X 1001
- 日韩各有 编码格式
- 日本
- 有假名
- 五十音
- 一字节 可以勉强放下
- 有日本汉字
- 字符数量超过20000+
- 韩国
- 有谚文
- 数量超过500
- 一个字节 放不下
- 有朝鲜汉字
- 字符数量超过20000+

- 作为 汉字源头的中国
- 究竟应该 如何对汉字 进行编码 呢?
- 我们下次再说!
[oeasy]python0122_日韩字符_日文假名_JIS_Shift_韩国谚文的更多相关文章
- 《中日韩联合开发 - Asianux Server 3》(Asianux Server 3.0)[ISO]
中文名: 中日韩联合开发 - Asianux Server 3英文名: Asianux Server 3.0资源格式: 光盘镜像发行时间: 2007年制作发行: 红旗软件(中国)MiracleLinu ...
- BZOJ_4566_[Haoi2016]找相同字符_后缀自动机
BZOJ_4566_[Haoi2016]找相同字符_后缀自动机 Description 给定两个字符串,求出在两个字符串中各取出一个子串使得这两个子串相同的方案数.两个方案不同当且仅当这两 个子串中有 ...
- C#中的流_字节_字符_字符串之间的相互转换
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.I ...
- 学界 | Yann LeCun新作,中日韩文本分类到底要用哪种编码?
https://www.wxwenku.com/d/102093756 AI科技评论按:前几天,Yann LeCun与其学生 张翔在arXiv上发表了一篇新作「Which Encoding is th ...
- 字节与字符_字节流与字符流_ASCII与Unicode_GB2312_GBK_GB18030_BIG-5
字节(Byte):通常将可表示经常使用英文字符8位二进制称为一字节. 一个英文字母(不分大写和小写)占一个字节的空间,一个中文汉字占两个字节的空间. 符号:英文标点2占一个字节,中文标点占两个字节. ...
- Tesseract-OCR 3.05 躲过语言文字识别(运行程序+中英日韩语言包)
最新版本 静态编译 tesseract 3.05.00dev leptonica-1.73 libgif 5.1.3 : libjpeg 8c : libpng 1.6.16 : libtiff 3. ...
- 关于PHP程序员技术职业生涯规划 2017年3月5日韩 天峰
看到很多PHP程序员职业规划的文章,都是直接上来就提Linux.PHP.MySQL.Nginx.Redis.Memcache.jQuery这些,然后就直接上手搭环境.做项目,中级就是学习各种PHP框架 ...
- Tesseract-OCR 3.05 多过语言文字识别(运行程序+中英日韩语言包)
最新版本 静态编译 tesseract 3.05.00dev leptonica-1.73 libgif 5.1.3 : libjpeg 8c : libpng 1.6.16 : libtiff 3. ...
- 680. Valid Palindrome II【Easy】【双指针-可以删除一个字符,判断是否能构成回文字符串】
Given a non-empty string s, you may delete at most one character. Judge whether you can make it a pa ...
- Java 连接数据库及字符编码
通过JDBC方式连接MYSQL数据库: public static Connection getConnection(){ String username="root" ; Str ...
随机推荐
- uniapp video组件全屏导致页面横竖错乱问题
uniapp video组件全屏导致页面横竖错乱问题 背景介绍 使用 video组件做一个视频播放功能,不全屏的情况正常.在苹果手机上全屏后,点击左上角退出全屏,页面出现问题如下图问题,主要系统iOS ...
- iOS直播助手第一个版本总结
经过1个月的努力,终于完成了直播助手iOS11版本的适配,第一个版本也已经提审,趁着这个空档进行一下总结: 打算后续按照目录进行完善 1.iOS直播采集介绍,直播助手iOS11采集使用的方法 2.iO ...
- NOIP模拟53
我在时光斑驳深处,聆听到花开的声音. 前言 这套题好像是随便拼接起来的,来自三套不同的题,最后一道还是学长出的(nb 场上为数不多的几次死磕一道题正解,大概有三个小时吧(惭愧,前两个小时看错题了,一直 ...
- K-D Tree 总结
Luogu题单 前置芝士 \(K-D\;Tree\) 例题略解 P2479 [SDOI2010]捉迷藏 大概就是 K-D Tree 的板子题了吧,网上的打法都不太友好,参考了 fengwu 的打法. ...
- scala的基本语法
区分常量和变量 常量 变量 写一行代码,写多行代码,终端代码 数据类型 byte char short int long float double boolean 数据类型与java相似,但与jav ...
- Linux C操作XML文件
1 简介 介绍使用C语言操作xml文件. 使用的开源库:mxml mxml源码路径:michaelrsweet/mxml: Tiny XML library. (github.com) mxml官网: ...
- LeetCode 690. Employee Importance 员工的重要性(C++/Java)
题目: You are given a data structure of employee information, which includes the employee's unique id, ...
- Tomcat问题修复系列之后台缓存不足
系统运维时,在tomcat窗口发现一个警告 后台缓存收回进程无法释放上下文的缓存的10%-请考虑增加缓存的最大大小.在逐出之后,缓存中约保留XXX KB的数据. 无法将位于[/WEB-INF/view ...
- [DP] DP优化总结
写在前面 $ DP $,是每个信息学竞赛选手所必会的算法,而 $ DP $ 中状态的转移又显得尤为关键.本文主要从状态的设计和转移入手,利用各种方法对朴素 $ DP $ 的时间复杂度和空间复杂度进行优 ...
- 利用.htaccess绑定子域名到子目录
Tips:当你看到这个提示的时候,说明当前的文章是由原emlog博客系统搬迁至此的,文章发布时间已过于久远,编排和内容不一定完整,还请谅解` 利用.htaccess绑定子域名到子目录 日期:2018- ...