[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术

中文编码GB2312 回忆上次内容

上次回顾了日韩各有编码格式
日本
有假名
五十音
一字节可以勉强放下

有日本汉字
字符数量超过20000+

韩国
有谚文
数量超过500
一个字节放不下

有朝鲜汉字
字符数量超过20000+

添加图片注释，不超过 140 字（可选）

作为汉字源头的中国
究竟应该如何对汉字进行编码呢？

汉字

汉字起源于甲骨文
是世界上唯一还在使用的象形文字
真的很不容易

添加图片注释，不超过 140 字（可选）

写的本意就是画
写意
写生

这就是最初的
象形字

六书

以象形为基础
指事
会意
形声
转注
假借

添加图片注释，不超过 140 字（可选）

字的结构是什么呢？

间架结构

上下
左右
内外

添加图片注释，不超过 140 字（可选）

字型相当复杂
笔画也千姿百态

汉字笔画

笔画也比较复杂

添加图片注释，不超过 140 字（可选）

运笔藏锋都很有讲究

中国大陆地区

中国大陆地区最早使用 GB/T 2312-1980
当时参考了比我们先进的日本JIS 字符集
1980 年指定的国标 (GuoBiao)
1981 年 5 月 1 日开始使用

添加图片注释，不超过 140 字（可选）

GB2312 编码共收录汉字 6763 个
其中一级汉字 3755 个
二级汉字 3008 个

这么多字怎么排呢？

区位

01-09 区为特殊符号
先把ascii的128个字符让出去
然后在留有一些制表的字符
还留了相当多的空余

16-55 区为一级汉字
按拼音排序

56-87 区为二级汉字
按部首／笔画排序

添加图片注释，不超过 140 字（可选）

出了汉字之外，还收录了
拉丁字母
希腊字母
日文平假名及片假名字母
俄语西里尔字母
真的很全了

可是这gb2312
具体是如何编解码的呢？

应用

添加图片注释，不超过 140 字（可选）

如果是0-127以内的ascii字符
标志位为0
1个字节存储

添加图片注释，不超过 140 字（可选）

如果是ascii以外的字符
标志位为1
2个字节存储

编解码

编解码方法一致就可以
解铃还须系铃人

添加图片注释，不超过 140 字（可选）

同时用 gb2312 编解码是没有问题的
这篇制定标准的文档
当时怎么打印出来的呢？
制定内码标准的时候就有字形了吗？

铅字

虽然计算机在当时还没有普及
但是出版行业已经工业化了

添加图片注释，不超过 140 字（可选）

印刷厂使用铅活字进行排版
铸字工
拼版工
还有拣字工

拣字工

印刷家谱从一个大盒子就够了

添加图片注释，不超过 140 字（可选）

字再多些
要用转轮排字盘

添加图片注释，不超过 140 字（可选）

字再多些呢？

捡字室

大印刷厂
字模特别多

添加图片注释，不超过 140 字（可选）

甚至要放
好几面墙
好几张桌子

开端

这也曾被
使用26个字母的西方文明嘲讽

添加图片注释，不超过 140 字（可选）

出书确实不易
捡好了字
排好了版
先打个样
再来校对
再浇铅板
最后印刷

最初的
书籍
杂志
报纸
试卷
都是这样印刷出来的

到了印刷 gb2312-80标准的 1980年
已经启用了新的技术

机械打字机

从轮转排字盘
到谢卫楼发明的中文打字机

添加图片注释，不超过 140 字（可选）

再到舒震东
在前人的研究基础上经过创新
得到的舒式打字机

添加图片注释，不超过 140 字（可选）

中文字符的数量
是一个难关

直到
照相技术的发展

照片排版

使用照片底片进行排版

添加图片注释，不超过 140 字（可选）

也面临检字的工作

添加图片注释，不超过 140 字（可选）

照片排版技术本身也在迭代

激光照排

这次使用激光扫描照片

添加图片注释，不超过 140 字（可选）

每一个小字型都是一个照片
根据汉字内码找到汉字对应的激光照片
然后再把激光照片像活字一样排版
这就是激光照排技术

添加图片注释，不超过 140 字（可选）

用照片排版的方式
制作了这样一个汉字编码的文档

标准定了立刻就能用起来么？

过程

凡事都有个过程
95年定的gbk
98年才逐渐推行开来

但还是有些生僻字没有相应的字型

添加图片注释，不超过 140 字（可选）

内码从无到有
字形码也从无到有

添加图片注释，不超过 140 字（可选）

感谢前辈

感谢王选与陈堃銶前辈的技艺

添加图片注释，不超过 140 字（可选）

激光照排技术可以
印刷中文书籍和报纸了

总结

简体和繁体的汉字
字符数量都超级大
感谢王选和陈堃銶等前辈发明了激光照排技术
中文排版从此使用上了gb2312编码

添加图片注释，不超过 140 字（可选）

纸张之外
显示器是更先进的输出设备

计算机是如何在显示器上显示的呢？
我们下次再说！
蓝桥->https://www.lanqiao.cn/courses/3584
github->https://github.com/overmind1980/oeasy-python-tutorial
gitee->https://gitee.com/overmind1980/oeasypython

[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选的更多相关文章

perl处理含有中文字符的json编码
例子:1. 有php的 json函数生成的中文串 [root@tts177:/tmp]$/opt/php/bin/php -r 'echo json_encode(Array("a" ...
编码占用的字节数 1 byte 8 bit 1 sh 1 bit 中文字符编码 2. 字符与编码在程序中的实现变长编码 Unicode UTF-8 转换在网络上传输保存到磁盘上 bytes
小结: 1.UNICODE 字符集编码的标准有很多种,比如:UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig 等: 2 服务器->网页 utf-8 ...
中文字符 unicode转utf-8函数 python实现
unicode编码范围 00000000-0000007F的字符,用单个字节来表示: 00000080-000007FF的字符用两个字节表示 (中文的编码范围) 00000800-0000FFFF的字 ...
Java实现中文转换成Unicode编码和 Unicode编码转换成中文
想要实现中文字符转换为Unicode编码的话主要用到的是一个这样的包,自己可以去API文档里面查看下的 java.util.Properties; 直接进入主题吧,主要是 package Test01 ...
ajax 传递中文字符参数问题
使用ajax 传递中文字符串时, 服务端会接收不到预期的中文字符. 此时,需要对 js中的中文字符参数进行编码, 到达服务端后, 再为其解码即可. 前端: var url = '....'; ...
在使用NSArray打印的时候如果遇到中文字符那么会打印出来编码。
在使用NSArray打印的时候如果遇到中文字符那么会打印出来编码,如下代码: - (void)viewDidLoad { [super viewDidLoad]; // Do any addition ...
python利用utf-8编码判断中文字符
下面这个小工具包含了判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/u ...
使用 URLDecoder 和 URLEncoder 对中文字符进行编码和解码
原文: https://blog.csdn.net/justloveyou_/article/details/57156039 使用 URLDecoder 和 URLEncoder 对中文字符进行编码 ...
url为什么要编码及php中的中文字符urlencode基本原理
首先了解以下中文字符在使用urlencode的时候运用的基本原理: urlencode()函数原理就是首先把中文字符转换为十六进制,然后在每个字符前面加一个标识符%. 此字符串中除了 -_. 之外的所 ...
Python2.7 中文字符编码 & Pycharm utf-8设置、Unicode与utf-8的区别
Python2.7 中文字符编码 & Pycharm utf-8设置.Unicode与utf-8的区别 zoerywzhou@163.com http://www.cnblogs.com/sw ...

随机推荐

大数据之Hadoop中HDFS的故障排除
NameNode故障处理 1)需求 NameNode进程挂了并且存储的数据也丢失了 2)故障模拟 (1)kill -9 NameNode进程 kill -9 19886 (2)删除NameNode储存 ...
C#应用的用户配置窗体方案 - 开源研究系列文章
这次继续整理以前的代码.本着软件模块化的原理,这次笔者对软件中的用户配置窗体进行剥离出来,单独的放在一个Dll类库里进行操作,这样在其它应用程序里也能够快速的复用该类库,达到了快速开发软件的效果. 笔 ...
[Unity] 实现AssetBundle资源加载管理器
实现Unity AssetBundle资源加载管理器 AssetBundle是实现资源热更新的重要功能,但Unity为其提供的API却十分基(jian)础(lou).像是自动加载依赖包.重复加载缓存. ...
NET9 AspnetCore将整合OpenAPI的文档生成功能而无需三方库
OpenAPI 规范是用于描述 HTTP API 的标准.该标准允许开发人员定义 API 的形状,这些 API 可以插入到客户端生成器.服务器生成器.测试工具.文档等中.尽管该标准具有普遍性和普遍性, ...
前端如何对cookie加密
在前端对 Cookie 进行加密时,你可以使用加密算法对 Cookie 的值进行加密,然后再将加密后的值存储到 Cookie 中.常用的加密算法包括对称加密算法(如 AES)和非对称加密算法(如 RS ...
Validate插件的自定义验证方法入门（结合Ajax实现用户名的数据库查重）
概述本文介绍Validate自定义表单校验方式.Validate插件虽然提供了丰富的验证规则,但在很多时候仍然很难满足我们的开发需求,在注册页面我们需要通过ajax验证用户输入的用户名是否已经被他人 ...
Flutter学习网站和安装问题
一.Flutter网站 Flutter中文开发者网站(推荐) https://flutter.cn/ 二.Flutter第三方库 Pub.Dev https://pub.dev/ 三.Flutter源 ...
春松客服入驻Rainbond开源应用商店
"做好开源客服系统" 春松客服是拥有坐席管理.渠道管理.机器人客服.数据分析.CRM 等功能于一身的新一代客服系统.将智能机器人与人工客服完美融合,同时整合了多种渠道,结合 CRM ...
nginx四层负载nginx七层负载,nginx基于nginx-sticky会话保持.
1. nginx负载均衡实战 nginx提供了 4 7层负载均衡. 可根据业务需求选择不同负载均衡策略. 1.1.1 nginx四层负载均衡[网络层TCP负载] 不支持动静分离,但支持 http my ...
安装配置intelli IDEA
效果操作去官网下载安装包下载 Intelli IDEA 下载插件插件下载打开IDEA安装目录下的bin目录,找到idea64.exe.vmoptions配置文件添加配置打开indea,添 ...

[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选

[oeasy]python0123_中文字符_文字编码_gb2312_激光照排技术_王选的更多相关文章

随机推荐

热门专题