深入理解计算机系统cp1:存储单位与编码
摘要: 理解计算机是如何存储数据的。
- 原文:深入理解计算机系统cp1:存储单位与编码
- 作者:Chor
Fundebug经授权转载,版权归原作者所有。

1. 存储单位
- 位:即 bit,表示二进制位,要么是 0 ,要么是 1。它是计算机内部数据存储的最小单位。比如 11010100 共有8个二进制位,是一个8位二进制数。
- 字节:即 byte,它由8个二进制位构成,即 1byte=8bit,是计算机内部计量的基本单位。一个英文字符占1个字节(8位),一个汉字占2个字节(16位)
- 字:即word,它由若干个字节构成,是计算机内部进行数据处理和运算的基本单位。字的总的位数称为字长,不同档次的计算机字长是不一样的,比如32位机,它的1个字由4个字节构成,字长为32位,也就是说其CPU一次操作处理的实际位数是32位。同理,64位机可以处理64位。由此可见,计算机的字长越大,其性能越优越。
- KB,MB:1024byte = 1KB,1024KB = 1MB。往上还有GB,TB。
PS:数据传输大多以 bit 为单位,比如我们常说的网速100M/s,M/s其实Mbit/s,也就是兆比特每秒,我们还可以写成100Mbps。
2. 编码
2.1 为什么需要编码?
- 计算机只能理解0和1,无法理解英文、字母、汉字和其他特殊字符,这些字符需要经过编码才能成为计算机可以理解的二进制数。
- 由字符到二进制数称为编码,反过来则是解码。
- 从字符到二进制数,需要有一个一一对应的映射,这个映射通过编码规则来实现。
- 通常所说的编码其实包括编码+字符集(即字符的集合体),比如 Unicode 字符集,就有 UTF-8,UTF-16 等多种编码。
2.2 编码规则的演变
ASCII:
1)
/ˈæski/,即 American Standard Code for Information Interchange,美国信息交换标准代码。本来一个字节有8位,每一位有0和1两种状态,则一个字节共有2^8=256种状态,可以表示256种字符。但是美国佬比较自私,觉得只要可以表示自己的字母和一些特殊字符就足够了,所以 ASCII 没有占用最高位(而是固定为0),实际只用到了后面7位,它可以表示 2^7=128 种状态,也就是表示128个字符。2) 很显然,这用来表示字母是足够的,但要想表示其它语言的字符,128还是太少了。
PS:附送 ASCII 对照表一张:

GB2312:
1) 既然美国佬只解决了字母和特殊符号的编码问题,那么我们中国人只好实现自己的编码,从而来表示汉字了。所以这时候出现了 GB2312 编码(国标码)。
2) 问题:不幸的是,各个国家都是这么想的,所以小日本有了 Shift_JIS 编码,棒子有了 Euc-kr 编码…..一时之间各国都有了自己的标准,那么对于一个多语言混合的文本来说,存在着不同的编码规则,最终必然导致乱码。
Unicode:
1) Unicode 解决了编码统一的问题。每种语言的每个字符在 Unicode 的规则下,都只有统一且唯一的对应二进制编码。它的表示方法是
U+[16进制数]。例如,大写字母 A 编码为U+0041,汉字“严”编码为U+4E25。2) 问题:Unicode 一般用2个字节(也就是16位)表示一个字符,这在表示 ASCII 字符的时候会出现问题。我们知道,ASCII 字符实际只需要一个字节就够了,并且最高位甚至都还不需要用到,但是 Unicode 又规定表示一个字符至少需要2个字节,那么一个 ASCII 字符前面就必须要补0以满足这个规则,例如字母 A 就需要用
00000000 01000001表示,这些多余的0是一个极大的资源浪费。UTF-8:
1) UTF:实际传输过程中,基于不同的系统平台,对 Unicode 会有不不同的实现方式,其实现方式称为 Unicode Transformation Format,即 UTF。
2) 作为 Unicode 的一种实现方式,UTF-8 展现了一定的灵活性——它是一种变长编码,会根据具体字符来改变所需要的表示字节。其编码规则只有两条:
i>. 对于 128 个 ASCII 字符只需一个字节表示,字节的第一位补 0,后面 7 位为这个字符的 ASCII 二进制数。Unicode 范围为 U+0000 至U+007F。
ii>. 对于 n 字节的符号(n>1),第一个字节的前 n 位都设为 1,第 n+1 位设为 0,后面字节的前两位一律设为 10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码二进制数。Unicode 范围由 U+0080 起。
也可以看下面这张图:

以汉字“严”为例,演示如何实现 UTF-8 编码。
“严”的 Unicode 是 U+4E25(二进制数 100111000100101),据表,U+4E25 处在第三行的范围内(U+0800 ~ U+FFFF),因此“严”的UTF-8 编码需要三个字节,即格式 1110xxxx 10xxxxxx 10xxxxxx。然后,从“严”的最后一个二进制位开始,依次从后向前填入格式中的 x,多出的位补 0。这样就得到 UTF-8 编码(二进制)是 11100100 10111000 10100101,转换成十六进制就是 E4B8A5。
参考:
关于Fundebug
Fundebug专注于JavaScript、微信小程序、微信小游戏、支付宝小程序、React Native、Node.js和Java线上应用实时BUG监控。 自从2016年双十一正式上线,Fundebug累计处理了20亿+错误事件,付费客户有阳光保险、核桃编程、荔枝FM、掌门1对1、微脉、青团社等众多品牌企业。欢迎大家免费试用!
深入理解计算机系统cp1:存储单位与编码的更多相关文章
- 深入理解计算机系统(1.1)------Hello World 是如何运行的
上一篇序章我谈了谈 程序员为啥要懂底层计算机结构 ,有人赞同也有人反对,但是这并不影响 LZ 对深入理解计算机系统研究的热情.这篇博客以案例驱动的模式,通过跟踪一个简单 Hello World 程序的 ...
- 深入理解计算机系统(4.1)---X86的孪生兄弟,Y86指令体系结构
引言 各位猿友们好,计算机系统系列很久没更新了,实在是抱歉之极.新的一年,为了给计算机系统系列添加一些新的元素,LZ将其更改为书的原名<深入理解计算机系统>.这本书非常厚,而且难度较高,L ...
- 《深入理解计算机系统》【PDF】下载
<深入理解计算机系统>[PDF]下载链接: https://u253469.pipipan.com/fs/253469-230382303 内容提要 本书主要介绍了计算机系统的基本概念,包 ...
- <深入理解计算机系统>第七章读书笔记
第七章读书笔记 链接 链接:将各种代码和数据部分收集起来并组合成为一个单一文件的过程.(这个文件可被加载或拷贝到存储器并执行) 链接可以执行于编译,加载或运行时. 静态链接: 两个主要任务: 1 符号 ...
- 深入理解计算机系统_3e 第九章家庭作业 CS:APP3e chapter 9 homework
9.11 A. 00001001 111100 B. +----------------------------+ | Parameter Value | +--------------------- ...
- 深入理解计算机系统 第二章 信息的表示和处理 Part1 第二遍
<深入理解计算机系统> 第三版 第二遍读这本书,每周花两到三小时时间,能读多少读多少(这次看了 22 ~ 28 页) 第一遍对应笔记链接 https://www.cnblogs.com/s ...
- 深入理解计算机系统(1.2)---hello world的程序是如何运行的
在写本章的内容之前,LZ先做个小广告.其实也不算是什么广告,就是LZ为了和各位猿友交流方便,另外也确实有个别猿友留言或者在博客里发短消息给LZ要联系方式.因此LZ斗胆建立了一个有关<深入理解计算 ...
- 《深入理解计算机系统》 Chapter 7 读书笔记
<深入理解计算机系统>Chapter 7 读书笔记 链接是将各种代码和数据部分收集起来并组合成为一个单一文件的过程,这个文件可被加载(货被拷贝)到存储器并执行. 链接的时机 编译时,也就是 ...
- 【转】《深入理解计算机系统》C程序中常见的内存操作有关的典型编程错误
原文地址:http://blog.csdn.net/slvher/article/details/9150597 对C/C++程序员来说,内存管理是个不小的挑战,绝对值得慎之又慎,否则让由上万行代码构 ...
随机推荐
- VMware Workstation 15 Pro中安装ubuntu1804
这篇笔记是一篇安装教程,没有什么实际的意义,仅为了记录一下……距离上次弄这东西不知道多长时间了,以至于这次再次使用时很是生疏,于是就想着把过程记录下来方便之后查看. 这里不涉及VMware Works ...
- js new Date 创建时间默认是8点
起因 最近在写一个页面,需要用到时间控制.然后我通过new Date()传入日期字符串创建了一个对象,并与当前时间做时间戳比较,结果12点刚过,就出问题了.举个栗子 // 假设当前时间是2019年12 ...
- 查看python版本多少位的
正常我们在cmd终端输入python之后,如果有安装python,就会在回车之后出来关于你安装的python版本信息,几版本,多少位的,但是还有一种,像我这样只显示了python版本是3.7.5,并没 ...
- mysql不等于判断时,空值过滤问题
产生根源 比如我们有三条数据,对应的列名是delete_flag,对应的数据是'normal','delete',null. 此时我们查所有不等于delete的记录,我们期望的是两条记录 normal ...
- C#线程学习笔记二:线程池中的工作者线程
本笔记摘抄自:https://www.cnblogs.com/zhili/archive/2012/07/18/ThreadPool.html,记录一下学习过程以备后续查用. 一.线程池基础 首先,创 ...
- Ocelot网关在.Net Core 的使用
1. 项目环境 .Net Core 2.2 Ocelot 13.5.2 2. 基本使用 * Nuget 安装 Ocelot , Ocelot.Provider.Polly * 修改 Pro ...
- CentOS 安装Asp.net Core & FTP服务
网络设置 确认是否成功连网: ping baidu.com 如果无法上网请检查以下设置 ip link show vim /etc/sysconfig/network-scripts/ipcfg-(看 ...
- 6 Ubuntu软件安装
6 软件安装¶ 6.1 通过apt 安装/卸载软件¶ apt是Advanced Packaging Tool,是Linux下的一款安装包管理工具 可以在终端中方便的安装/卸载/更新软件包 # 1. ...
- Cocos2d-x游戏实例《忍者飞镖》之对象管理
推荐移步至<忍者飞镖射幽灵>之对象管理阅读 配置环境:win7+Cocos2d-x.2.0.3+VS2012 目标读者:需了解游戏帧率以及回调函数的概念 一.引言 对具体游戏demo的分析 ...
- RTX5的汽车级,工业级,医疗和铁路安全认证已经通过,证书已颁发
说明: 1.当前RTX5的教程已经在制作中,使用CMSIS-RTOS V2封装层,含FreeRTOS,配套V7,V6和V5板子. 2.我们各种开发板和模块的资料汇总贴,搞了个cnblogs,临时先用 ...