前言

　　Go语言之父Rob Pike大神曾吐槽：不能掌握正则表达式或浮点数就不配当码农！

　　You should not be permitted to write production code if you do not have an journeyman license in regular expressions or floating point math.

　　此前使用Java写Spark SQL业务时，也有遇到浮点数比较问题即x>70的记录行居然出现了70的记录，尽管SQL做了类型转换再比较也无济于事....

　　因此了解浮点数是很有必要的哟~~

什么是浮点数

　　电气和电子工程师协会IEEE对于计算机浮点数的存储、运算、表示等推出了IEEE754标准！

　　标准中规定：

　　　　float32位单精度浮点数在机器中表示用 1 位表示数字的符号，用 8 位表示指数，用 23 位表示尾数。

　　　　double64位双精度浮点数，用 1 位表示符号，用 11 位表示指数，52 位表示尾数。

　　　　其中指数域也称为阶码。浮点数存储字节定义如图：

浮点数正规化

　　尾数不为0时，尾数域的最高有效位为1，这称为规格化。否则，以修改阶码同时左右移动小数点位置的办法，使其成为规格化数的形式。

　　浮点数x真值表示：

　　x=(−1)^S×(1.M)×2^e

　　float：　　　　e=E−127

　　double：　　 e=E−1023　

S 符号位　　 0表示正 1表示负
e 指数位　　阶码E减去移码
M 尾数位　　二进制形式移码

移码

　　移码是真值补码的符号位取反，一般用作浮点数的阶码，目的是便于浮点数运算时的对阶操作。

　　对于定点整数，计算机一般采用补码的来存储。

　　正整数的符号位为0，反码和补码等同于原码。

　　负整数符号位都为1，原码，反码和补码的表示都不相同，由负数原码表示法变成反码和补码有如下规则：
　　（1）原码符号位为1不变，整数的每一位二进制数位求反得反码；
　　（2）反码符号位为1不变，反码数值位最低位加1得补码。

　　　比如，以一个字节来表示-3，那么[−3]原=10000011 [−3]反=11111100 [−3] 补=11111101 [−3]移=01111101

举个栗子

【3.14的单精度浮点数表示】

首先将3.14转成二进制:

整数部分3的二进制是11

小数部分0.14的二进制是：0.0010001111010111000010[10001111.....]（方括号中表示小数点后第23位及之后）

这样，3.14的二进制代码就是：11.0010001111010111000010[10001111....]×2⁰

那么用正规化表示就是：1.10010001111010111000010[10001111....]×2¹

方括号表示的超出23位之后的二进制部分，由于单精度浮点数尾数只有23位，所以需要舍入（舍入方法见后）

由于第24位为1，且之后不全为 0，所以需要向第23位进1完成上舍入：1.10010001111010111000011×2¹

而其指数是1，需要加上移码127，即128，也就是1000 0000

它又是正数，所以符号为0

综上所述，3.14的单精度浮点数表示为：
0 1000-0000 1001-0001-1110-1011-1000-011

S符号位 0

e指数位　1000-0000

M尾数位 1001-0001-1110-1011-1000-011

十六进制代码为：0x4048F5C3

误差

　　通过栗子可知，3.14的单精度浮点数表示是0 1000-0000 1001-0001-1110-1011-1000-011。现在我们来还原，看看它的误差：

　　指数是128，那么还原回去（减去移码），实际指数就是1

　　尾数还原也就是：10010001111010111000011，所以正规化形式是：1.10010001111010111000011×2¹

　　也就是11.0010001111010111000011

　　利用二进制转十进制，可得它对应的十进制数是：3.1400001049041748046875 不等于3.14

　　这就是为什么浮点数运算结果在业务代码中总是不可确切预期的原因！！！！

机器ε

　　机器ε表示1与大于1的最小浮点数之差。例如双精度表示1和表示大于1的最小浮点数

　　双精度浮点数的机器ε = 2^-52≈ 2.220446049250313e-16

　　同理，单精度的机器ε = 2^-23≈ 1.1920928955078125e-7

　　在舍入规则中，相对舍入误差不能大于机器ε的一半。

非正规化

　　 单精度浮点数为例

　　（1）0的表示

　　　　对于阶码为0或255的情况，IEEE754标准有特别的规定：

　　　　如果阶码E=0并且尾数M是0，则这个数的真值为±0（正负号和数符位有关）。

　　　　+0的机器码为：0 00000000 000 0000 0000 0000 0000 0000

　　　　-0的机器码为：1 00000000 000 0000 0000 0000 0000 0000

　　　　需要注意一点，浮点数不能精确表示0，而是以很小的数来近似表示0。因为浮点数的真值等于

　　　　x=(−1)^S×(1.M)×2^e

　　　　e=E−127

　　　　那么

　　　　+0的机器码真值为 1.0×2⁻¹²⁷

-0机器码真值为 −1.0×2⁻¹²⁷

　　（2）无穷的表示
　　　　如果阶码E=255 并且尾数M全是0，则这个数的真值为±∞（同样和符号位有关）。

　　　　因此

　　　　+∞的机器码为：0 11111111 000 0000 0000 0000 0000 0000

　　　　-∞的机器吗为：1 11111111 000 0000 0000 0000 0000 0000

　　（3）NaN（Not a Number）
　　　　如果 E = 255 并且 M 不全是0，则这不是一个数（NaN）。

舍入规则

　　以23位尾数位的单精度浮点数为例，舍入时需要重点参考第24位

　　若第24位为1，且第24位之后全部为0。此时就要使第23位为0：若第23位本来就是0则不管，若第23位为1，则第24位就要向第23位进一位，这样第23位就可以为0

　　若第24位为1，且第24位之后不全为0，则第24位就要向第23位进一完成上舍入。

　　若第24位为0，此时直接舍去不进位，称为下舍入。

再来个栗子

JavaScript console 双精度浮点数

>>9.4 - 9 - 0.4 === 0
<<false
>>(9.4-9-0.4).toFixed(20)
<<"0.00000000000000033307"

9.4-9-0.4不严格等于0，其运算结果误差。

因为按照上面的浮点数知识可知

9.4在机器内被表示为：9.4+0.2×2^-49

0.4被表示为：0.4+0.1×2^-52

当9.4-9时（因为9是整数是可以精确存储的）得0.4+0.2×2^-49，再减去0.4+0.1×2^-52得3×2^-53，约等于"0.00000000000000033307"。

详细解释：

9的二进制是1001，而0.4的二进制是0.0110-0110-0110-……无限循环的。从而9.4的二进制是1001.0110-0110……，正规化以后就变成 1.001-0110-0110-……×2^³，

因为双精度浮点数是52位尾数，所以小数部分保留0.001-0110-0110-……-0110-0 [110-0110-0110-……]。即001后跟12个0110循环节，然后第52位是0，中括号表示从

第53位起开始舍弃的部分。根据我提到的舍入规则，第53位1且后面不全为0，要向第52位完成上舍入，所以小数部分就变成 0.001-0110-0110-……-0110-1。至此我们

可以看到，这个数较之9.4，由于小数部分第52位由0变为1，所以多加了2^-52，但是因为从小数部分第53位开始舍弃了，舍弃部分是 0.1100-1100-…×2^-52= 0.8×2^-52。

所以我们多加了2^-52，但是少了0.8×2^-52，这就意味着，但考虑尾数部分，这个数比9.4多了 2^-52- 0.8×2^-52= 0.2×2^-52，别忘记之前还有一个2^3，所以整

体多了0.2×2^-52×2^³= 0.2×2^-49

这就是为什么9.4在机器内被表示为：9.4+0.2×2^-49

同理，0.4在机器内被表示为：0.4+0.1×2^-52

IEEE754浮点数的更多相关文章

震惊！计算机连0.3+0.6都算不对？浅谈IEEE754浮点数算数标准
>>> 0.3+0.6 0.8999999999999999 >>> 1-0.9 0.09999999999999998 >>> 0.1+0.1+ ...
把一个IEEE754浮点数转换为IBM370浮点数的C#代码
把一个IEEE754浮点数转换为IBM370浮点数的C#代码. 在这个网页上有古老的IBM370浮点格式的说明. // http://en.wikipedia.org/wiki/IBM_Floatin ...
IEEE754 浮点数
IEEE754 浮点数 1.阅读IEEE754浮点数 A,阶码是用移码表示的,这里会有一个127的偏移量,它的127相当于0,小于127时为负,大于127时为正,比如:10000001表示指数为129 ...
IEEE754浮点数表示法
IEEE二进制浮点数算术标准(ANSI/IEEE Std 754-1985)是一套规定如何用二进制表示浮点数的标准.就像"补码规则"建立了二进制位和正负数的一一对应关系一样,IEE ...
IEEE Floating Point Standard (IEEE754浮点数表示法标准)
浮点数与定点数表示法是我们在计算机中常用的表示方法所以必须要弄懂原理,特别是在FPGA里面,由于FPGA不能像在MCU一样直接用乘除法. 定点数首先说一下简单的定点数,定点数是克服整数表示法不能表 ...
matlab中实现 IEEE754浮点数与一般十进制数之间互相转换的方法
------------恢复内容开始------------ %2020/12/2 11:42:31clcformat long % IEEE754 to deca = '40800000'a = d ...
IEEE754浮点数的转换
将十进制数转换为单精度浮点数如何将十进制数转换为单精度浮点数参考首先要知道 IEEE浮点标准:V=(-1)^s * M * 2^E 1.符号(sign)s决定这个数是负数(s=1)还是正数,0(s ...
IEEE754浮点数的表示方法
https://blog.csdn.net/K346K346/article/details/50487127
作业：IEEE754浮点数
人工转换: 5.75转换成二进制:101.11右移2位,补0:1.0111000000000000000000000000000000000000000000000000.10000000001 16 ...

随机推荐

R Shiny app | 交互式网页开发
网页开发,尤其是交互式动态网页的开发,是有一定门槛的,如果你有一定的R基础,又不想过深的接触PHP和MySQL,那R的shiny就是一个不错的选择. 现在R shiny配合R在统计分析上的优势,可以做 ...
git之删除untrack files
退回版本 git reset --hard commit_id //不保留未提交的修改 git reset --soft commit_id //默认方式,保留未提交的修改撤除本地没有提交的修改 g ...
uboot下如何使用fatls工具?
答: 如列出第一个sd卡第一个分区中的文件: fatls mmc 0:1 /
Nessus更新到8.5.0
Nessus更新到8.5.0 此次更新,主要涉及以下变化: (1)Nessus的用户注册和激活流程进行简化.用户可以在Nessus软件中直接进行注册和激活. (2)Nessus报告生成功能得到加强 ...
Spring cloud微服务安全实战-4-6搭建OAuth2资源服务器
认证服务器已经搭建好了. 可以通过认证服务器拿到令牌下面改造订单服务,让它可以用这个令牌. 争对订单服务要做三个事, 1.让订单服务知道它自己是Oauth协议里面的资源服务器.,它知道这个事后,它才 ...
C++接口的概念
满足下面条件: 1.类中没有定义任何的成员变量 2.所有的成员函数都是公有的 3.所有的成员函数都是纯虚函数 4.接口是一种特殊的抽象类
通过直方图进行PCA准备
import graphviz import mglearn from mpl_toolkits.mplot3d import Axes3D from sklearn.datasets import ...
Elasticsearch集成Hadoop最佳实践.pdf（内含目录）
Elasticsearch服务器开发(第2版) 介绍: ElasticSearch是一个开源的分布式搜索引擎,具有高可靠性,支持非常多的企业级搜索用例.ElasticsearchHadoop作为一个完 ...
Django model中的save后的return
先给结论吧:在Django model的操作函数中,obj.save()后再执行return obj会返回obj的ID. 看例子: ... def create_session(self,bind_h ...
bladex之nacos配置
blade.yaml #服务器配置server: undertow: # 设置IO线程数, 它主要执行非阻塞的任务,它们会负责多个连接, 默认设置每个CPU核心一个线程 io-threa ...

IEEE754浮点数

前言