IEEE 754 浮点数加减运算
小数的十进制和二进制转换
移码
定义:[X]移 = X + 2n ( -2n ≤ X < 2n )
X为真值,n为整数的位数
数值位和X的补码相同,符号位与补码相反
舍入方法
0舍1入
保留4位尾数:
0 00100 -> 0 0010
/*
**0直接舍去
*/
1 00101 -> 1 0011
/*
**1进位
*/
1 11011 -> 1 1110
末位恒置1
保留4位尾数:
0 00100 -> 0 0011
1 00101 -> 1 0011
1 11011 -> 1 1101
IEEE 754
32位单精度
| Sign | 8位阶码 [偏移量为28-1-1 = 127的非标准移码] | 23位尾数 |
|---|
| 真值表达式 | E的取值范围 |
|---|---|
| N = (-1)s × 2E-127 × 1.M | 1到254 |
64位双精度
| Sign | 11位阶码 [偏移量为211-1-1 =1023的非标准移码] | 252位尾数 |
|---|
| 真值表达式 | E的取值范围 |
|---|---|
| N = (-1)s × 2E-1023 × 1.M | 1到2046 |
为了确保浮点数表示的唯一性,约定 0 ≤ M < 1
各字段的含义( 以单精度为例 )
规范浮点数
1 ≤ E ≤ 254
真值表达式:N = (-1)s × 2E-127 × 1.M,尾数部分隐含开头的1
- 最小的正规格化数
| 0 | 0000 0001 | 0000 0000 0000 0000 0000 000 |
|---|
- 最大的正规格化数
| 0 | 1111 1110 | 1111 1111 1111 1111 1111 111 |
|---|
非规范浮点数
E = 0,M ≠ 0
| s | 0000 0000 | ≠ 0 |
|---|
真值表达式:N = (-1)s × 2-126 × 0.M,尾数部分不隐含开头的1
最小的正非规格化数
| s | 0000 0000 | 0000 0000 0000 0000 0000 001 |
|---|
最大的正非规格化数
| s | 0000 0000 | 1111 1111 1111 1111 1111 111 |
|---|
浮点数0
E = 0,M = 0
| s | 0000 0000 | 0000 0000 0000 0000 0000 000 |
|---|
有+0.0和-0.0两种零
无穷大
E全为1(255),M = 0
正无穷大
| 0 | 1111 1111 | 0000 0000 0000 0000 0000 000 |
|---|
负无穷大
| 1 | 1111 1111 | 0000 0000 0000 0000 0000 000 |
|---|
NaN Not a Number
计算sqrt(-1)或∞-∞时会返回NaN
E全为1(255),M ≠ 0
| s | 1111 1111 | ≠ 0 |
|---|
为什么要使用127作为偏移量而不是128

https://stackoverflow.com/questions/8909841/why-does-the-ieee-754-standard-use-a-127-bias
溢出
上溢:阶码大于机器的最大阶码,不能继续运算,一般要进行中断处理
下溢:阶码小于最小阶码,当做零处理,机器可以继续运算
规格化浮点数
当尾数结果为00.0x…x 或 11.1x…x
尾数左移,阶码减1,直到尾数形式为00.1x…x 或 11.0x…x当尾数结果为01.x…x 或 10.x…x
尾数右移,阶码加1,尾数形式变为00.1x…x 或 11.0x…x
阶码加减
设:
AE、BE为阶码,CE为结果阶码
[ AE + BE ]移
= ( AE + BE ) + 127
= ( AE + 127 ) + ( BE + 127 ) - 127
= [ AE ]移 + [ BE ]移 -127
= [ AE ]移 + [ BE ]移 + [ -127 ]补
= [AE]移 + [BE]移 + 129
= ( [AE]移 + [BE]移 + 129 ) mod 28
[ AE - BE ]移
= ( AE - BE ) + 127
= ( AE + 127 ) - ( BE + 127 ) + 127
= [ AE ]移 - [ BE ]移 + 127
= ( [AE]移 - [BE]移 + 127 ) mod 28
浮点数加减
设:
A = 2AE × AM,B = 2BE × BM
AE、BE为阶码,AM、BM为尾数

舍入
右移时:
- 0舍1入
- 末位恒置1
例题
x = 0.5, y = 0.4375, 32位单精度表示,求x + y和x - y
转换为二进制
- 0.5 x 2 = 1.0 取1
0.1 → 1.0 x 2 -1
[x]浮 =
| 0 | 0111 1110 | 0000 0000 0000 0000 0000 000 |
|---|---|---|
| -1 + 127 = 126 |
- 0.4375 x 2 = 0.875 取0
- 0.8750 x 2 = 1.750 取1
- 0.7500 x 2 = 1.500 取1
- 0.5000 x 2 = 1.000 取1
-0.0111 → 1.11 x 2-2
[y]浮 =
| 1 | 0111 1101 | 1100 0000 0000 0000 0000 000 |
|---|---|---|
| -2 + 127 = 125 |
求阶差
(0111 1110 - 0111 1101 + 127)mod 28 = 1
y向x对齐
y = 0.111 x 2-1
[y]浮 =
| 1 | 0111 1110 | 1110 0000 0000 0000 0000 000 |
|---|
尾数加减
| + |
|---|
| 00.0000 0000 0000 0000 0000 000 |
| 00.0010 0000 0000 0000 0000 000 |
| 00.0010 0000 0000 0000 0000 000 |
结果为00.0x…x,左规
得到1.0… x 2-4
结果 = 0.0625
| 0 | 0111 1011 | 0000 0000 0000 0000 0000 000 |
|---|---|---|
| -4 + 127 = 123 |
| - |
|---|
| 00.0000 0000 0000 0000 0000 000 |
| 00.1110 0000 0000 0000 0000 000 |
| 00.1110 0000 0000 0000 0000 000 |
结果 = 0.9345
| 0 | 0111 1110 | 1110 0000 0000 0000 0000 000 |
|---|
IEEE 754 浮点数加减运算的更多相关文章
- IEEE 754 浮点数在计算机中的表示方法
IEEE二进制浮点数算术标准(IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denorma ...
- velocity加减运算注意格式 ,加减号的左右都要有空格
velocity加减运算注意格式 ,加减号的左右都要有空格 #set( $left= $!biz.value - $vMUtils.getReturnMoney($!biz.billBuy) )
- [Swift]LeetCode592. 分数加减运算 | Fraction Addition and Subtraction
Given a string representing an expression of fraction addition and subtraction, you need to return t ...
- C语言中指针变量的加减运算
1.指针变量中存放的是地址值,也就是一个数字地址,例如某指针变量中的值是0x20000000,表示表示此指针变量存放的是内存中位于0x20000000地方的内存地址.指针变量可以加减,但是只能与整型数 ...
- 大整数加减运算的C语言实现
目录 大整数加减运算的C语言实现 一. 问题提出 二. 代码实现 三. 效果验证 大整数加减运算的C语言实现 标签: 大整数加减 C 一. 问题提出 培训老师给出一个题目:用C语言实现一个大整数计算器 ...
- Linux中日期的加减运算
Linux中日期的加减运算 目录 在显示方面 在设定时间方面 时间的加减 正文 date命令本身提供了日期的加减运算. date 可以用来显示或设定系统的日期与时间. 回到顶部 在显示方面 使用者可以 ...
- void *指针的加减运算
1.手工写了一个程序验证void *指针加减运算移动几个字节: //本程序验证空类型指针减1移动几个字节 #include <stdio.h> int main(int argc, cha ...
- Leetcode 592.分数加减运算
分数加减运算 给定一个表示分数加减运算表达式的字符串,你需要返回一个字符串形式的计算结果. 这个结果应该是不可约分的分数,即最简分数. 如果最终结果是一个整数,例如 2,你需要将它转换成分数形式,其分 ...
- C语言中指针的加减运算
参考文章,值得一看 char arr[3]; printf("arr:\n%d\n%d\n%d\n", arr, arr + 1, arr + 2); char *parr[3]; ...
随机推荐
- Django的基本运用(垃圾分类)
title: 利用Django实现一个能与用户交互的初级框架 author: Sun-Wind date: September 1, 2021 Django实现基本的框架 此框架的功能是搭建服务器,使 ...
- 从零开始实现简单 RPC 框架 7:网络通信之自定义协议(粘包拆包、编解码)
当 RPC 框架使用 Netty 通信时,实际上是将数据转化成 ByteBuf 的方式进行传输. 那如何转化呢?可不可以把 请求参数 或者 响应结果 直接无脑序列化成 byte 数组发出去? 答:直接 ...
- Python - 面向对象编程 - 多继承
继承的详解 https://www.cnblogs.com/poloyy/p/15216652.html 这篇文章讲的都是单继承,Python 中还有多继承 Python 多继承的背景 大部分面向对象 ...
- WEB漏洞——XSS
跨站脚本( Cross-site Scripting,简称为XSS或跨站脚本或跨站脚本攻击)是一种针对网站应用程序的安全漏洞攻击技术,是代码注入的一种. XSS攻击可以分为三种:反射型.存储型和DOM ...
- python 修改图像大小和分辨率
1 概念: 分辨率,指的是图像或者显示屏在长和宽上各拥有的像素个数.比如一张照片分辨率为1920x1080,意思是这张照片是由横向1920个像素点和纵向1080个像素点构成,一共包含了1920x108 ...
- adb 常用命令大全(7)- 其他实用功能
屏幕截图 adb exec-out screencap -p > sc.pn 截图保存到电脑执行该命令的目录下 如果指定文件名以 .png 结尾时可以省略 -p 参数 注意 如果 adb 版本较 ...
- [CVE-2020-1956] Apache Kylin远程命令执行漏洞复现
Apache Kylin是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区. ...
- 【C++基础教程】第一课
一,C++基础 1.1.什么是C++ C++是一种面向对象的编程语言,如今被广泛应用于各种行业. 1.2.C++的语法特点 一般C++的程序长成这个样子: #include<...> // ...
- Centos8.X 搭建Prometheus+node_exporter+Grafana实时监控平台
Prometheus Promtheus是一个时间序列数据库,其采集的数据会以文件的形式存储在本地中,因此项目目录下需要一个data目录,需要我们自己创建,下面会讲到 下载 下载好的.tar.gz包放 ...
- tomcat URI get 参数中文传到后台 乱码 URIEncoding
* 修改tomcat server.xml 找到这一行 <Connector connectionTimeout="20000" port="80" pr ...