1、算术指令

算术类型 函数示例 备注
_mm_add_sd_mm256_add_ps
_mm_sub_sd_mm256_sub_ps
_mm_mul_sd_mm256_mul_ps
_mm_div_sd_mm256_div_ps
平方根 _mm_sqrt_sd_mm256_sqrt_ps
倒数 _mm_rcp_ss_mm_rcp_ps_mm256_rcp_ps 快速计算32位浮点数的近似倒数(1/x),最大相对误差小于\(1.5\times 2^{-12}\)。
倒数平方根 _mm_rsqrt_ss_mm_rsqrt_ps_mm256_rsqrt_ps 快速计算32位浮点数的近似倒数平方根(1/sqrt(x)),最大相对误差小于\(1.5\times 2^{-12}\)。
水平加 _mm_hadd_ps_mm256_hadd_pd 输入两个寄存器[a, b, c, d]和[e, f, g, h],返回[a+b, c+d, e+f, g+h]。
水平减 _mm_hsub_ps_mm256_hsub_pd 输入两个寄存器[a, b, c, d]和[e, f, g, h],返回[a-b, c-d, e-f, g-h]。
交替加减 _mm_addsub_ps_mm256_addsub_pd 输入两个寄存器[a, b, c, d]和[e, f, g, h],返回[a-e, b+f, c-g, d+h]。对于复数乘法比较有用。
点乘 _mm_dp_ps_mm_dp_pd_mm256_dp_ps 输入两个寄存器和一个8位常量,常量高4位表示需要点乘的通道,低4位表示需要广播结果的通道。
四舍五入 _mm_round_ps_mm_floor_ss_mm256_ceil_pd
最大/最小值 _mm_min_ss_mm256_max_pd

x86 SIMD指令中没有一元减号或绝对值指令,但可以通过位操作技巧来实现对应的功能,例如_mm_xor_ps(x, _mm_set1_ps(-0.0f))可实现一元减号运算,_mm_andnot_ps(_mm_set1_ps(-0.0f), x)可实现取绝对值。(因为-0.0f浮点数值只把符号位设置为1,其余位均为0,所以_mm_xor_ps会翻转符号,_mm_andnot_ps会清除符号位。)

2、比较指令

SSE实现了各种浮点数比较运算,如下表所示:

运算符 函数示例
等于 _mm_cmpeq_ss_mm_cmpeq_ps_mm_cmpeq_sd_mm_cmpeq_pd
小于 _mm_cmplt_ss_mm_cmplt_ps_mm_cmplt_sd_mm_cmplt_pd
小于等于 _mm_cmple_ss_mm_cmple_ps_mm_cmple_sd_mm_cmple_pd
大于 _mm_cmpgt_ss_mm_cmpgt_ps_mm_cmpgt_sd_mm_cmpgt_pd
大于等于 _mm_cmpge_ss_mm_cmpge_ps_mm_cmpge_sd_mm_cmpge_pd
不等于 _mm_cmpneq_ss_mm_cmpneq_ps_mm_cmpneq_sd_mm_cmpneq_pd
不小于 _mm_cmpnlt_ss_mm_cmpnlt_ps_mm_cmpnlt_sd_mm_cmpnlt_pd
不小于等于 _mm_cmpnle_ss_mm_cmpnle_ps_mm_cmpnle_sd_mm_cmpnle_pd
不大于 _mm_cmpngt_ss_mm_cmpngt_ps_mm_cmpngt_sd_mm_cmpngt_pd
不大于等于 _mm_cmpnge_ss_mm_cmpnge_ps_mm_cmpnge_sd_mm_cmpnge_pd

AVX将浮点数比较指令统一成了_mm_cmp_xx_mm256_cmp_xx这样的形式,然后通过一个常量来表示比较谓语。比较谓语如下表所示,两个数比较时若其中一个数为NaN,则ordered模式将返回false,unordered模式将返回true,另外signalling只影响MXCSR的值。

比较运算 ordered (non-signalling) unordered (non-signalling) ordered (signalling) unordered (signalling)
a < b _CMP_LT_OQ _CMP_NGE_UQ _CMP_LT_OS _CMP_NGE_US
a <= b _CMP_LE_OQ _CMP_NGT_UQ _CMP_LE_OS _CMP_NGT_US
a == b _CMP_EQ_OQ _CMP_EQ_UQ _CMP_EQ_OS _CMP_EQ_US
a != b _CMP_NEQ_OQ _CMP_NEQ_UQ _CMP_NEQ_OS _CMP_NEQ_US
a >= b _CMP_GE_OQ _CMP_NLT_UQ _CMP_GE_OS _CMP_NLT_US
a > b _CMP_GT_OQ _CMP_NLE_UQ _CMP_GT_OS _CMP_NLE_US
true _CMP_ORD_Q _CMP_TRUE_UQ _CMP_ORD_S _CMP_TRUE_US
false _CMP_FALSE_OQ _CMP_UNORD_Q _CMP_FALSE_OS _CMP_UNORD_S

浮点数比较指令返回另一个寄存器来保存结果,其中比较条件成立的值赋为全1(NaN),其它赋为全0(0.0f)。可以使用_mm_movemask_ps_mm_movemask_pd或AVX中的等效指令来将结果发送到CPU通用寄存器,这些指令收集每个浮点数通道的最高有效位(恰好也是符号位)并打包成标量,然后复制到通用寄存器中。

const __m128 zero = _mm_setzero_ps();
const __m128 eq = _mm_cmpeq_ps(zero, zero);
const int mask = _mm_movemask_ps(eq);
printf("%i\n", mask);

在上面这段代码中,对于__m128的所有4个通道,0 == 0的比较结果都是正确的,eq变量的所有128位都设置为1,然后_mm_movemask_ps收集并返回所有4个浮点数通道的符号位,最终打印出的mask值是15,即二进制的0b1111。比较结果的另外一些用途,就是可以将它们作为其它指令的参数(例如blendv指令)。

除了全通道比较函数外,也有一些函数可以只比较两个寄存器的最低通道,如下表所示:

运算符 函数示例
等于 _mm_comieq_ss_mm_comieq_sd
不等于 _mm_comineq_ss_mm_comineq_sd
小于 _mm_comilt_ss_mm_comilt_sd
小于等于 _mm_comile_ss_mm_comile_sd
大于 _mm_comigt_ss_mm_comigt_sd
大于等于 _mm_comige_ss_mm_comige_sd

3、洗牌指令

3.1、固定顺序洗牌

函数示例 说明 示意图
_mm_movehl_ps 将向量a中的高2个元素复制到dst的高2个元素中,将向量b中的高2个元素复制到dst的低2个元素中。
_mm_movelh_ps 将向量a中的低2个元素复制到dst的低2个元素中,将向量b中的低2个元素复制到dst的高2个元素中。
_mm_unpacklo_ps 取向量a和向量b的低半部分元素并交错存储到dst中。
_mm_unpackhi_ps 取向量a和向量b的高半部分元素并交错存储到dst中。
_mm_movehdup_ps 复制输入向量中的奇数索引元素,并存储到dst中。
_mm_moveldup_ps 复制输入向量中的偶数索引元素,并存储到dst中。
_mm_broadcastss_ps 将输入向量的最低通道元素广播到dst的所有元素中。

3.2、编译时洗牌

这类函数都接收一个编译期确定的常量来控制洗牌顺序,如果传入的控制系数无法在编译期确定,那么将导致编译错误,例如:

const __m128 zero = _mm_setzero_ps();
_mm_shuffle_ps(zero, zero, rand()); //error C2057: expected constant expression

下表仅列举了一些参数是__m128类型的洗牌函数,__m128d__m256__m256d也都有对应的函数,可以类推。示意图中蓝色箭头表示使用控制系数选择的内容,灰色箭头表示不同控制系数可能选择的内容。

函数示例 说明 示意图
_mm_shuffle_ps 右图中,控制常数是0x98(二进制 10 01 10 00)。输出向量的前2个通道来自第一个输入向量的0b00和0b10号通道,后2个通道来自第二个输入向量的0b01和0b10号通道。如果要对单个向量进行置换,可将两个输入向量都设为同一个向量。可以使用宏_MM_SHUFFLE来生成控制常数。
_mm_blend_ps 右图中,控制常数为1(二进制 0 0 0 1),所以只从第二个输入向量中提取了对应的0号通道,其余通道都取自第一个输入向量的对应通道。
_mm_insert_ps 插入单个通道,并可选择将某些通道清零。右图中,控制常数为0x61(二进制 01 10 0001):源索引为0b01,目标索引为0b10,所以第二个输入向量中0b01号通道的F被插入了输出的0b10号通道;最低4位为0b0001,因此0号输出通道被清零。此外,我们也可以选择性地将某些通道清零而无需插入,例如控制常数0b00001001将0号和3号通道清零。(也可以使用_mm_blend_ps_mm_setzero_ps实现等价功能,但这就是两条指令,而不是一条。)
_mm_permute_ps _mm_shuffle_ps类似,区别在于仅对一个输入向量进行洗牌。右图中,控制常数是0x63(二进制 01 10 00 11)。

3.3、运行时洗牌

_mm_blendv_ps_mm_blendv_pd_mm256_blendv_ps_mm256_blendv_pd接收3个参数,通过掩码的符号位从向量a或向量b中选择通道。

_mm_permutevar_ps_mm256_permutevar8x32_ps都接收一个包含源数据的浮点数寄存器和一个包含源索引的整数寄存器,根据整数寄存器中的索引值从浮点数寄存器中选择通道。

4、乘加融合指令

乘加运算 函数示例
(a · b) + c _mm_fmadd_ps_mm256_fmadd_pd
(a · b) - c _mm_fmsub_ps_mm256_fmsub_pd
-(a · b) + c _mm_fnmadd_ps_mm256_fnmadd_pd
-(a · b) - c _mm_fnmsub_ps_mm256_fnmsub_pd

相较于分别使用乘法和加法指令,乘加融合(fused multiply-add, FMA)指令除了性能较高外,还更加精确,因为这些指令只在计算完乘法与加法后进行一次舍入。

x86平台SIMD编程入门(3):浮点指令的更多相关文章

  1. x86平台转x64平台关于内联汇编不再支持的解决

    x86平台转x64平台关于内联汇编不再支持的解决     2011/08/25   把自己碰到的问题以及解决方法给记录下来,留着备用!   工具:VS2005  编译器:cl.exe(X86 C/C+ ...

  2. X86平台乱序执行简要分析(翻译为主)

    多处理器使用松散的内存模型可能会非常混乱,写操作可能会无序,读操作可能会返回不是我们想要的值,为了解决这些问题,我们需要使用内存栅栏(memory fences),或者说内存屏障(memory bar ...

  3. WinPcap编程入门实践

    转自:http://www.cnblogs.com/blacksword/archive/2012/03/19/2406098.html WinPcap可能对大多数人都很陌生,我在这里就先简单介绍一下 ...

  4. PC游戏编程(入门篇)(前言写的很不错)

    PC游戏编程(入门篇) 第一章 基石 1. 1 BOSS登场--GAF简介 第二章 2D图形程式初体验 2.l 饮水思源--第一个"游戏"程式 2.2 知其所以然一一2D图形学基础 ...

  5. 【浅墨著作】《OpenCV3编程入门》内容简单介绍&amp;勘误&amp;配套源码下载

    经过近一年的沉淀和总结,<OpenCV3编程入门>一书最终和大家见面了. 近期有为数不少的小伙伴们发邮件给浅墨建议最好在博客里面贴出这本书的文件夹,方便大家更好的了解这本书的内容.事实上近 ...

  6. Matlab与.NET基于类型安全的接口混合编程入门

    原文:[原创]Matlab与.NET基于类型安全的接口混合编程入门 如果这些文章对你有用,有帮助,期待更多开源组件介绍,请不要吝啬手中的鼠标. [原创分享]Matlab.NET混编调用Figure窗体 ...

  7. Mysql C语言API编程入门讲解

    原文:Mysql C语言API编程入门讲解 软件开发中我们经常要访问数据库,存取数据,之前已经有网友提出让鸡啄米讲讲数据库编程的知识,本文就详细讲解如何使用Mysql的C语言API进行数据库编程.   ...

  8. opencv编程入门技巧

    opencv编程入门技巧 最近在项目中负责图像处理模块的编程工作,主要分为两个板块,一是视频图像去雾,二是可视.红外图像融合.为了提升开发效率,遂开始学习并使用opencv图像类库,效果很好的说~因为 ...

  9. 脑残式网络编程入门(五):每天都在用的Ping命令,它到底是什么?

    本文引用了公众号纯洁的微笑作者奎哥的技术文章,感谢原作者的分享. 1.前言   老于网络编程熟手来说,在测试和部署网络通信应用(比如IM聊天.实时音视频等)时,如果发现网络连接超时,第一时间想到的就是 ...

  10. 脑残式网络编程入门(三):HTTP协议必知必会的一些知识

    本文原作者:“竹千代”,原文由“玉刚说”写作平台提供写作赞助,原文版权归“玉刚说”微信公众号所有,即时通讯网收录时有改动. 1.前言 无论是即时通讯应用还是传统的信息系统,Http协议都是我们最常打交 ...

随机推荐

  1. 一些常用的jQuery方法1_20220128

    1.jQuery.merge()方法 $.merge() 函数用于合并两个数组内容到第一个数组.*$*.merge( first, second ) $(function () { var arr = ...

  2. 常见return错误

    常见return错误 3221225477 (0xC0000005): 访问越界,一般是读或写了野指针指向的内存. 3221225725 (0xC00000FD): 堆栈溢出,一般是无穷递归造成的. ...

  3. switch、case语句的问题

    switch.case语句: 点击查看代码 int state = 1; switch(state) { case 1: { //状态1执行的程序 } case 2: { //状态2执行的程序 } d ...

  4. 基于Java+SpringBoot+Mysql实现的古诗词平台功能设计与实现二

    一.前言介绍: 1.1 项目摘要 随着信息技术的迅猛发展和数字化时代的到来,传统文化与现代科技的融合已成为一种趋势.古诗词作为中华民族的文化瑰宝,具有深厚的历史底蕴和独特的艺术魅力.然而,在现代社会中 ...

  5. Selenium IDE使用指南一(爬虫脚本录制器)

    安装 从Chrome或Firefox网络商店安装Selenium IDE . 启动IDE 安装后,通过从浏览器菜单栏中单击其图标来启动它. 故障排除 在菜单栏中没有看到Selenium IDE的图标? ...

  6. 聊一下怎么10分钟速水中危CVE

    题目是真的.今天晚上刚接触关于CVE的审计和提交.只能说:牛逼的是真牛逼,水的是真水. 我接下来教你,怎么在10分钟里找到一个CVE的中危漏洞并且提交.然后你就可以去咸鱼接单了,一个一铂快 打开htt ...

  7. 数据库开发规范v1.0

    一.建表规约 [强制]表达是与否概念的字段,必须使用 is_xxx 的方式命名,数据类型是 unsigned tinyint( 1 表示是,0 表示否). 说明:任何字段如果为非负数,必须是 unsi ...

  8. 【Amadeus原创】更改docker run启动参数

    经过一整天的摸索,答案: 没法直接修改.只能另外创建. 但是还好不用完全重头来,用docker commit命令可以基于当前修改的内容创建一个新的image. 执行docker 看看帮助先: Comm ...

  9. Flutter 收起键盘

    Flutter收起键盘 在根Widget中嵌套GestureDetector return GestureDetector( // 触摸收起键盘 behavior: HitTestBehavior.t ...

  10. JDK 18 最新动态和 JDK 19 新特性预测

    JDK 18 最新动态和 JDK 19 新特性预测_语言 & 开发_Michael Redlich_InfoQ精选文章 里面提到文章 定界延续(delimited continuations) ...