1、重解释转换

虽然128位的XMM寄存器在硬件上只是256位YMM寄存器的下半部分,但在C++中它们是不同的类型。有一些intrinsic函数可以将它们重新解释为不同的类型,如下表所示,行代表源类型,列代表目标类型。

__m128 __m128d __m128i __m256 __m256d __m256d
__m128 = _mm_castps_pd _mm_castps_si128 _mm256_castps128_ps256
__m128d _mm_castpd_ps = _mm_castpd_si128 _mm256_castpd128_pd256
__m128i _mm_castsi128_ps _mm_castsi128_pd = _mm256_castsi128_si256
__m256 _mm256_castps256_ps128 = _mm256_castps_pd _mm256_castps_si256
__m256d _mm256_castpd256_pd128 _mm256_castpd_ps = _mm256_castpd_si256
__m256i _mm256_castsi256_si128 _mm256_castsi256_ps _mm256_castsi256_pd =

这些函数不会被编译成任何指令,所以性能上几乎没有损耗,因为它们不改变寄存器中的值,例如32位float浮点数1.0f转换成32位整数后会变为0x3f800000。将128位值转换成256位值时,上半部分是未定义的。

2、类型转换

类型转换只支持带符号的32位整数,例如:

函数示例 说明
_mm_cvtepi32_ps_mm256_cvtepi32_ps 将32位整数转换成对应的32位浮点数
_mm_cvtepi32_pd_mm256_cvtepi32_pd 将32位整数转换成对应的64位浮点数
_mm_cvtps_epi32_mm256_cvtps_epi32 将32位浮点数转换成对应的32位整数
_mm_cvtpd_epi32_mm256_cvtpd_epi32 将64位浮点数转换成对应的32位整数

当浮点数转换为整数时,函数使用MXCSR寄存器中指定的舍入模式,若要更改模式,可以使用宏_MM_SET_ROUNDING_MODE。此外,也有一些名称中带有额外t的函数会忽略MXCSR寄存器,并始终使用向零截断(_MM_ROUND_TOWARD_ZERO)的模式,例如_mm_cvttpd_epi32_mm_cvttps_epi32

此外还有一些函数可以在32位浮点数与64位浮点数之间进行转换,例如_mm256_cvtps_pd将32位浮点数转换成64位浮点数。

3、内存访问

3.1、加载

  • 对齐/非对齐加载:所有数据类型都支持对齐加载和非对齐加载。对齐加载例如_mm_load_si128_mm256_load_ps,它们要求源地址是16字节或者32字节对齐的,否则可能会导致崩溃;非对齐加载例如_mm_loadu_si128_mm256_loadu_ps,它们函数名中额外的u表示unaligned,它们的速度可能会慢于对齐加载的版本。

  • 单通道加载:__m128__m128d支持单通道加载,即只加载第一条通道并把其它通道设置成0.0,例如_mm_load_ss_mm_load_sd

  • 逆序加载:__m128__m128d支持逆序加载,即以逆序方式将数据加载到寄存器中,例如_mm_loadr_ps_mm_loadr_pd

  • 广播加载:在AVX指令集中, __m128__m256__m256d支持广播加载,也就是把单个值加载到多个寄存器通道中,例如_mm256_broadcast_ss等。

  • 掩码加载:AVX引入了掩码加载,即根据掩码的值选择性地加载数据,例如_mm_maskload_ps等。

  • 跨距加载:AVX2引入了跨距加载,它可以利用索引寄存器来加载非连续地址的数据元素,不过速度较慢,例如_mm_i32gather_ps等。

  • 流加载:这类指令绕过缓存,直接将内存数据加载到寄存器中,从而减少缓存污染和缓存替换的开销,适用于一次性读取大量数据并进行向量化计算的场景,例如_mm_stream_load_si128_mm256_stream_load_si256等。

3.2、存储

  • 对齐/非对齐存储:与对齐/非对齐加载同理,对应的存储指令也有_mm_store_ps_mm_storeu_ps等。

  • 单通道存储:与单通道加载类似,只把第一条通道的数据写入内存,例如_mm_store_ss等。

  • 逆序存储:与逆序加载类似,它以逆序方式将数据写入内存中,例如_mm_storer_ps等。

  • 掩码存储:与掩码加载类似,根据掩码的值选择性地存储数据,例如_mm_maskstore_ps等。

  • 流存储:与流加载指令类似,绕过缓存直接将数据写入内存,从而减少了缓存写回的开销,适用于大规模数据的存储操作,例如_mm_stream_ps_mm256_stream_si256等。

4、向量寄存器初始化

所有向量寄存器类型都有_mm_setzero_ps_mm256_setzero_si256这样的函数,用于将寄存器初始化为全零,它可能会被编译成xorps xmm0, xmm0, xmm0这样的指令,其执行效率很高。

虽然CPU无法使用0以外的常量来初始化寄存器,但编译器还是提供了一些函数来实现非0初始化,例如_mm_set_ps可以用不同的值初始化各个通道,_mm256_set1_epi用相同的值初始化所有通道。这些函数的实现依据具体情况而定:如果参数是编译时的常量,它们通常会被编译成二进制文件中的只读数据;如果编译时无法确定参数,编译器就会执行其它合理操作,例如寄存器大部分为0,而我们只设置了一条通道,那么编译器可能会执行插入指令,再比如参数来自变量,编译器就可能会先实行洗牌或标量存储、然后再进行向量加载。

5、向量寄存器与通用寄存器的转换

数据类型 数据复制方向 函数示例
整数 向量寄存器最低通道 ==> 通用寄存器 _mm_cvtsi128_si32_mm_cvtsi128_si64
整数 通用寄存器 ==> 向量寄存器最低通道 _mm_cvtsi32_si128_mm_cvtsi64x_si128
浮点数 向量寄存器最低通道 ==> 通用寄存器 _mm_cvtss_f32_mm_cvtsd_f64
浮点数 通用寄存器 ==> 向量寄存器最低通道 没有对应的转换函数,但可以使用_mm_set_ps_mm_set1_ps实现相同功能

上表中列举的转换函数只操作向量寄存器的最低通道,除此之外还有一类函数可以将整数向量寄存器任意通道的值复制到通用寄存器,它们是_mm_extract_epi8_mm_extract_epi16等。

当程序是32位时,所有通用寄存器也都是32位的,在向量寄存器和通用寄存器之间移动64位整数的指令不可用。

6、位运算

浮点数和整数有一套完整的位运算指令,它们包含AND、OR、XOR、ANDNOT指令,例如_mm_and_ps_mm256_xor_epi32等。如果需要位运算NOT,最快的方法可能是与所有1进行XOR,例如:

__m128i bitwiseNot(__m128i x)
{
const __m128i zero = _mm_setzero_si128();
const __m128i one = _mm_cmpeq_epi32(zero, zero);
return _mm_xor_si128(x, one);
}

test指令将计算结果直接保存到int型的通用寄存器中,部分test函数及其功能如下表所示:

函数示例 返回结果
_mm_testz_si128_mm256_testz_si256 return ((a & b) == 0) ? 1 : 0
_mm_testc_si128_mm256_testc_si256 return (((~a) & b) == 0) ? 1 : 0
_mm_testnzc_si128_mm256_testnzc_si256 testztestc结果都为0时返回1,否则返回0
_mm_test_all_ones 把输入向量取反后与全1向量按位与,如果等于0则返回1,否则返回0
_mm_test_all_zeros 把输入向量与掩码向量按位与,如果等于0则返回1,否则返回0

x86平台SIMD编程入门(2):通用指令的更多相关文章

  1. x86平台转x64平台关于内联汇编不再支持的解决

    x86平台转x64平台关于内联汇编不再支持的解决     2011/08/25   把自己碰到的问题以及解决方法给记录下来,留着备用!   工具:VS2005  编译器:cl.exe(X86 C/C+ ...

  2. X86平台乱序执行简要分析(翻译为主)

    多处理器使用松散的内存模型可能会非常混乱,写操作可能会无序,读操作可能会返回不是我们想要的值,为了解决这些问题,我们需要使用内存栅栏(memory fences),或者说内存屏障(memory bar ...

  3. 【浅墨著作】《OpenCV3编程入门》内容简单介绍&勘误&配套源码下载

    经过近一年的沉淀和总结,<OpenCV3编程入门>一书最终和大家见面了. 近期有为数不少的小伙伴们发邮件给浅墨建议最好在博客里面贴出这本书的文件夹,方便大家更好的了解这本书的内容.事实上近 ...

  4. VS2010MFC编程入门

    一.MFC编程入门教程之目录 第1部分:MFC编程入门教程之目录 1.MFC编程入门之前言  鸡啄米的C++编程入门系列给大家讲了C++的编程入门知识,大家对C++语言在语法和设计思想上应该有了一定的 ...

  5. Linux.中断处理.入口x86平台entry_32.S

    Linux.中断处理.入口x86平台entry_32.S Linux.中断处理.入口x86平台entry_32.S 在保护模式下处理器是通过中断号和IDTR找到中断处理程序的入口地址的.IDTR存的是 ...

  6. 编程入门选什么语言好?C 语言还是Python ?为你解析

    前面我分享过计算机行业已经成了学校选择排名第一,家长和学生都很看好计算机类专业.现在IT行业也越来越火爆,程序员越来越被人看好.面对相比同龄人高薪资的诱惑,人们很难不心动,即使秃头也值得! 那么问题来 ...

  7. WinPcap编程入门实践

    转自:http://www.cnblogs.com/blacksword/archive/2012/03/19/2406098.html WinPcap可能对大多数人都很陌生,我在这里就先简单介绍一下 ...

  8. PC游戏编程(入门篇)(前言写的很不错)

    PC游戏编程(入门篇) 第一章 基石 1. 1 BOSS登场--GAF简介 第二章 2D图形程式初体验 2.l 饮水思源--第一个"游戏"程式 2.2 知其所以然一一2D图形学基础 ...

  9. Matlab与.NET基于类型安全的接口混合编程入门

    原文:[原创]Matlab与.NET基于类型安全的接口混合编程入门 如果这些文章对你有用,有帮助,期待更多开源组件介绍,请不要吝啬手中的鼠标. [原创分享]Matlab.NET混编调用Figure窗体 ...

  10. Mysql C语言API编程入门讲解

    原文:Mysql C语言API编程入门讲解 软件开发中我们经常要访问数据库,存取数据,之前已经有网友提出让鸡啄米讲讲数据库编程的知识,本文就详细讲解如何使用Mysql的C语言API进行数据库编程.   ...

随机推荐

  1. C++ 加权随机抽样

    ​ 在做五子棋 AI 的时候,遇到要根据权重从一组数里边随机选出一个这个问题.这个问题恰好也是 leetcode 第 528 道题,使用 C++,标准库就有现成的: #include <rand ...

  2. python处理大量数据excel表格中间格式神器pickle.pkl文件操作说明

    读取写入千万级别的excel文件费时费力,调试起来比较慢,面对这个问题,第一步可以先无脑全部转换成pkl文件,这样几乎和内存操作一样的速度. 例如: t=pd.read_excel("12月 ...

  3. spring boot shardingsphere 使用hikari连接池配置

    shardingsphere 使用hikari连接池配置: shardingsphere: datasource: names: ds ds: type: com.zaxxer.hikari.Hika ...

  4. 无套路领取《AI应用开发专栏》

    最近有些时间没有更新技术文章了,都在忙着写<AI应用开发入门>专栏,专栏已整理放到了github上,有兴趣的小伙伴可以移步github阅读,地址见文末. 1.为什么写这个文档 之前陆续写了 ...

  5. 基于pikachu靶场的水平越权详解

    1. pikachu靶场搭建 如果你在之前已经使用过phpstudy了,参考pikachu 靶场环境搭建 如果在靶场搭建中遇到一些问题,参考皮卡丘靶场搭建遇到的问题大全 2. 水平越权简介 水平越权是 ...

  6. 10-3 定制操作lambda

    目录 10.3.1 向算法传递函数 谓词 排序算法 10.3.2 lambda表达式 引入 介绍lambda 向lambda传递参数 使用捕获列表 调用find_if 使用for_each 完整的bi ...

  7. K8s之运行时containerd安装和使用

    一.containerd 1. 前生今世 很久以前,Docker 强势崛起,以"镜像"这个大招席卷全球,对其他容器技术进行致命的降维打击,使其毫无招架之力,就连 Google 也不 ...

  8. TAMAYA

    TAMAYA 挺有意思的维护题. 题面 n个小夫坐成一排,每个小夫有一个真实值vi.小夫们有m场聚会,第i次聚会会在编号为 [li, ri] 的小夫中举办. 聚会之后,这些小夫的真实值会变为他们之中的 ...

  9. 用 300 行代码手写提炼 Spring 核心原理 [3]

    系列文章 用 300 行代码手写提炼 Spring 核心原理 [1] 用 300 行代码手写提炼 Spring 核心原理 [2] 用 300 行代码手写提炼 Spring 核心原理 [3] 上文 中我 ...

  10. CodeForces - 1353D Constructing the Array

    CodeForces - 1353D 这道题也可能比较简单,主要是要想到优先队列要怎么使用,这一点如果用递归会写不了 但是因为对优先队列不太熟悉,只有被提示可以用优先队列才想到要怎么用, 还是很重要的 ...