SIMD---AVX系列

AVX全称Advanced Vcetor Extension，是对SSE的后续扩展，主要分为AVX、AVX2、AVX512三种。在目前常见的机器上，大多只支持到AVX系列，因此其他SIMD扩展指令我们就先不学习了。

1. AVX系列

1.1 AVX

AVX使用了16个YMM寄存器，主要针对的是浮点数计算优化，支持32位单精度和64位双精度。AVX将打包长度由SSE的128位扩展为256位。

AVX主要有两个改进：

256位浮点打包数据长度。
三位操作数：计算形式可以由先前的A = A + B改为A = B + C。

AVX使用了SSE的128的寄存器，YMM寄存器的低位部分是XMM寄存器：

1.2 AVX2

AVX2是AVX指令的扩展，主要在整形数据方面做了完善：

256位整形打包数据。
算数运算支持完善。

1.3 AVX-512

AVX-512指令扩展主要把256位数据扩展到512位，在数据级并行又迈进了一步。AVX-512扩展包含好几个部分：

AVX-512 Foundation
AVX-512 Conflict Detection Instructions (CD)
AVX-512 Exponential and Reciprocal Instructions (ER)
AVX-512 Prefetch Instructions (PF)
AVX-512 Vector Length Extensions (VL)
AVX-512 Byte and Word Instructions (BW)
AVX-512 Doubleword and Quadword Instructions (DQ)
AVX-512 Integer Fused Multiply Add (IFMA)
AVX-512 Vector Byte Manipulation Instructions (VBMI)
AVX-512 Vector Neural Network Instructions Word variable precision (4VNNIW)
AVX-512 Fused Multiply Accumulation Packed Single precision (4FMAPS)
AVX-512 Vector Neural Network Instructions (VNNI)
AVX-512 Galois Field New Instructions(GFNI)
AVX-512 Vector AES instructions (VAES)
AVX-512 Vector Byte Manipulation Instructions 2 (VBMI2)
AVX-512 Bit Algorithms (BITALG)

但是只有Foundation部分是各实现保证支持的。

2. AVX功能支持检测

不是所有机型都通用的指令集需要调用cpuid指令来检测：

    push ecx

    mov eax, 0

    cpuid

    cmp ecx, 1

    jb notSupported	//	check if supports EAX=1 when using CPUID

    mov eax, 1

    cpuid

    and ecx, 0x18000000	//	clear non-related bits

    cmp ecx, 0x18000000	//	check OSXSAVE and avx

    jne notSupported

    mov ecx, 0

    XGETBV				//	get XCR0 register value

    and eax, 0x6

    cmp eax, 0x6		//	check XMM and YMM state

    jne notSupported

    mov eax, 1

    jmp done

notSupported:

    mov eax, 0

done:

    pop ecx

根据Intel开发者指南，我们需要检测OSXSAVE、AVX、XMM state、YMM state这四个功能。cpuid隐式使用eax寄存器作为指令参数执行：当eax位0时，cpuid返回eax可传入最大值；传入1时，返回功能标记为，这时候我们通过检查ecx寄存器的第28、29位就可以判断是否分别支持OSXSAVE和AVX功能；之后我们要给ecx赋值0来作为参数调用XGETBV指令，这个指令返回结果的第2、3位表明XMM、YMM状态是否开启。

3. AVX优化使用

与之前的随笔一样，我们对10000000个单精度浮点数进行加操作，但是我电脑机型不支持AVX2，因此无法演示AVX系列的整数优化操作：

__m256 step = _mm256_set_ps(10.0, 10.0, 10.0, 10.0,

							10.0, 10.0, 10.0, 10.0);

__m256* dst = reinterpret_cast<__m256*>(data);

for (unsigned i = 0; i < count; i += 8)

{

	__m256 sum = _mm256_add_ps(*dst, step);

	*dst++ = sum;

}

4. 运行结果

这个运行时间表明，有时候简单的使用AVX来进行计算优化并不一定会提升程序的运行效率，得深入分析，完整代码见链接。

SIMD---AVX系列的更多相关文章

【转帖】超能课堂(186) CPU中的那些指令集都有什么用？
超能课堂(186)CPU中的那些指令集都有什么用? https://www.expreview.com/68615.html 不明觉厉开始的地方第一大类:基础运算类x86.x86-64及EM64T ...
深入理解 OpenFOAM 环境变量与编译
操作系统选择由于 OpenFOAM 在 Linux 平台开发和测试,在非 Linux 平台无法直接对软件进行编译和安装,所以在非 Linux 平台上最简便方法是使用 docker 容器运行 Open ...
AVX图像算法优化系列一: 初步接触AVX。
弄了SSE指令集,必然会在不同的场合不同的人群中了解到还有更为高级的AVX指令集的存在,早些年也确实有偶尔写点AVX的函数,但是一直没有深入的去了解,今年十一期间也没到那里去玩,一个人在家里抽空就折腾 ...
AVX图像算法优化系列二: 使用AVX2指令集加速查表算法。
查表算法,无疑也是一种非常常用.有效而且快捷的算法,我们在很多算法的加速过程中都能看到他的影子,在图像处理中,尤其常用,比如我们常见的各种基于直方图的增强,可以说,在photoshop中的调整菜单里8 ...
SSE图像算法优化系列九：灵活运用SIMD指令16倍提升Sobel边缘检测的速度（4000*3000的24位图像时间由480ms降低到30ms）。
这半年多时间,基本都在折腾一些基本的优化,有很多都是十几年前的技术了,从随大流的角度来考虑,研究这些东西在很多人看来是浪费时间了,即不能赚钱,也对工作能力提升无啥帮助.可我觉得人类所谓的幸福,可以分为 ...
SSE图像算法优化系列一：一段BGR2Y的SIMD代码解析。
一个同事在github上淘到一个基于SIMD的RGB转Y(彩色转灰度或者转明度)的代码,我抽了点时间看了下,顺便学习了一些SIMD指令,这里把学习过程中的一些理解和认识共享给大家. github上相关 ...
SIMD指令集——一条指令操作多个数，SSE，AVX都是，例如：乘累加，Shuffle等
SIMD指令集 from:https://zhuanlan.zhihu.com/p/31271788 SIMD,即Single Instruction, Multiple Data,一条指令操作多个数 ...
[转]SIMD、MMX、SSE、AVX、3D Now!、NEON
转载来源<[整理]SIMD.MMX.SSE.AVX.3D Now!.neon> 本文摘取部分内容,详细请看原文. SIMD NEON是通用的SIMD(单指令多数据)引擎. 对于SISD,每 ...
SSE图像算法优化系列三十二：Zhang\Guo图像细化算法的C语言以及SIMD指令优化
二值图像的细化算法也有很多种,比较有名的比如Hilditch细化.Rosenfeld细化.基于索引表的细化.还有Opencv自带的THINNING_ZHANGSUEN.THINNING_GUOHALL ...

随机推荐

C# 枚举使用和对应说明获取实例
1.定义枚举 /// <summary> /// 订单状态 /// </summary> public enum OrderState { 待支付 = 1, 待处理 = 2, ...
R语言-动画
使用动画可以使得图形更形象,更能反映数据的变化 1.安装环境gganimate if(!require(devtools)) install.packages("devtools" ...
【原】Java学习笔记031 - 常用类
package cn.temptation; public class Sample01 { public static void main(String[] args) { /* * 类 Math: ...
JAVA容器的那些事—集合
1.首先我们先讲下Collection接口 Collection接口:Collection是最基本的集合接口,它是由一个独立元素所组成的序列,这些元素服务一条或多条规则.一个Collection代表一 ...
【BZOJ1087】【SCOI2005】互不侵犯（状态压缩，动态规划）
题面这种傻逼题懒得粘贴了... 题解傻逼题 \(f[i][j][k]\)表示当前第\(i\)列,当前放置状态为\(j\),已经放了\(k\)个暴力判断状态合法性,暴力判断转移合法性,然后统计答案 ...
POJ1741
树分治,每次把每个点的deep取出,排序...尺取法... # include <stdio.h> # include <stdlib.h> # include <ios ...
JS 装饰器解析
随着 ES6 和 TypeScript 中类的引入,在某些场景需要在不改变原有类和类属性的基础上扩展些功能,这也是装饰器出现的原因. 装饰器简介作为一种可以动态增删功能模块的模式(比如 redux ...
python格式化输出基础知识（2）
---恢复内容开始--- 一:请输入名片 (姓名,年龄,职业,爱好)设计名片 name=input('你的名字')age=input('你的年龄')job=input('你的工作')hobbie=i ...
JavaScript编码规范（1）
参考的是百度公司的JS规范,分为两部分.这是第一部分 [建议] JavaScript 文件使用无 BOM 的 UTF-8 编码. 空格 [强制] 二元运算符两侧必须有一个空格,一元运算符与操作对象之间 ...
关于JDK和eclipse的安装和汉化
参考网址:http://jingyan.baidu.com/article/f96699bb8b38e0894e3c1bef.html http://titanseason.iteye.com/blo ...