[转]SIMD、MMX、SSE、AVX、3D Now!、NEON

本文摘取部分内容，详细请看原文。

SIMD

NEON是通用的SIMD（单指令多数据）引擎。

对于SISD，每个指令只能处理一个数据，而SIMD一个指令可以处理多个数据，因为多个数据的处理是平行的，因此从时间来说，一个指令执行的时间，SISD和SIMD是差不多的。由于SIMD一次可以处理N个数据，所以它的处理的时间也就缩短到SISD的1/N。需要指出一点，NEON是需要硬件支持的，需要有一块寄存器放到硬件上来处理这个的。SIMD、MMX、SSE、AVX、3D Now!、NEON

SIMD单指令流多数据流(SingleInstruction Multiple Data,SIMD)是一种采用一个控制器来控制多个处理器，同时对一组数据（又称“数据向量”）中的每一个分别执行相同的操作从而实现空间上的并行性的技术。在微处理器中，单指令流多数据流技术则是一个控制器控制多个平行的处理微元，例如Intel的MMX或SSE以及AMD的3D Now!技术。

MMX

由英特尔开发的一种SIMD多媒体指令集，共57条指令。于1996年集成在英特尔奔腾 (Pentium) MMX处理器上，以提高其多媒体数据的处理能力。

优点：

增加了处理器关于多媒体方面的处理能力。

缺点：64位MMX寄存器实际上就是浮点数寄存器的别名，因此MMX指令占用浮点数寄存器进行计算，与浮点数操作互斥。MMX和浮点数模式切换需要时间，通过减少模式切换来节约时间。

后来英特尔在此基础上发展出SSE指令集；AMD在此基础上发展出3DNow!指令集。现在新开发的程序不再仅使用MMX来优化软件执行效能，而是改使用如SSE、3DNOW!等更容易优化效能的新一代多媒体指令集，不过目前的处理器仍可以执行针对MMX优化的较早期软件。

SSE

继 MMX技术之后，Intel又于1999年在Pentium-III处理器上推出SSE技术，引入了新的128比特宽的寄存器集 (register file)，称作XMM0到XMM7。这些XMM寄存器用于4个单精度浮点数运算的SIMD执行，并可以与MMX整数运算或x87浮点运算混合执行。 2001年在Pentium 4上引入了SSE2技术，进一步扩展了指令集，使得XMM寄存器上可以执行8/16/32位宽的整数SIMD运算或双精度浮点数的SIMD运算。这使得 SIMD技术基本完善。

SSE(Streaming SIMD Extensions)是英特尔在AMD的3DNow!发布一年之后，在其计算机芯片Pentium III中引入的指令集，是继MMX的扩充指令集。SSE 指令集提供了 70 条新指令。AMD后来在Athlon XP中加入了对这个新指令集的支持。

SSE 加入新的 8 个 128 位缓存器（XMM0～XMM7）。而 AMD 发表的x86-64延伸架构《又称 AMD64》再加入额外 8 个缓存器。除此之外还有一个新的 32 位的控制／状态缓存器（MXCSR）。不过只能在 64 位的模式下才能使用额外 8 个缓存器。

每个缓存器可以容纳 4 个 32 位单精度浮点数，或是2 个 64 位双精度浮点数，或是 4 个 32 位整数，或是 8 个 16 位短整数，或是 16 个字符。整数运算能够使用正负号运算。而整数 SIMD 运算可能仍然要与 8 个 64 位 MMX 缓存器一起执行。

SSE2

SSE2是 Intel在Pentium 4处理器的最初版本中引入的，但是AMD后来在Opteron 和Athlon64处理器中也加入了SSE2的支持。SSE2指令集添加了对64位双精度浮点数的支持，以及对整型数据的支持，也就是说这个指令集中所有的MMX指令都是多余的了，同时也避免了占用浮点数寄存器。这个指令集还增加了对CPU快取的控制指令。AMD对它的扩展增加了8个XMM寄存器，但是需要切换到64位模式（x86-64/AMD64）才可以使用这些寄存器。Intel后来在其Intel 64架构中也增加了对x86-64的支持。

AVX(Advanced Vector Extensions)

Intel的SSE延伸架构，如IA16至IA32般的把缓存器XMM 128bit提升至YMM 256bit，以增加一倍的运算效率。此架构支持了三运算指令（3-Operand Instructions），减少在编码上需要先复制才能运算的动作。在微码部分使用了LES LDS这两少用的指令作为延伸指令Prefix。

FMA

FMA是Intel的AVX扩充指令集，如名称上熔合乘法累积（Fused Multiply Accumulate）的意思一样。

3DNow!

3DNow!（据称是“3D No Waiting!”的缩写）是由AMD开发的一套SIMD多媒体指令集，支持单精度浮点数的矢量运算，用于增强x86架构的计算机在三维图像处理上的性能。