SIMD---MMX代码优化
单指令多数据流,即SIMD(Single Instruction, Multiple Data)指一类能够在单个指令周期内同时处理多个数据元素的指令集,利用的是数据级并行来提高运行效率,典型的代表由Intel的MMX和SSE指令系列。这类指令的使用环境是对多个数据进行同一种处理,因此典型的应用场景就是多媒体领域,特别是在其中的编解码流程中。
1. SIMD优缺点
1.1 优点
- 效率高:单指令多数据流意味着只需要一个指令周期就能同时对多个数据进行批处理,虽然该类指令本身的指令周期可能会较一般的指令长,但是整体考虑肯定是提高了处理效率。
1.2 缺点
- 适用场景有限:并不是所有的情况都能使用SIMD,有些情况下就算能使用,也需要对原有算法进行不小的改动。
- 增大功耗和芯片面积:因为多数据流,cpu需要更大的寄存器来存储这些数据。
- 人为编写:目前编译器对SIMD的翻译有限,使用时需要开发者人为编写。
- 固定的数据元素个数:例如MMX指令,只能对1个64位、2个32位、4个16位、8个8位数据进行批量处理,其他位长的数据元素需要特殊处理。比如对6个8位元素进行处理,需要额外填充剩余的2个字节。
2. MMX指令简介
MMX指令有8个64位寄存器(MM0~MM7),但MMX实际上并没有硬件支持的新寄存器,它使用浮点寄存器来模拟MMX指令寄存器。

当使用MMX指令的时候,一个叫做FP(Floating Point) Tag 的Word(2字节)被用来映射浮点寄存器到MMX寄存器。这样浮点寄存器就成了MMX寄存器的容器,用来执行计算。从浮点指令切换到MMX指令实在处理器内部完成的,不需要人为的操作;相反,从MMX切换到浮点指令时,需要手动调用emms或者__mm_empty()Intrinsics。
MMX指令与x86指令类似可以分为几类,具体使用及介绍可以参考Oracle的手册,这里不再重复介绍:
- 数据传输指令
- 转换指令
- 算数指令
- 比较指令
- 逻辑运算指令
- 位移指令
- 状态管理指令
3. Intrinsics or Asm
我们可以用通常的汇编嵌入方式在C/C++代码中调用mmx指令,但是这样一来C/C++开发者可能不是很习惯,尤其是它们没有接触过汇编语言的情况下;Intel提供了另一种方式来供开发者选择----Compiler Intrinsics。
Compiler Intrinsics是内建在编译器里的函数,Intrinsics通常会以汇编代码的形式被内联到代码中且具有较高的执行效率,因为编译器知道intrinsics的表现,相比内嵌汇编代码编译器能做更多的优化。
同时,Intrinsics的使用方式是停留在宿主语言层的,所以C语言(通常情况下)相比汇编语言拥有的所有优点,Intrinsics都有(比如我可以对Intrinsics数据类型做类型单位的递增递减)。
4. 效率比较
我们这里分别简单测试C++、Intrinsics(使用MMX)、Asm(使用MMX)三种形式代码的执行效率,示例中我们分别对内存中的100 000 000个字节进行加算数运算:
4.1 C++代码
void calculateUsingCpp(char* data, unsigned size)
{
assert(size % 8 == 0);
unsigned step = 10;
for (unsigned i = 0; i < size; ++i)
{
*data++ += step;
}
}
4.2 Intrinsics代码
Intrinsics代码中,我们每次执行mmx Intrinsics时都打包8个字节的数据并执行加操作,执行完mmx指令后我们需要调用_mm_empty() Intrinsics来取消mmx指令对浮点寄存器的别名映射:
void calculateUsingIntrinsics(char* data, unsigned size)
{
assert(size % 8 == 0);
__m64 step = _mm_set_pi8(10, 10, 10, 10, 10, 10, 10, 10);
__m64* dst = reinterpret_cast<__m64*>(data);
for (unsigned i = 0; i < size; i += 8)
{
auto sum = _mm_adds_pi8(step, *dst);
*dst++ = sum;
}
_mm_empty();
}
4.3 Asm代码
Intel汇编语法在嵌入到高级语言代码中时可以直接使用上下文中的变量,这一点非常方便:
void calculateUsingAsm(char* data, unsigned size)
{
assert(size % 8 == 0);
unsigned loopCount = size / 8;
__int64 value = 0x0a0a0a0a0a0a0a0a;
__asm
{
push eax
push ecx
mov eax, data
mov ecx, loopCount
movq mm1, value
startLoop:
movq mm0, [eax]
paddb mm0, mm1
movq [eax], mm0
add eax, 8
dec ecx
jnz startLoop
emms
pop ecx
pop eax
}
}
5. 运行结果对比

可以看出运行时间比是 8 : 1.5 : 1左右,完整代码见链接。
SIMD---MMX代码优化的更多相关文章
- Pascal编译器大全(非常难得)
http://www.pascaland.org/pascall.htm Some titles (french) : Compilateurs Pascal avec sources = compi ...
- [转]SIMD、MMX、SSE、AVX、3D Now!、NEON
转载来源<[整理]SIMD.MMX.SSE.AVX.3D Now!.neon> 本文摘取部分内容,详细请看原文. SIMD NEON是通用的SIMD(单指令多数据)引擎. 对于SISD,每 ...
- 【转】【MMX】 基于MMX指令集的程序设计简介
(一) MMX技术简介 Intel 公司的MMX™(多媒体增强指令集)技术可以大大提高应用程序对二维三维图形和图象的处理能力.Intel MMX技术可用于对大量数据和复杂数组进行的复杂处理,使用MMX ...
- .net core SIMD范例分析
单指令多数据流(SIMD)是CPU基本运算之外为了提高并行处理多条数据效率的技术,常用于多媒体处理如视频,3D模拟的计算.实现方式不同品牌的CPU各有自己的指令集,如SSE MMX 3DNOW等. C ...
- Intrinsics头文件与SIMD指令集、Visual Studio版本对应表(转)
File:Intrinsics头文件 描述:指令集描述VS:Visual Studio版本号VisualStudio:Visual Studio版本名 File 描述 VS VisualStudio ...
- emms指令在MMX指令中的作用
emms指令在MMX指令中的作用 转自:http://blog.csdn.net/psusong/archive/2009/01/08/3737047.aspx MMX和SSE都是INTEL开发的基于 ...
- 【转载】C代码优化方案
C代码优化方案 1.选择合适的算法和数据结构2.使用尽量小的数据类型3.减少运算的强度 (1)查表(游戏程序员必修课) (2)求余运算 (3)平方运算 (4)用移位实现乘除法运算 (5)避免不必要的整 ...
- SSE再学习:灵活运用SIMD指令6倍提升Sobel边缘检测的速度(4000*3000的24位图像时间由180ms降低到30ms)。
这半年多时间,基本都在折腾一些基本的优化,有很多都是十几年前的技术了,从随大流的角度来考虑,研究这些东西在很多人看来是浪费时间了,即不能赚钱,也对工作能力提升无啥帮助.可我觉得人类所谓的幸福,可以分为 ...
- PC平台的SIMD支持检测
如果我们希望在用SIMD来提升程序处理的性能,首先需要做的就是检测程序所运行的平台是否支持相应的SIMD扩展.平台对SIMD扩展分为两部分的支持: CPU对SIMD扩展的支持.SIMD扩展是随着CPU ...
随机推荐
- python3基础入门-知识点简记
1.基础语法 编码.标识符.保留字.注释.行与缩进... 2.变量类型 (1)Python3有6个标准的数据类型: Numbers(数字) 数字数据类型用于存储数值 不可改变的数据类型 可细分为 ...
- yaf框架刚开始遇到的问题
2016-10-17 17:54:13遇到的这个问题,这个问题算是比较综合性的问题,我也是查阅了很多的资料才大概明白的.这里就简单记录一下: 1.首先查看日志记录,结果如下: 根据错误日志:找寻到 ( ...
- 老司机教你在windows不用软件隐藏重要文件
每个人电脑里面都有些秘密,但是别人需要使用你的电脑时,有可能会看到,但是我们又不想让别人发现时,我们可以将其隐藏,那么别人就不会看到了.360文件保险柜.腾讯电脑管家等等.使用软件繁琐软件过大还会拖慢 ...
- Linux文本的处理
Linux最最最最重要的哲学思想就是:一切皆文件.文件以及文件的操作在LInux操作系统中是非常的重要.熟练使用精悍小巧快捷的文本处理方式让效率更高. 一.文件查看命令 less 分页查看 [root ...
- sqoop:mysql和Hbase/Hive/Hdfs之间相互导入数据
1.安装sqoop 请参考http://www.cnblogs.com/Richardzhu/p/3322635.html 增加了SQOOP_HOME相关环境变量:source ~/.bashrc ...
- mysql数据库 索引 事务和事务回滚
mysql索引 索引相当于书的目录优点:加快数据的查询速度缺点:占物理存储空间,添加,删除,会减慢写的速度 查看表使用的索引 mysql> show index from 表名\G;(\G分行显 ...
- PyQt5多点触控写字板实现及困惑
Qt支持程序多点触控,就想使用PyQt5做一个触控画板,经过几番周折,查阅了TouchEvent官方文档,又参考了一篇QT for Android的例子,采用eventfilter过滤器来识别触屏事件 ...
- Java兔子问题
题目:古典问题:有一对兔子,从出生后第3个月起每个月都生一对兔子,小兔子长到第三个月后每个月又生一对兔子,假如兔子都不死,问每个月的兔子总数为多少? /** * @Title:Rabbit.java ...
- javascript DOM document对象
document对象代表整个html文档 用来访问页面所有元素最复杂的一个dom对象 也是window对象的一个子对象. 对于dom编程中,一个html就会当成一个dom树dom会把所有的html元素 ...
- R语言数据集合并、数据增减、不等长合并
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 数据选取与简单操作: which 返回一个向量 ...