【转】【MMX】基于MMX指令集的程序设计简介

（一）

MMX技术简介

Intel 公司的MMX™（多媒体增强指令集）技术可以大大提高应用程序对二维三维图形和图象的处理能力。Intel MMX技术可用于对大量数据和复杂数组进行的复杂处理，使用MMX技术可处理的数据基本单位可以是字节（byte）、字（word），或者是双字（double-word）。
Visual Studio .NET 2003提供了对MMX指令集特性的支持，从而可以不必编写汇编代码，直接使用C++代码就可以实现MMX指令的功能。通过参考Intel软件说明书（Intel Software manuals）[1]以及阅读MSDN中有关MMX编程技术的主题会使你更好地把握MMX编程的要点。
MMX技术实现了单道指令多道数据流（SIMD，single-instruction, multiple-data）的执行模式。考虑下面一个需要编程完成的任务，在一个字节（BYTE）数组中使其中每一个元素加上一个数，在传统的程序中，实现这个功能的算法如下：
for each b in array //对数组中的每一个元素b
　　b = b + n //加上一个数n
下面看看它的实现细节：
for each b in array //对数组中的每一个元素b
{
　　把b加载到寄存器中
　　把此寄存器中的数加上n
　　把所得寄存器中的结果放回内存
}
具有MMX指令集支持的处理器有八个64位的寄存器，每一个寄存器可以存放8个字节（byte）、4个字(word)或2个双字(double-word)。MMX技术同时提供了一个MMX指令集，其中的指令可以可以把一个数值（其类型可以是字节、字或双字）加载到这些MMX寄存器中，在寄存器中进行算术或逻辑运算，然后把寄存器中的结果放回内存存储单元。上面的例子采用MMX技术后的算法是这样的：
for each 8 members in array //把数组中的8个字节（其中一个字节为数组中的一个单位）作为一组取出
{
　　把这8个字节加载到MMX寄存器中
　　通过一个CPU指令执行周期把这个寄存器中的8个字节都加上n
　　把寄存器中计算的结果写回内存
}
C++编程人员不必直接使用MMX指令集中的指令访问这些MMX寄存器。你可以使用64位的数据类型__m64和一系列C++函数来进行相关的算术和逻辑运算。而决定程序使用哪个MMX寄存器以及代码优化是C++编译器的任务。
Visual C++ MMXSwarm [4]是MSDN中提供的一个很好的使用MMX技术进行图象处理的例子，它包含了一些封装好了的类简化了使用MMX技术的操作，并向你展示了对各种不同格式图象进行处理的操作（如单色24位象素RGB、32位象素RGB等）。本文只是对使用Visual C++实现MMX程序设计的简单介绍。如果你感兴趣的话，可以参看MSDN上MMXSwarm的例子。

（二）

MMX程序设计详细介绍
包含的头文件
所有的MMX指令集函数在emmintrin.h文件中定义：
#include <emmintrin.h>
因为程序中用到的MMX处理器指令是由编译器决定，所以它并没有相关的.lib库文件。
__m64 数据类型
这种类型的变量可用作MMX指令的操作数，它不能被直接访问。_m64类型的变量被自动分配为8个字节的字长。
CPU对MMX指令集的支持
如果你的CPU能够具有了MMX指令集，你就可以使用Visual Studio .NET 2003提供的对MMX指令集支持的C++函数库了，你可以查看MSDN中的一个Visual C++ CPUID[3]的例子，它可以帮你检测你的CPU是否支持SSE、MMX指令集或其它的CPU功能。
饱和算法（Saturation Arithmetic）和封装模式（Wraparound Mode）
MMX技术支持一种叫做saturating arithmetic（饱和算法）的计算模式。在饱和模式下，当计算结果发生溢出（上溢或下溢）时，CPU会自动去掉溢出的部分，使计算结果取该数据类型表示数值的上限值（如果上溢）或下限值（如果下溢）。饱和模式的计算用于对图象的处理。
下面的例子能够让你理解饱和模式和封装模式的区别。如果一个字节(BYTE)类型变量的值为255，然后将其值加一。在封装模式下，相加结果为0（去掉进位）；在饱和模式下，结果为255。饱和模式用类似的方法来处理下溢出，比如对于一个字节数据类型的数在饱和模式下，1减2的结果为0（而不是-1）。每一个MMX算术指令都有这两种模式：饱和模式和封装模式。本文所要讨论的项目只使用饱和模式下的MMX指令。
编程实例
以下讲解了MMX技术在Visual Studio .NET 2003下的应用实例，你可以在http://www.codeproject.com/cpp/mmxintro/MMX_src.zip下载示例程序压缩包。该压缩包中含有两个项目，这两个项目是基于微软基本类库（MFC）建立的Visual C++.NET项目，你也可以按照下面的讲解建立这两个项目。
MMX8 演示项目
MMX8是一个单文档界面（SDI）的应用程序，用来对每象素8位的单色位图进行简单处理。源图象和处理后的图象会在窗体中显示出来。新建的ATL（活动模版库）类 Cimage用来从资源中提取图象并在窗体中显示出来。程序要对图象进行两种处理操作：图象颜色反相和改变图象的亮度。每一种处理操作可以用下面几种方法之中其中的一种来实现：
纯C++代码；
使用C++的MMX功能函数的代码；
使用MMX汇编指令的代码。
对图象进行处理计算的时间会显示在状态栏中。
用纯C++实现的图象颜色反相函数：

void CImg8Operations::InvertImageCPlusPlus(

BYTE* pSource,

BYTE* pDest,

int nNumberOfPixels)

{

    for ( int i = ; i < nNumberOfPixels; i++ )

    {

        *pDest++ =  - *pSource++;

    }

}

为了查询使用C++ MMX指令函数的方法，需要参考Intel软件说明书（Intel Software manuals）中有关MMX汇编指令的说明，首先我是在第一卷的第八章找到了MMX相关指令的大体介绍，然后在第二卷找到了有关这些MMX指令的详细说明，这些说明有一部分涉及了与其特性相关的C++函数。然后我通过这些MMX指令对应的C++函数查找了MSDN中与其相关的说明。在MMX8示例程序中用到的MMX指令和相关的C++函数见下表：
实现的功能对应的MMX汇编指令 Visual C++.NET中的MMX函数
清除MMX寄存器中的内容，即初始化（以避免和浮点数操作发生冲突）。 emms _mm_empty
将两个64位数中对应的（8个）无符号（8位）字节同时进行减法操作。 psubusb _mm_subs_pu8
将两个64位数中对应的（8个）无符号（8位）字节同时进行加法操作。 paddusb _mm_adds_pu8
用Visual C++.NET的MMX指令函数实现图象颜色反相的函数：

void CImg8Operations::InvertImageC_MMX(

BYTE* pSource,

BYTE* pDest,

int nNumberOfPixels)

{

__int64 i = ;

i = ~i; // 0xffffffffffffffff 

// 每次循环处理8个象素

int nLoop = nNumberOfPixels/;

__m64* pIn = (__m64*) pSource; // 输入的字节数组指针

__m64* pOut = (__m64*) pDest; // 输出的字节数组指针

__m64 tmp; // 临时工作变量

_mm_empty(); // 执行MMX指令：emms，初始化MMX寄存器

__m64 n1 = Get_m64(i);

for ( int i = ; i < nLoop; i++ )

{

tmp = _mm_subs_pu8 (n1 , *pIn); // 饱和模式下的无符号减法

//对每一个字节执行操作：tmp = n1 - *pIn

*pOut = tmp;

pIn++; // 取下面的8个象素点

pOut++;

}

_mm_empty(); // 执行MMX指令：emms，清除MMX寄存器中的内容

}

__m64 CImg8Operations::Get_m64(__int64 n)

{

union __m64__m64

{

__m64 m;

__int64 i;

} mi;

mi.i = n;

return mi.m;

}

虽然这个函数在非常短的时间就执行完成了，但我记录了这3种方法需要的时间，以下是在我的计算机上运行的结果：
纯C++代码 43毫秒
使用C++的MMX指令函数的代码 26毫秒
使用MMX汇编指令的代码 26毫秒
上面的图象处理时间必须在程序Release优化编译后执行时才能体现出很好的效果。
而改变图象的亮度我采用了最简单的方法：对图象中的每一个象素的颜色值进行加减运算。相对前面的处理函数而言，这样的转换函数有些复杂，因为我们需要把处理过程分成两种情况，一种是增加象素颜色值，另一种是减少象素颜色值。
用纯C++函数实现的改变图象亮度的函数：

void CImg8Operations::ChangeBrightnessCPlusPlus(

BYTE* pSource,

BYTE* pDest,

int nNumberOfPixels,

int nChange)

{

if ( nChange >  )

nChange = ;

else if ( nChange < - )

nChange = -;

BYTE b = (BYTE) abs(nChange);

int i, n;

if ( nChange >  ) //增加象素颜色值

{

for ( i = ; i < nNumberOfPixels; i++ )

{

n = (int)(*pSource++ + b);

if ( n >  )

n = ;

*pDest++ = (BYTE) n;

}

}

else //减少象素颜色值

{

for ( i = ; i < nNumberOfPixels; i++ )

{

n = (int)(*pSource++ - b);

if ( n <  )

n = ;

*pDest++ = (BYTE) n;

}

}

}

用Visual C++.NET的MMX指令函数实现的改变图象亮度函数：

void CImg8Operations::ChangeBrightnessC_MMX(

BYTE* pSource,

BYTE* pDest,

int nNumberOfPixels,

int nChange)

{

if ( nChange >  )

nChange = ;

else if ( nChange < - )

nChange = -;

BYTE b = (BYTE) abs(nChange);

__int64 c = b;

for ( int i = ; i <= ; i++ )

{

c = c << ;

c |= b;

}

// 在一次循环中处理8个象素

int nNumberOfLoops = nNumberOfPixels / ;

__m64* pIn = (__m64*) pSource; // 输入的字节数组

__m64* pOut = (__m64*) pDest; // 输出的字节数组

__m64 tmp; // 临时工作变量

_mm_empty(); // 执行MMX指令：emms

__m64 nChange64 = Get_m64(c);

if ( nChange >  )

{

for ( i = ; i < nNumberOfLoops; i++ )

{

tmp = _mm_adds_pu8(*pIn, nChange64); // 饱和模式下的无符号加法

// 对每一个字节执行操作：tmp = *pIn + nChange64 

*pOut = tmp;

pIn++; // 取下面8个象素

pOut++;

}

}

else

{

for ( i = ; i < nNumberOfLoops; i++ )

{

tmp = _mm_subs_pu8(*pIn, nChange64); // 饱和模式下的无符号减法

// 对每一个字节执行操作：tmp = *pIn - nChange64

*pOut = tmp;

pIn++; //取下面8个象素

pOut++;

}

}

_mm_empty(); // 执行MMX指令：emms

}

注意参数nChange的符号每次调用函数时在循环体外只检查一次，而不是放在循环体内，那样会被检查成千上万次。下面是在我的计算机上处理图象花费的时间：
纯C++代码 49毫秒
使用C++的MMX指令函数的代码 26毫秒
使用MMX汇编指令的代码 26毫秒

(三)

MMX32 演示项目
MMX32项目可对32位象素的RGB图象进行处理。进行的图象处理工作是图象颜色反相操作和更改图象颜色的平衡度（将象素点的每一种颜色乘以一定的值）操作。
MMX的乘法实现起来比加减法复杂得多，因为乘法运算通常得出的结果的位数不再是以前位数的大小。比如，如果乘法的操作数有一个字节（8位的BYTE）大小，那么结果会达到一个字（16位的WORD）大小。这需要额外的转换，并且使用MMX汇编指令和C++代码进行图象转换花费时间的差别不是很大（时间差为5-10%）。
用Visual C++.NET的MMX指令函数实现的更改图象颜色平衡度的函数：

void CImg32Operations::ColorsC_MMX(

BYTE* pSource,

BYTE* pDest,

int nNumberOfPixels,

float fRedCoefficient,

float fGreenCoefficient,

float fBlueCoefficient)

{

int nRed = (int)(fRedCoefficient * 256.0f);

int nGreen = (int)(fGreenCoefficient * 256.0f);

int nBlue = (int)(fBlueCoefficient * 256.0f);

// 设置相乘系数

__int64 c = ;

c = nRed;

c = c << ;

c |= nGreen;

c = c << ;

c |= nBlue;

__m64 nNull = _m_from_int(); // null

__m64 tmp = _m_from_int(); // 临时工作临时变量初始化

_mm_empty(); // 清空MMX寄存器。

__m64 nCoeff = Get_m64(c);

DWORD* pIn = (DWORD*) pSource; // 输入双字数组

DWORD* pOut = (DWORD*) pDest; // 输出双字数组

for ( int i = ; i < nNumberOfPixels; i++ )

{

tmp = _m_from_int(*pIn); // tmp = *pIn (在tmp的低32位写入数据)

tmp = _mm_unpacklo_pi8(tmp, nNull ); //将tmp中低位的4个字节转化为字

//字的高位用nNull中对应位上的位值填充。 

tmp = _mm_mullo_pi16 (tmp , nCoeff); //将tmp中的每一个字相乘，将相乘结果的高位送到nCoeff，在tmp中只保留每个结果的低位。 

tmp = _mm_srli_pi16 (tmp , ); // 将tmp中的每一个字右移8位，相当于除以256

tmp = _mm_packs_pu16 (tmp, nNull); // 使用饱和模式将tmp中的结果做如下处理：

//将tmp中的4个字转化为4个字节，并将这4个字节写到tmp中的低32位中

// 同时，将nNull中的4个字转化为4个字节，并将这4个字节写到tmp的高32位中。

*pOut = _m_to_int(tmp); // *pOut = tmp (将tmp低32位的数据放入pOut数组中)

pIn++;

pOut++;

}

_mm_empty();

}

你可以参看示例项目的源代码了解有关此项目的更多的细节。
SSE2 技术
SSE2技术包含有一个类似MMX中对整数操作的指令集，同时也包含128位的SSE寄存器组。比如，用SSE2技术实现更改图象颜色平衡度能够比用纯C++代码实现此功能在效率上有很大提升。SSE2同时是SSE技术的扩展，比如它不仅可以单精度浮点数数组，而且能够处理双精度浮点数数据类型的数组。用C++实现的MMXSwarm 示例项目不仅使用了MMX指令函数，而且使用了SSE2指令对整型数操作的函数。

参考文档：
[1] Intel软件说明书（Intel Software manuals）：http://developer.intel.com/design/archives/processors/mmx/index.htm 。
[2] MSDN中有关MMX技术的主题：http://msdn.microsoft.com/library/default.asp?url=/library/en-us/vclang/html/vcrefsupportformmxtechnology.asp。
[3] Microsoft Visual C++ CPUID项目示例：http://msdn.microsoft.com/library/default.asp?url=/library/en-us/vcsample/html/vcsamcpuiddeterminecpucapabilities.asp。
[4] Microsoft Visual C++ MMXSwarm项目示例：

http://msdn.microsoft.com/library/default.asp?url=/library/en-us/vcsample/html/vcsamMMXSwarmSampleDemonstratesCImageVisualCsMMXSupport.asp。
[5] Matt Pietrek在Microsoft Systems Journal 1998年2月刊上的评论文章：http://www.microsoft.com/msj/0298/hood0298.aspx

转载至：http://blog.itpub.net/8781179/viewspace-924611/

【转】【MMX】基于MMX指令集的程序设计简介的更多相关文章

【转】【SSE】基于SSE指令集的程序设计简介
基于SSE指令集的程序设计简介作者:Alex Farber 出处:http://www.codeproject.com/cpp/sseintro.asp SSE技术简介 Intel公司的单指令多数据 ...
【转】【SEE】基于SSE指令集的程序设计简介
SSE技术简介 Intel公司的单指令多数据流式扩展(SSE,Streaming SIMD Extensions)技术能够有效增强CPU浮点运算的能力.Visual Studio .NET 2003提 ...
Oracle数据库之PL/SQL程序设计简介
PL/SQL程序设计简介一.什么是PL/SQL? PL/SQL是 Procedure Language & Structured Query Language 的缩写. ORACLE的SQL ...
[推荐]ORACLE PL/SQL编程详解之一：PL/SQL 程序设计简介(千里之行，始于足下)
原文:[推荐]ORACLE PL/SQL编程详解之一:PL/SQL 程序设计简介(千里之行,始于足下) [推荐]ORACLE PL/SQL编程详解之一: PL/SQL 程序设计简介(千里之行,始于足下 ...
Lucene：基于Java的全文检索引擎简介
Lucene:基于Java的全文检索引擎简介 Lucene是一个基于Java的全文索引工具包. 基于Java的全文索引/检索引擎--Lucene Lucene不是一个完整的全文索引应用,而是是一个用J ...
qemu模拟器下编译运行基于riscv指令集的Linux操作系统
基本原理: 在物理服务器Ubuntu14.04上安装qemu模拟器,模拟器中运行基于riscv指令集编译的linux镜像文件. 用到的工具包括: riscv-qemu(模拟器,可以模拟运行risc ...
Lucene：基于Java的全文检索引擎简介 (zhuan)
http://www.chedong.com/tech/lucene.html ********************************************** Lucene是一个基于Ja ...
C++ 泛型程序设计与STL模板库(1)---泛型程序设计简介及STL简介与结构
泛型程序设计的基本概念编写不依赖于具体数据类型的程序将算法从特定的数据结构中抽象出来,成为通用的 C++的模板为泛型程序设计奠定了关键的基础术语:概念用来界定具备一定功能的数据类型.例如: 将 ...
windows程序设计简介
大家好,非常高兴和大家一起分享Windows开发心得,Windows已经诞生很多年了,一直因为它的简单易用而深受欢迎,相信很多人在使用Windows的时候,一定有这样一个想法:希望自己将来可以写一个很 ...

随机推荐

PowerDesign设置列名与表名的大小写规则
因为设计的Model是要用到Oracle 11g的,Oracle 11g的表名和列名默认是大写,在设计模型当中小写转大写一直很苦闹,发现PowerDedign可以直接设置,见下文: 打开Tools-- ...
搭建Android 5.0开发环境
1.Android SDK的安装下载地址:http://developer.android.com/index.html 访问网站的话请自备梯子选择:adt-bundle-windows-x86_ ...
Android中使用抖动动画吸引来用户注意
原文:http://www.androidcn.org/topic/552e65bc61d460226ab27a5c 在应用中,有时候我们要吸引用户去点击某些按钮,比如应用市场的推荐按钮,为了能够吸引 ...
【转】Windows的多线程编程，C/C++
在Windows的多线程编程中,创建线程的函数主要有CreateThread和_beginthread(及_beginthreadex). CreateThread 和 ExitThread 使 ...
在xib中添加手势控件后运行可能会出现的错误
如果出现错误: // -[UITapGestureRecognizer superview]: unrecognized selector sent to instance 0x8e407a0 // ...
ReactiveCocoa中信号的使用
前言: 很早之前就有看过ReactiveCocoa,那会看的时候知道是一个新的框架关于响应式编程,具体什么也没有深入研究,今天也对ReactiveCocoa这个框架的使用进行了一定的了解.在githu ...
virtualbox 中ubantu虚拟机范文win7文件夹
宿主机操作系统: windows7_x64 旗舰版 Oracle VM virtualBox版本:5.0.12 虚拟机操作系统: Ubantu15.12_x64 Desktop版本让虚拟机可以访 ...
Oracle instr函数与SqlServer charindex的区别
INSTR(C1,C2[,I[,J]]) [功能]在一个字符串中搜索指定的字符,返回发现指定的字符的位置; [说明]多字节符(汉字.全角符等),按1个字符计算 [参数] C1 被搜索的字符串 ...
【CSharp】C#开发ActiveX插件
这几天Web项目中需要用到ActiveX插件(PS:听说这个是好久好久的东西了...),由于项目中需要调用本地资源所以只能研究研究这位老兄了. 先说说自己学习他的经历,开始的时候是用百度引擎检索自己所 ...
QT的QWebView显示网页不全
最近使用QWebView控件遇到一个问题,就是无论窗口多大,网页都显示那么大,而且,显示不完全,有滚动条试过使用showMaximized()方法, 还是一样,网上一直说是布局问题,也没说清楚是虾米 ...

【转】【MMX】 基于MMX指令集的程序设计简介

【转】【MMX】 基于MMX指令集的程序设计简介的更多相关文章

随机推荐

热门专题

【转】【MMX】基于MMX指令集的程序设计简介

【转】【MMX】基于MMX指令集的程序设计简介的更多相关文章