SIMD学习 -- 用SSE2指令作点乘和累加计算

这几天在做学校的一个学习小项目，需要用到SIMD指令计算提速。也是第一次碰这个，看了一些资料和代码，模仿着写了两个函数。

void sse_mul_float(float *A, float *B, int cnt)：两段内存float数据点乘，结果覆盖第一组内存。

float sse_acc_float(float *A, int cnt)：一组内存float值累加。

注：

1. 没有考虑中间的精确问题，结果会有误差。

2. 每个函数包括指令操作部分和C++语句计算部分。本文附的代码注释介绍指令部分思路。

**3. 关于内存对齐，我不是很懂，所以下面的代码中判断是否对齐的相关语句我写的也不是很正确，所有后面都补上了一点C++的明白操作。

因此，有些指令操作也许没用上。

头文件

#include "time.h"

#include "stdafx.h"

#include<iostream>

#include <stdlib.h>

#include <stdio.h>

#include <tchar.h>

#include <math.h>

#include <time.h>

#include <windows.h>

#include <iomanip>

#include <sys/timeb.h>

using namespace std;

sse_mul_float asm部分

 //MOV EAX,1               ;request CPU feature flags

     //CPUID                   ;0Fh, 0A2h CPUID instruction

     //TEST EDX,4000000h       ;test bit 26 (SSE2)

     //JNZ >L18                ;SSE2 available

     int cnt1;

     int cnt2;

     int cnt3;

     //we process  the majority by using SSE instructions

     if (((int)A % ) || ((int)B % ))      //如果内存不对齐

     {

         cnt1 = cnt / ;                         //该loop一轮处理16个float*float

         cnt2 = (cnt - ( * cnt1)) / ;          //该loop一轮处理4个float*float

         cnt3 = (cnt - ( * cnt1) - ( * cnt2)); //该loop一轮处理1个float*float

         _asm

         {

             mov edi, A;                      //先将内存地址放入指针寄存器

             mov esi, B;

             mov ecx, cnt1;                  //循环寄存器置值

             jecxz ZERO;                   //如果数据量不超过16个，则跳过L1

         L1:

             //xmm 寄存器有128bit

             //movups  XMM,XMM/m128

             //传128bit数据,不必对齐内存16字节.

             movups xmm0, [edi];

             movups xmm1, [edi + ];

             movups xmm2, [edi + ];

             movups xmm3, [edi + ];

             //为什么只载入4*4个float?  到上面看看这一轮需要处理多少数据

             movups xmm4, [esi];

             movups xmm5, [esi + ];

             movups xmm6, [esi + ];

             movups xmm7, [esi + ];        

             //mulps XMM,XMM/m128

             //寄存器按双字对齐,

             //共4个单精度浮点数与目的寄存器里的4个对应相乘,

             //结果送入目的寄存器, 内存变量必须对齐内存16字节.

             mulps xmm0, xmm4;

             mulps xmm1, xmm5;

             mulps xmm2, xmm6;

             mulps xmm3, xmm7;            

             //（一个float占4字节，也就是32bit）

             //到这里，xmm0-3寄存器里都有了4个float的乘积结果

             //然后回载到相应内存

             movups[edi], xmm0;

             movups[edi + ], xmm1;

             movups[edi + ], xmm2;

             movups[edi + ], xmm3;        

             //记得给指针移位

             //64=16 * 4

             //每一轮处理了16次float * float,每一个float占4字节

             //所以移位应该加64

             add edi, ;

             add esi, ;

             loop L1;                            

         ZERO:

             mov ecx, cnt2;

             jecxz ZERO1;

         L2:

             movups xmm0, [edi];           //对于4个float，一个xmm寄存器正好够用

             movups xmm1, [esi];

             mulps xmm0, xmm1;           //对应相乘，结果在xmm0

             movups[edi], xmm0;           //由xmm0回载内存

             add edi, ;               //指针移位

             add esi, ;

             loop L2;

         ZERO1:

             mov ecx, cnt3;

             jecxz ZERO2;

             mov eax, ;

         L3:                                

             movd eax, [edi];            //对于单个float * float，无需sse指令

             imul eax, [esi];

             movd[edi], eax;

             add esi, ;

             add edi, ;

             loop L3;

         ZERO2:

             EMMS;                       //清空

         }

     }

     else

     {

         cnt1 = cnt / ;                          //该loop一轮处理28个float*float

         cnt2 = (cnt - ( * cnt1)) / ;           //该loop一轮处理4个float*float

         cnt3 = (cnt - ( * cnt1) - ( * cnt2));  //该loop一轮处理1个float*float

         _asm

         {

             mov edi, A;

             mov esi, B;

             mov ecx, cnt1;

             jecxz AZERO;

         AL1:

             //movaps XMM, XMM / m128

             //把源存储器内容值送入目的寄存器, 当有m128时, 必须对齐内存16字节, 也就是内存地址低4位为0.

             movaps xmm0, [edi];

             movaps xmm1, [edi + ];

             movaps xmm2, [edi + ];

             movaps xmm3, [edi + ];

             movaps xmm4, [edi + ];

             movaps xmm5, [edi + ];

             movaps xmm6, [edi + ];

             //7*4=28，处理28个float*float

             mulps xmm0, [esi];            //对应点乘

             mulps xmm1, [esi + ];

             mulps xmm2, [esi + ];

             mulps xmm3, [esi + ];

             mulps xmm4, [esi + ];

             mulps xmm5, [esi + ];

             mulps xmm6, [esi + ];        

             movaps[edi], xmm0;            //回载

             movaps[edi + ], xmm1;

             movaps[edi + ], xmm2;

             movaps[edi + ], xmm3;

             movaps[edi + ], xmm4;

             movaps[edi + ], xmm5;

             movaps[edi + ], xmm6;        

             add edi, ;

             add esi, ;

             loop AL1;                            

         AZERO:

             mov ecx, cnt2;

             jecxz AZERO1;

         AL2:

             movaps xmm0, [edi];

             mulps xmm0, [esi];

             movaps[edi], xmm0;

             add edi, ;

             add esi, ;

             loop AL2;

         AZERO1:

             mov ecx, cnt3;

             jecxz AZERO2;

             mov eax, ;

         AL3:                                

             movd eax, [edi];

             imul eax, [esi];

             movd[edi], eax;

             add esi, ;

             add edi, ;

             loop AL3;

         AZERO2:

             EMMS;

         }

     }

由于内存对齐的问题，导致末尾有部分数据不正常，特添加C++部分修复。
sse_mul_float c++部分

 int start;

     start = cnt - (cnt % );

     for (int i = start; i < cnt; i++)

     {

         A[i] *= B[i];

     }

用于累加的这个函数，分两块。一块是用指令把大部分数据处理掉，而极少部分数据使用C++语句，这样能各取所长。

sse_acc_float asm部分

 float temp = ;

     int cnt1;

     int cnt2;

     int cnt3;

     int select = ;

     //we process  the majority by using SSE instructions

     if (((int)A % ))      //unaligned 如果这次调用，内存数据不对齐

     {

         select = ;

         cnt1 = cnt / ;

         cnt2 = (cnt - ( * cnt1)) / ;

         cnt3 = (cnt - ( * cnt1) - ( * cnt2));

         __asm

         {

             mov edi, A;

             mov ecx, cnt1;

             pxor xmm0, xmm0;

             jecxz ZERO;

         L1:

             movups xmm1, [edi];

             movups xmm2, [edi + ];

             movups xmm3, [edi + ];

             movups xmm4, [edi + ];

             movups xmm5, [edi + ];

             movups xmm6, [edi + ];

             //addps 对应相加

             //结果返回目的寄存器

             addps xmm1, xmm2;

             addps xmm3, xmm4;

             addps xmm5, xmm6;

             addps xmm1, xmm5;

             addps xmm0, xmm3;

             addps xmm0, xmm1;

             //至此，xmm0内4个float的和就是24个float的和

             add edi, ;

             loop L1;                        

         ZERO:

             movd ebx, xmm0;      //低4个字节(第一个float)传入ebx

             psrldq xmm0, ;      //xmm0右移4字节

             movd eax, xmm0;      //右移后，低4个字节(第二个float)传入eax

             movd xmm1, eax;      //第一个float传入xmm1低32bit

             movd xmm2, ebx;      //第二个float传入xmm2低32bit

             addps xmm1, xmm2;    //两个寄存器内4个float对应相加

             movd eax, xmm1;      //只取我们要的低位float,传入eax

             movd xmm3, eax;      //第一和第二个float的和存在xmm3低32位

             psrldq xmm0, ;      //又截掉一个float

             movd ebx, xmm0;      //第三个float进ebx

             psrldq xmm0, ;      //截掉第三个float

             movd eax, xmm0;      //第四个float进eax 

             movd xmm1, eax;

             movd xmm2, ebx;

             addps xmm1, xmm2;    //第三和第四个float的和存在xmm1低32位

             movd eax, xmm1;

             movd xmm4, eax;

             addps xmm3, xmm4;    //4个float的和存在xmm3低32位

             movd eax, xmm3;

             mov temp, eax;       //这部分求和存在temp地址区

             EMMS;                            

         }

     }

     else              // aligned   如果这次调用，内存数据对齐

     {

         select = ;

         cnt1 = cnt / ;

         cnt2 = (cnt - ( * cnt1)) / ;

         cnt3 = (cnt - ( * cnt1) - ( * cnt2)); 

         __asm

         {

             mov edi, A;

             mov ecx, cnt1;

             pxor xmm0, xmm0;

             jecxz ZZERO;

         LL1:

             movups xmm1, [edi];

             movups xmm2, [edi + ];

             movups xmm3, [edi + ];

             movups xmm4, [edi + ];

             movups xmm5, [edi + ];

             movups xmm6, [edi + ];

             addps xmm1, xmm2;

             addps xmm3, xmm4;

             addps xmm5, xmm6;

             addps xmm1, xmm5;

             addps xmm0, xmm3;

             addps xmm0, xmm1;

             add edi, ;

             movups xmm1, [edi];

             movups xmm2, [edi + ];

             movups xmm3, [edi + ];

             movups xmm4, [edi + ];

             movups xmm5, [edi + ];

             movups xmm6, [edi + ];

             addps xmm1, xmm2;

             addps xmm3, xmm4;

             addps xmm5, xmm6;

             addps xmm1, xmm5;

             addps xmm0, xmm3;

             addps xmm0, xmm1;

             add edi, ;

             movups xmm1, [edi];

             movups xmm2, [edi + ];

             addps xmm1, xmm2;

             addps xmm0, xmm1;

             add edi, ;

             loop LL1;                        

         ZZERO:

             movd ebx, xmm0;

             psrldq xmm0, ;

             movd eax, xmm0;

             movd xmm1, eax;

             movd xmm2, ebx;

             addps xmm1, xmm2;

             movd eax, xmm1;

             movd xmm3, eax;

             psrldq xmm0, ;

             movd ebx, xmm0;

             psrldq xmm0, ;

             movd eax, xmm0;

             movd xmm1, eax;

             movd xmm2, ebx;

             addps xmm1, xmm2;

             movd eax, xmm1;

             movd xmm4, eax;

             addps xmm3, xmm4;

             movd eax, xmm3;

             mov temp, eax;

             EMMS;                            

         }

     }

sse_acc_float c++部分

//上面的select记录本次调用sse_acc_float时，数据是否对齐内存

    //下面分情况把剩余的和累加

    int start;

    float c = 0.0f;

    if (select == )

    {

        start = cnt - (cnt % );

        for (int i = start; i < cnt; i++)

        {

            c += A[i];

        }

    }

    else

    {

        start = cnt - (cnt % );

        for (int i = start; i < cnt; i++)

        {

            c += A[i];

        }

    }

    //temp 是用指令计算 ，大部分数据的和

    //c    是用C++语句计算， 所有数据模24或者56剩余部分数据的和

    return(temp + c);

我是一名编程菜鸟，有什么技术上的问题，欢迎讨论和交流指正。谢谢！

获取全部源码：点此 dot_acc.cpp

SIMD学习 -- 用SSE2指令作点乘和累加计算的更多相关文章

Docker技术入门与实战第二版-学习笔记-3-Dockerfile 指令详解
前面已经讲解了FROM.RUN指令,还提及了COPY.ADD,接下来学习其他的指令 5.Dockerfile 指令详解 1> COPY 复制文件格式: COPY <源路径> .. ...
学习AngularJs:Directive指令用法（完整版）
这篇文章主要学习AngularJs:Directive指令用法,内容很全面,感兴趣的小伙伴们可以参考一下本教程使用AngularJs版本:1.5.3 AngularJs GitHub: http ...
【js类库AngularJs】学习angularJs的指令（包括常见表单验证，隐藏等功能）
[js类库AngularJs]学习angularJs的指令(包括常见表单验证,隐藏等功能) AngularJS诞生于2009年,由Misko Hevery 等人创建,后为Google所收购.是一款优秀 ...
Linux学习日志——基本指令②
文章目录 Linux学习日志--基本指令② 前言 touch cp (copy) mv (move) rm vim 输出重定向(> 或 >>) cat df(disk free) f ...
vue学习04 v-on指令
vue学习04 v-on指令 v-on的作用是为元素绑定事件,比如click单击,dbclick双击 v-on指令可简写为@ 代码测试 <!DOCTYPE html> <html l ...
vue学习06 v-show指令
目录 vue学习06 v-show指令 v-show指令是:根据真假切换元素的显示状态原理是修改元素的display,实现显示隐藏指令后面的内容,最终都会解析为布尔值(true和false) 练习 ...
vue学习08 v-bind指令
目录 vue学习08 v-bind指令 v-bind指令的作用是为元素绑定属性完整写法是v-bind:属性名,可简写为:属性名练习代码为: 运行效果为: vue学习08 v-bind指令 v-bi ...
SIMD指令集——一条指令操作多个数，SSE，AVX都是，例如：乘累加，Shuffle等
SIMD指令集 from:https://zhuanlan.zhihu.com/p/31271788 SIMD,即Single Instruction, Multiple Data,一条指令操作多个数 ...
重温JSP学习笔记--三大指令九大内置对象
最近在温习javaweb的相关基础知识,鉴于我弄丢了记满了整整一本的笔记,决定以后把笔记和一些学习上的心得以及碰到的一些问题统统都放在网上,今天看了一下jsp的相关基础,以下是笔记: JSP三大指令: ...

随机推荐

wxpc
代理ip 测试
Line #1218 : 101.232.208.245 - - [16/Jan/2018:02:47:34 +0800] "GET /?xltestdesfs HTTP/1.1" ...
Flask的配置文件与 session
配置文件 flask中的配置文件是一个flask.config.Config对象(继承字典) 默认配置为: { 'DEBUG': get_debug_flag(default=False), 是否开启 ...
python-----删除空文件夹
问题描述: 有时,我们的文件夹太多了,但有的文件夹还是空的文件夹,自己去删需要好久,于是想着写个脚本自动删除.代码如下: #!/usr/bin/env python # -*- coding: utf ...
vue 基础知识随笔
window.localStorage.gettItem("someItem"||[])//如果localStorage中的someItem不存在就返回一个空数组 window.l ...
使用Java实现图像分割
为减少动画制作过程中的IO操作,我们可以使用连续动画来改善动画播放效率.如果我们对图像中的每张小图像单独分割成独立的文件,那么当每次要使用这些小图像的时候,我们都得从文件中读取图像信息. 实际上我们可 ...
【152】C# 操作 Excel 杂记
前面写了一篇博文是关于 C# 操作 Excel 的文章,但是里面有些中规中矩,搞的我不知道怎么写了,所以另开一帖.. 注意:基本应用如下所示! //首先是引用 using Excel = Micros ...
J20170602-ts
アソシエーション association n. 联想; 协会,社团; 联合,联系; アンケート英文是questionnaire
（数论）51NOD 1135 原根
设m是正整数,a是整数,若a模m的阶等于φ(m),则称a为模m的一个原根.(其中φ(m)表示m的欧拉函数) 给出1个质数P,找出P最小的原根. Input 输入1个质数P(3 <= P &l ...
Office Excel的几个快捷键记录
Office Excel的几个快捷键记录: 切换Sheet:CTRL + PageUP/PageDown 另存为:F12

SIMD学习 -- 用SSE2指令作点乘和累加计算

SIMD学习 -- 用SSE2指令作点乘和累加计算的更多相关文章

随机推荐

热门专题