sse矩阵乘法应该是1毫秒纯运算1000次

#include <intrin.h>

#include <math.h>

struct Vector4

{

    float x, y, z, w;

};

struct Matrix

{

    float _M[][];

public:

    //单位化

    void Identity()

    {

        ZeroMemory((void*)_M,sizeof(float)*);

        _M[][] = 1.0f;

        _M[][] = 1.0f;

        _M[][] = 1.0f;

        _M[][] = 1.0f;

    }

    //转置矩阵

    Matrix Transpose()

    {

        Matrix ret;

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        return ret;

    }

};

float Sum(const Vector4 & arg1)

{

    return arg1.x + arg1.y + arg1.z + arg1.w;

}

Vector4 Normaliz(Vector4 v1)

{

    Vector4 v2;

    float k = /sqrtf(v1.x * v1.x + v1.y * v1.y + v1.z * v1.z);

    v2.x = v1.x * k;

    v2.y = v1.y * k;

    v2.z = v1.z * k;

    return v2;

}

//向量相加

Vector4 SSE_VectiorAdd ( const Vector4 &Op_A, const Vector4 &Op_B )

{

    Vector4 Ret_Vector;

    __asm

    {

        MOV EAX, Op_A                              // Load pointers into CPU regs

        MOV EBX, Op_B

        MOVUPS XMM0, [EAX]                 // Move unaligned vectors to SSE regs

        MOVUPS XMM1, [EBX]

        ADDPS XMM0, XMM1                   // v1 + v2

        MOVUPS [Ret_Vector], XMM0      // Save the return vector

    }

    return Ret_Vector;

}

//向量叉乘

Vector4 SSE_VectorCross(const Vector4 &Op_A, const Vector4 &Op_B)

{

    Vector4 Ret_Vector;

    __asm

    {

        MOV EAX, Op_A                               // Load pointers into CPU regs

        MOV EBX, Op_B

        MOVUPS XMM0, [EAX]                 // Move unaligned vectors to SSE regs

        MOVUPS XMM1, [EBX]

        MOVAPS XMM2, XMM0               // Make a copy of vector A

        MOVAPS XMM3, XMM1               // Make a copy of vector B

        SHUFPS XMM0, XMM0, 0xD8      // 11 01 10 00  Flip the middle elements of A

        SHUFPS XMM1, XMM1, 0xE1       // 11 10 00 01 Flip first two elements of B

        MULPS  XMM0, XMM1                 // Multiply the modified register vectors

        SHUFPS XMM2, XMM2, 0xE1      // 11 10 00 01 Flip first two elements of the A copy

        SHUFPS XMM3, XMM3, 0xD8     // 11 01 10 00  Flip the middle elements of the B copy

        MULPS XMM2, XMM3                 // Multiply the modified register vectors

        SUBPS  XMM0, XMM2                  // Subtract the two resulting register vectors

        MOVUPS [Ret_Vector], XMM0      // Save the return vector

    }

    return Ret_Vector;

}

//向量缩放

Vector4 SSE_VectorScale(const Vector4 &Op_A, const float &Op_B)

{

    Vector4 Ret_Vector;

    __m128 F = _mm_set1_ps(Op_B);             // Create a 128 bit vector with four elements Op_B

    __asm

    {

        MOV EAX, Op_A                           // Load pointer into CPU reg

        MOVUPS XMM0, [EAX]                   // Move the vector  to an SSE reg

        MULPS XMM0, F                               // Multiply vectors

        MOVUPS [Ret_Vector], XMM0       // Save the return vector

    }

    return Ret_Vector;

}

void SSE_VectorDot(const Vector4 &Op_A, const Vector4 &Op_B,float& ret)

{

    Vector4 v1;

    //__m128 F = _mm_set1_ps(Op_B);             // Create a 128 bit vector with four elements Op_B

    __asm

    {

        MOV EAX, Op_A                           // Load pointer into CPU reg

        MOV EBX, Op_B

        MOVUPS XMM1, [EBX]

        MOVUPS XMM0, [EAX]                   // Move the vector  to an SSE reg

        MULPS XMM0,XMM1                                // Multiply vectors

        MOVUPS [v1], XMM0       // Save the return vector

    }

    ret = v1.x + v1.y + v1.z;

}

void SSE_VectorMultiplyMatrix(const Vector4& v,const Matrix& m1,Vector4& ret)

{

    Vector4 va,vb,vc,vd;

    Vector4 *pva,*pvb,*pvc,*pvd;

    const Vector4 *pv;

    //取出矩阵每一列

    va.x = m1._M[][];

    va.y = m1._M[][];

    va.z = m1._M[][];

    va.w = m1._M[][];

    vb.x = m1._M[][];

    vb.y = m1._M[][];

    vb.z = m1._M[][];

    vb.w = m1._M[][];

    vc.x = m1._M[][];

    vc.y = m1._M[][];

    vc.z = m1._M[][];

    vc.w = m1._M[][];

    vd.x = m1._M[][];

    vd.y = m1._M[][];

    vd.z = m1._M[][];

    vd.w = m1._M[][];

    pva = &va;

    pvb = &vb;

    pvc = &vc;

    pvd = &vd;

    pv = &v;

    __asm

    {

        //矩阵四列放入mmx0-mmx3

        MOV EAX, pva                           // Load pointer into CPU reg

        MOVUPS XMM0, [EAX]

        MOV EAX, pvb                           // Load pointer into CPU reg

        MOVUPS XMM1, [EAX]

        MOV EAX, pvc                           // Load pointer into CPU reg

        MOVUPS XMM2, [EAX]

        MOV EAX, pvd                           // Load pointer into CPU reg

        MOVUPS XMM3, [EAX]

        //向量放入 mmx4

        MOV EAX, pv

        MOVUPS XMM4, [EAX]

        //向量点乘矩阵每列

        MULPS XMM0,XMM4

        MULPS XMM1,XMM4

        MULPS XMM2,XMM4

        MULPS XMM3,XMM4 

        //输出四个分量

        MOVUPS [va], XMM0

        MOVUPS [vb], XMM1

        MOVUPS [vc], XMM2

        MOVUPS [vd], XMM3

    }

    //四个分量求和得变换后向量

    ret.x = va.w + va.x + va.y + va.z;

    ret.y = vb.w + vb.x + vb.y + vb.z;

    ret.z = vc.w + vc.x + vc.y + vc.z;

    ret.w = vd.w + vd.x + vd.y + vd.z;

}

void SSE_MatrixMultiplyMatrix(const Matrix& arg1,const Matrix& arg2,Matrix & ret)

{

    Matrix m1,m2;

    Vector4 v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15,v16;

    Vector4 *pv1,*pv2,*pv3,*pv4,*pv5,*pv6,*pv7,*pv8;

    m1 = arg1;

    m2 = arg2;

    m2 = m2.Transpose();

    pv1 = (Vector4*)&m1._M[][];

    pv2 = (Vector4*)&m1._M[][];

    pv3 = (Vector4*)&m1._M[][];

    pv4 = (Vector4*)&m1._M[][];

    pv5 = (Vector4*)&m2._M[][];

    pv6 = (Vector4*)&m2._M[][];

    pv7 = (Vector4*)&m2._M[][];

    pv8 = (Vector4*)&m2._M[][];

    __asm

    {

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv1

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v1], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v2], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v3], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v4], XMM4

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv2

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v5], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v6], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v7], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v8], XMM4

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv3

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v9], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v10], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v11], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v12], XMM4

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv4

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v13], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v14], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v15], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v16], XMM4

    }

    ret._M[][] = Sum(v1);

    ret._M[][] = Sum(v2);

    ret._M[][] = Sum(v3);

    ret._M[][] = Sum(v4);

    ret._M[][] = Sum(v5);

    ret._M[][] = Sum(v6);

    ret._M[][] = Sum(v7);

    ret._M[][] = Sum(v8);

    ret._M[][] = Sum(v9);

    ret._M[][] = Sum(v10);

    ret._M[][] = Sum(v11);

    ret._M[][] = Sum(v12);

    ret._M[][] = Sum(v13);

    ret._M[][] = Sum(v14);

    ret._M[][] = Sum(v15);

    ret._M[][] = Sum(v16);

    return;

}

#include <Windows.h>

#include <iostream>

#include <math.h>

#include "sse.h"

using namespace std;

void main(int argc, char **argv)

{

    Matrix m1,m2,mRet;

    m1.Identity();

    m2.Identity();

    float time;

    time = GetTickCount();

    for (int t = ; t < ; t++)

    {

        SSE_MatrixMultiplyMatrix(m1,m2,mRet);

    }

    time = GetTickCount() - time;

    _asm {

    int

    }

    return;

}

sse矩阵乘法应该是1毫秒纯运算1000次的更多相关文章

hdu 5068(线段树+矩阵乘法)
矩阵乘法来进行所有路径的运算, 线段树来查询修改. 关键还是矩阵乘法的结合律. Harry And Math Teacher Time Limit: 5000/3000 MS (Java/Others ...
Codeforces 576D - Flights for Regular Customers（bitset 优化广义矩阵乘法）
题面传送门题意: 有一张 \(n\) 个点 \(m\) 条边的有向图,你初始在 \(1\) 号点,边上有边权 \(c_i\) 表示只有当你经过至少 \(c_i\) 条边的时候你才能经过第 \(i\) ...
[转]OpenBLAS项目与矩阵乘法优化
课程内容 OpenBLAS项目介绍矩阵乘法优化算法一步步调优实现以下为公开课完整视频,共64分钟: 以下为公开课内容的文字及 PPT 整理. 雷锋网的朋友们大家好,我是张先轶,今天主要介绍一下我 ...
OpenGL学习进程（12）第九课：矩阵乘法实现3D变换
本节是OpenGL学习的第九个课时,下面将详细介绍OpenGL的多种3D变换和如何操作矩阵堆栈. (1)3D变换: OpenGL中绘制3D世界的空间变换包括:模型变换.视图变换.投影变换和视口 ...
【模拟题(电子科大MaxKU)】解题报告【树形问题】【矩阵乘法】【快速幂】【数论】
目录: 1:一道简单题[树形问题](Bzoj 1827 奶牛大集会) 2:一道更简单题[矩阵乘法][快速幂] 3:最简单题[技巧] 话说这些题目的名字也是够了.... 题目: 1.一道简单题时间1s ...
OpenCL 矩阵乘法
▶ 矩阵乘法,按照书里的内容进行了几方面的优化,包括局部内存,矢量数据类型,寄存器,流水线等. ● 最直接的乘法.调用时 main.c 中使用 size_t globalSize[] = { rowA ...
*HDU2254 矩阵乘法
奥运 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submissi ...
*HDU 1757 矩阵乘法
A Simple Math Problem Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
CH Round #30 摆花[矩阵乘法]
摆花 CH Round #30 - 清明欢乐赛背景及描述艺术馆门前将摆出许多花,一共有n个位置排成一排,每个位置可以摆花也可以不摆花.有些花如果摆在相邻的位置(隔着一个空的位置不算相邻),就不好看 ...

随机推荐

【Mac】【创建钥匙串】
1 Mac在钥匙串创建系统证书失败 https://blog.csdn.net/lllkey/article/details/79423596 问题: 在Eclipse的Debug,使用gdb的时候, ...
Python的几个爬虫代码整理（网易云、微信、淘宝、今日头条）
整理了一下网易云歌曲评论抓取.分析好友信息抓取.淘宝宝贝抓取.今日头条美图抓取的一些代码抓取网易云评论进入歌曲界面: http://music.163.com/#/song?id=45318582 ...
自定义Cordova插件（基础篇）
cordova自定义插件注意:存放自定义cordova插件目录不能有空格可能会报错 cordova的安装下载node.js,安装完成后你可以在命令行中使用node和npm. 安装cordova使用 ...
关于两栏布局，三栏布局，一级点击三角触发select的onchange事件问题
首先看这样一个效果:,这个截图来自移动端的列表的一整行,在这个效果当中,存在两个技术点,首先选择祝福卡这个宽度是一定的,右边的部分,宽度随着手机屏幕的宽度而自适应,再一个技术点就是点击最右侧向下箭头, ...
(最完美)红米手机5的Usb调试模式在哪里打开的教程
就在我们使用安卓手机接通PC的时候,或者使用的有些app比如我们企业营销部门就在使用的app引号精灵,之前老版本就需要开启usb开发者调试模式下使用,现就在新版本不需要了,如果手机没有开启usb开发者 ...
【Java】【11】String数组和List相互转换
正文: 1,String[]转List String[] strs = {"aa", "bb", "cc"}; //String数组 //方 ...
multi lstm attention 坑一个
multi lstm attention时序之间,inputs维度是1024,加上attention之后维度是2018,输出1024,时序之间下次再转成2048的inputs 但是如果使用multi ...
一些重要的k8s概念
1. Pause容器是什么作为init pod存在,其他pod都会从pause 容器中fork出来由pause容器管理 pause容器的工作可知kubernetes的pod抽象基于Linux的n ...
Spring教程笔记（2） IOC
Ioc—Inversion of Control,即“控制反转”,不是什么技术,而是一种设计思想,一个重要的面向对象编程的法则,它能指导我们如何设计出松耦合.更优良的程序. 在Java开发中,Ioc意 ...
从零开始学Python 三（网络爬虫）
本章由网络爬虫的编写来学习python.首先写几行代码抓取百度首页,提提精神,代码如下: import urllib.request file=urllib.request.urlopen(" ...

sse矩阵乘法 应该是1毫秒纯运算1000次

sse矩阵乘法 应该是1毫秒纯运算1000次的更多相关文章

随机推荐

热门专题

sse矩阵乘法应该是1毫秒纯运算1000次

sse矩阵乘法应该是1毫秒纯运算1000次的更多相关文章