sse矩阵乘法应该是1毫秒纯运算1000次

#include <intrin.h>

#include <math.h>

struct Vector4

{

    float x, y, z, w;

};

struct Matrix

{

    float _M[][];

public:

    //单位化

    void Identity()

    {

        ZeroMemory((void*)_M,sizeof(float)*);

        _M[][] = 1.0f;

        _M[][] = 1.0f;

        _M[][] = 1.0f;

        _M[][] = 1.0f;

    }

    //转置矩阵

    Matrix Transpose()

    {

        Matrix ret;

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        ret._M[][] = _M[][];

        return ret;

    }

};

float Sum(const Vector4 & arg1)

{

    return arg1.x + arg1.y + arg1.z + arg1.w;

}

Vector4 Normaliz(Vector4 v1)

{

    Vector4 v2;

    float k = /sqrtf(v1.x * v1.x + v1.y * v1.y + v1.z * v1.z);

    v2.x = v1.x * k;

    v2.y = v1.y * k;

    v2.z = v1.z * k;

    return v2;

}

//向量相加

Vector4 SSE_VectiorAdd ( const Vector4 &Op_A, const Vector4 &Op_B )

{

    Vector4 Ret_Vector;

    __asm

    {

        MOV EAX, Op_A                              // Load pointers into CPU regs

        MOV EBX, Op_B

        MOVUPS XMM0, [EAX]                 // Move unaligned vectors to SSE regs

        MOVUPS XMM1, [EBX]

        ADDPS XMM0, XMM1                   // v1 + v2

        MOVUPS [Ret_Vector], XMM0      // Save the return vector

    }

    return Ret_Vector;

}

//向量叉乘

Vector4 SSE_VectorCross(const Vector4 &Op_A, const Vector4 &Op_B)

{

    Vector4 Ret_Vector;

    __asm

    {

        MOV EAX, Op_A                               // Load pointers into CPU regs

        MOV EBX, Op_B

        MOVUPS XMM0, [EAX]                 // Move unaligned vectors to SSE regs

        MOVUPS XMM1, [EBX]

        MOVAPS XMM2, XMM0               // Make a copy of vector A

        MOVAPS XMM3, XMM1               // Make a copy of vector B

        SHUFPS XMM0, XMM0, 0xD8      // 11 01 10 00  Flip the middle elements of A

        SHUFPS XMM1, XMM1, 0xE1       // 11 10 00 01 Flip first two elements of B

        MULPS  XMM0, XMM1                 // Multiply the modified register vectors

        SHUFPS XMM2, XMM2, 0xE1      // 11 10 00 01 Flip first two elements of the A copy

        SHUFPS XMM3, XMM3, 0xD8     // 11 01 10 00  Flip the middle elements of the B copy

        MULPS XMM2, XMM3                 // Multiply the modified register vectors

        SUBPS  XMM0, XMM2                  // Subtract the two resulting register vectors

        MOVUPS [Ret_Vector], XMM0      // Save the return vector

    }

    return Ret_Vector;

}

//向量缩放

Vector4 SSE_VectorScale(const Vector4 &Op_A, const float &Op_B)

{

    Vector4 Ret_Vector;

    __m128 F = _mm_set1_ps(Op_B);             // Create a 128 bit vector with four elements Op_B

    __asm

    {

        MOV EAX, Op_A                           // Load pointer into CPU reg

        MOVUPS XMM0, [EAX]                   // Move the vector  to an SSE reg

        MULPS XMM0, F                               // Multiply vectors

        MOVUPS [Ret_Vector], XMM0       // Save the return vector

    }

    return Ret_Vector;

}

void SSE_VectorDot(const Vector4 &Op_A, const Vector4 &Op_B,float& ret)

{

    Vector4 v1;

    //__m128 F = _mm_set1_ps(Op_B);             // Create a 128 bit vector with four elements Op_B

    __asm

    {

        MOV EAX, Op_A                           // Load pointer into CPU reg

        MOV EBX, Op_B

        MOVUPS XMM1, [EBX]

        MOVUPS XMM0, [EAX]                   // Move the vector  to an SSE reg

        MULPS XMM0,XMM1                                // Multiply vectors

        MOVUPS [v1], XMM0       // Save the return vector

    }

    ret = v1.x + v1.y + v1.z;

}

void SSE_VectorMultiplyMatrix(const Vector4& v,const Matrix& m1,Vector4& ret)

{

    Vector4 va,vb,vc,vd;

    Vector4 *pva,*pvb,*pvc,*pvd;

    const Vector4 *pv;

    //取出矩阵每一列

    va.x = m1._M[][];

    va.y = m1._M[][];

    va.z = m1._M[][];

    va.w = m1._M[][];

    vb.x = m1._M[][];

    vb.y = m1._M[][];

    vb.z = m1._M[][];

    vb.w = m1._M[][];

    vc.x = m1._M[][];

    vc.y = m1._M[][];

    vc.z = m1._M[][];

    vc.w = m1._M[][];

    vd.x = m1._M[][];

    vd.y = m1._M[][];

    vd.z = m1._M[][];

    vd.w = m1._M[][];

    pva = &va;

    pvb = &vb;

    pvc = &vc;

    pvd = &vd;

    pv = &v;

    __asm

    {

        //矩阵四列放入mmx0-mmx3

        MOV EAX, pva                           // Load pointer into CPU reg

        MOVUPS XMM0, [EAX]

        MOV EAX, pvb                           // Load pointer into CPU reg

        MOVUPS XMM1, [EAX]

        MOV EAX, pvc                           // Load pointer into CPU reg

        MOVUPS XMM2, [EAX]

        MOV EAX, pvd                           // Load pointer into CPU reg

        MOVUPS XMM3, [EAX]

        //向量放入 mmx4

        MOV EAX, pv

        MOVUPS XMM4, [EAX]

        //向量点乘矩阵每列

        MULPS XMM0,XMM4

        MULPS XMM1,XMM4

        MULPS XMM2,XMM4

        MULPS XMM3,XMM4 

        //输出四个分量

        MOVUPS [va], XMM0

        MOVUPS [vb], XMM1

        MOVUPS [vc], XMM2

        MOVUPS [vd], XMM3

    }

    //四个分量求和得变换后向量

    ret.x = va.w + va.x + va.y + va.z;

    ret.y = vb.w + vb.x + vb.y + vb.z;

    ret.z = vc.w + vc.x + vc.y + vc.z;

    ret.w = vd.w + vd.x + vd.y + vd.z;

}

void SSE_MatrixMultiplyMatrix(const Matrix& arg1,const Matrix& arg2,Matrix & ret)

{

    Matrix m1,m2;

    Vector4 v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15,v16;

    Vector4 *pv1,*pv2,*pv3,*pv4,*pv5,*pv6,*pv7,*pv8;

    m1 = arg1;

    m2 = arg2;

    m2 = m2.Transpose();

    pv1 = (Vector4*)&m1._M[][];

    pv2 = (Vector4*)&m1._M[][];

    pv3 = (Vector4*)&m1._M[][];

    pv4 = (Vector4*)&m1._M[][];

    pv5 = (Vector4*)&m2._M[][];

    pv6 = (Vector4*)&m2._M[][];

    pv7 = (Vector4*)&m2._M[][];

    pv8 = (Vector4*)&m2._M[][];

    __asm

    {

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv1

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v1], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v2], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v3], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v4], XMM4

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv2

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v5], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v6], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v7], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v8], XMM4

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv3

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v9], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v10], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v11], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v12], XMM4

        MOV EAX, pv5

        MOV EBX, pv6

        MOV ECX, pv7

        MOV EDX, pv8

        MOVUPS XMM1, [EAX]

        MOVUPS XMM2, [EBX]

        MOVUPS XMM3, [ECX]

        MOVUPS XMM4, [EDX]

        MOV EAX, pv4

        MOVUPS XMM0, [EAX]

        MULPS XMM1, XMM0

        MOVUPS[v13], XMM1

        MULPS XMM2, XMM0

        MOVUPS[v14], XMM2

        MULPS XMM3, XMM0

        MOVUPS[v15], XMM3

        MULPS XMM4, XMM0

        MOVUPS[v16], XMM4

    }

    ret._M[][] = Sum(v1);

    ret._M[][] = Sum(v2);

    ret._M[][] = Sum(v3);

    ret._M[][] = Sum(v4);

    ret._M[][] = Sum(v5);

    ret._M[][] = Sum(v6);

    ret._M[][] = Sum(v7);

    ret._M[][] = Sum(v8);

    ret._M[][] = Sum(v9);

    ret._M[][] = Sum(v10);

    ret._M[][] = Sum(v11);

    ret._M[][] = Sum(v12);

    ret._M[][] = Sum(v13);

    ret._M[][] = Sum(v14);

    ret._M[][] = Sum(v15);

    ret._M[][] = Sum(v16);

    return;

}

#include <Windows.h>

#include <iostream>

#include <math.h>

#include "sse.h"

using namespace std;

void main(int argc, char **argv)

{

    Matrix m1,m2,mRet;

    m1.Identity();

    m2.Identity();

    float time;

    time = GetTickCount();

    for (int t = ; t < ; t++)

    {

        SSE_MatrixMultiplyMatrix(m1,m2,mRet);

    }

    time = GetTickCount() - time;

    _asm {

    int

    }

    return;

}

sse矩阵乘法应该是1毫秒纯运算1000次的更多相关文章

hdu 5068(线段树+矩阵乘法)
矩阵乘法来进行所有路径的运算, 线段树来查询修改. 关键还是矩阵乘法的结合律. Harry And Math Teacher Time Limit: 5000/3000 MS (Java/Others ...
Codeforces 576D - Flights for Regular Customers（bitset 优化广义矩阵乘法）
题面传送门题意: 有一张 \(n\) 个点 \(m\) 条边的有向图,你初始在 \(1\) 号点,边上有边权 \(c_i\) 表示只有当你经过至少 \(c_i\) 条边的时候你才能经过第 \(i\) ...
[转]OpenBLAS项目与矩阵乘法优化
课程内容 OpenBLAS项目介绍矩阵乘法优化算法一步步调优实现以下为公开课完整视频,共64分钟: 以下为公开课内容的文字及 PPT 整理. 雷锋网的朋友们大家好,我是张先轶,今天主要介绍一下我 ...
OpenGL学习进程（12）第九课：矩阵乘法实现3D变换
本节是OpenGL学习的第九个课时,下面将详细介绍OpenGL的多种3D变换和如何操作矩阵堆栈. (1)3D变换: OpenGL中绘制3D世界的空间变换包括:模型变换.视图变换.投影变换和视口 ...
【模拟题(电子科大MaxKU)】解题报告【树形问题】【矩阵乘法】【快速幂】【数论】
目录: 1:一道简单题[树形问题](Bzoj 1827 奶牛大集会) 2:一道更简单题[矩阵乘法][快速幂] 3:最简单题[技巧] 话说这些题目的名字也是够了.... 题目: 1.一道简单题时间1s ...
OpenCL 矩阵乘法
▶ 矩阵乘法,按照书里的内容进行了几方面的优化,包括局部内存,矢量数据类型,寄存器,流水线等. ● 最直接的乘法.调用时 main.c 中使用 size_t globalSize[] = { rowA ...
*HDU2254 矩阵乘法
奥运 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submissi ...
*HDU 1757 矩阵乘法
A Simple Math Problem Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
CH Round #30 摆花[矩阵乘法]
摆花 CH Round #30 - 清明欢乐赛背景及描述艺术馆门前将摆出许多花,一共有n个位置排成一排,每个位置可以摆花也可以不摆花.有些花如果摆在相邻的位置(隔着一个空的位置不算相邻),就不好看 ...

随机推荐

jsp servlet table 集合list 数据绑定
删除前端
在linux上运行网页程序及日志文件查看
(转)通过maven，给没有pom文件的jar包生成pom文件，maven项目引入本地jar包
文章完全转载自 : https://blog.csdn.net/qq_31289187/article/details/81117478 问题一: 经常遇到公司私服或者中央仓库没有的jar包,然后通过 ...
js二分查找算法
二分查找高效的前提是数据结构是有序的.就好比猜1~100之间的数,先猜50,如果太大了就猜25,如果太小了就猜75.每一次都猜最大值和最小值的中间点. 1.随机生成100个0~100之间的随机数. v ...
在线批量将gps经纬度坐标转换为百度经纬度坐标
1.首先打开百度api示例页面: 在浏览器地址栏中输入:http://developer.baidu.com/map/jsdemo.htm#a5_3 2.修改代码如下图,将需要批量转换的坐标,按规则 ...
c#泛型约束 (where T:class)
.NET支持的类型参数约束有以下五种:where T : struct | T必须是一个结构类型where T : class ...
HTML标记
html:超文本标记语言标记,标签,元素单标签:<标签名属性名="属性值" 属性名=“属性值” /> 双标签:<标签名属性名="属性值” 属 ...
什么是，session、cookies、token
在一片文章上看到关于cookies和session 的解释,大概意思是这样的. 说你去星巴克喝咖啡,你平均一星期去两次,你的操作是看菜单,点咖啡.结账加入你三星期不去,店员也许不及得你了,你依旧需要 ...
博弈论初步（SG函数）
讲解见此博客https://blog.csdn.net/strangedbly/article/details/51137432 理解Nim博弈,基于Nim博弈理解SG函数的含义和作用. 学习求解SG ...
虚函数 error LNK2001: 无法解析的外部符号 "public: virtual void __cdecl
在虚函数后面加一对大括号 #ifndef CAFFE_CONV_DW_LAYER_HPP_ #define CAFFE_CONV_DW_LAYER_HPP_ #include <vector&g ...

sse矩阵乘法 应该是1毫秒纯运算1000次

sse矩阵乘法 应该是1毫秒纯运算1000次的更多相关文章

随机推荐

热门专题

sse矩阵乘法应该是1毫秒纯运算1000次

sse矩阵乘法应该是1毫秒纯运算1000次的更多相关文章