#include <intrin.h>
#include <math.h> struct Vector4
{
float x, y, z, w;
}; struct Matrix
{
float _M[][]; public: //单位化
void Identity()
{
ZeroMemory((void*)_M,sizeof(float)*);
_M[][] = 1.0f;
_M[][] = 1.0f;
_M[][] = 1.0f;
_M[][] = 1.0f;
} //转置矩阵
Matrix Transpose()
{
Matrix ret;
ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][]; ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][]; ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][]; ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][];
ret._M[][] = _M[][];
return ret;
}
}; float Sum(const Vector4 & arg1)
{ return arg1.x + arg1.y + arg1.z + arg1.w; } Vector4 Normaliz(Vector4 v1)
{
Vector4 v2;
float k = /sqrtf(v1.x * v1.x + v1.y * v1.y + v1.z * v1.z);
v2.x = v1.x * k;
v2.y = v1.y * k;
v2.z = v1.z * k;
return v2;
} //向量相加
Vector4 SSE_VectiorAdd ( const Vector4 &Op_A, const Vector4 &Op_B )
{
Vector4 Ret_Vector; __asm
{
MOV EAX, Op_A // Load pointers into CPU regs
MOV EBX, Op_B MOVUPS XMM0, [EAX] // Move unaligned vectors to SSE regs
MOVUPS XMM1, [EBX] ADDPS XMM0, XMM1 // v1 + v2
MOVUPS [Ret_Vector], XMM0 // Save the return vector
} return Ret_Vector;
} //向量叉乘
Vector4 SSE_VectorCross(const Vector4 &Op_A, const Vector4 &Op_B)
{
Vector4 Ret_Vector;
__asm
{
MOV EAX, Op_A // Load pointers into CPU regs
MOV EBX, Op_B MOVUPS XMM0, [EAX] // Move unaligned vectors to SSE regs
MOVUPS XMM1, [EBX]
MOVAPS XMM2, XMM0 // Make a copy of vector A
MOVAPS XMM3, XMM1 // Make a copy of vector B SHUFPS XMM0, XMM0, 0xD8 // 11 01 10 00 Flip the middle elements of A
SHUFPS XMM1, XMM1, 0xE1 // 11 10 00 01 Flip first two elements of B
MULPS XMM0, XMM1 // Multiply the modified register vectors SHUFPS XMM2, XMM2, 0xE1 // 11 10 00 01 Flip first two elements of the A copy
SHUFPS XMM3, XMM3, 0xD8 // 11 01 10 00 Flip the middle elements of the B copy
MULPS XMM2, XMM3 // Multiply the modified register vectors SUBPS XMM0, XMM2 // Subtract the two resulting register vectors MOVUPS [Ret_Vector], XMM0 // Save the return vector
}
return Ret_Vector;
} //向量缩放
Vector4 SSE_VectorScale(const Vector4 &Op_A, const float &Op_B)
{
Vector4 Ret_Vector; __m128 F = _mm_set1_ps(Op_B); // Create a 128 bit vector with four elements Op_B __asm
{
MOV EAX, Op_A // Load pointer into CPU reg
MOVUPS XMM0, [EAX] // Move the vector to an SSE reg
MULPS XMM0, F // Multiply vectors
MOVUPS [Ret_Vector], XMM0 // Save the return vector
}
return Ret_Vector;
} void SSE_VectorDot(const Vector4 &Op_A, const Vector4 &Op_B,float& ret)
{
Vector4 v1; //__m128 F = _mm_set1_ps(Op_B); // Create a 128 bit vector with four elements Op_B __asm
{
MOV EAX, Op_A // Load pointer into CPU reg
MOV EBX, Op_B
MOVUPS XMM1, [EBX]
MOVUPS XMM0, [EAX] // Move the vector to an SSE reg
MULPS XMM0,XMM1 // Multiply vectors
MOVUPS [v1], XMM0 // Save the return vector
} ret = v1.x + v1.y + v1.z; } void SSE_VectorMultiplyMatrix(const Vector4& v,const Matrix& m1,Vector4& ret)
{
Vector4 va,vb,vc,vd;
Vector4 *pva,*pvb,*pvc,*pvd;
const Vector4 *pv; //取出矩阵每一列
va.x = m1._M[][];
va.y = m1._M[][];
va.z = m1._M[][];
va.w = m1._M[][]; vb.x = m1._M[][];
vb.y = m1._M[][];
vb.z = m1._M[][];
vb.w = m1._M[][]; vc.x = m1._M[][];
vc.y = m1._M[][];
vc.z = m1._M[][];
vc.w = m1._M[][]; vd.x = m1._M[][];
vd.y = m1._M[][];
vd.z = m1._M[][];
vd.w = m1._M[][]; pva = &va;
pvb = &vb;
pvc = &vc;
pvd = &vd;
pv = &v;
__asm
{
//矩阵四列放入mmx0-mmx3
MOV EAX, pva // Load pointer into CPU reg
MOVUPS XMM0, [EAX]
MOV EAX, pvb // Load pointer into CPU reg
MOVUPS XMM1, [EAX]
MOV EAX, pvc // Load pointer into CPU reg
MOVUPS XMM2, [EAX]
MOV EAX, pvd // Load pointer into CPU reg
MOVUPS XMM3, [EAX] //向量放入 mmx4
MOV EAX, pv
MOVUPS XMM4, [EAX] //向量点乘矩阵每列
MULPS XMM0,XMM4
MULPS XMM1,XMM4
MULPS XMM2,XMM4
MULPS XMM3,XMM4 //输出四个分量
MOVUPS [va], XMM0
MOVUPS [vb], XMM1
MOVUPS [vc], XMM2
MOVUPS [vd], XMM3
} //四个分量求和得变换后向量
ret.x = va.w + va.x + va.y + va.z;
ret.y = vb.w + vb.x + vb.y + vb.z;
ret.z = vc.w + vc.x + vc.y + vc.z;
ret.w = vd.w + vd.x + vd.y + vd.z; } void SSE_MatrixMultiplyMatrix(const Matrix& arg1,const Matrix& arg2,Matrix & ret)
{
Matrix m1,m2;
Vector4 v1,v2,v3,v4,v5,v6,v7,v8,v9,v10,v11,v12,v13,v14,v15,v16;
Vector4 *pv1,*pv2,*pv3,*pv4,*pv5,*pv6,*pv7,*pv8;
m1 = arg1;
m2 = arg2;
m2 = m2.Transpose(); pv1 = (Vector4*)&m1._M[][];
pv2 = (Vector4*)&m1._M[][];
pv3 = (Vector4*)&m1._M[][];
pv4 = (Vector4*)&m1._M[][]; pv5 = (Vector4*)&m2._M[][];
pv6 = (Vector4*)&m2._M[][];
pv7 = (Vector4*)&m2._M[][];
pv8 = (Vector4*)&m2._M[][]; __asm
{
MOV EAX, pv5
MOV EBX, pv6
MOV ECX, pv7
MOV EDX, pv8
MOVUPS XMM1, [EAX]
MOVUPS XMM2, [EBX]
MOVUPS XMM3, [ECX]
MOVUPS XMM4, [EDX]
MOV EAX, pv1
MOVUPS XMM0, [EAX] MULPS XMM1, XMM0
MOVUPS[v1], XMM1
MULPS XMM2, XMM0
MOVUPS[v2], XMM2
MULPS XMM3, XMM0
MOVUPS[v3], XMM3
MULPS XMM4, XMM0
MOVUPS[v4], XMM4 MOV EAX, pv5
MOV EBX, pv6
MOV ECX, pv7
MOV EDX, pv8
MOVUPS XMM1, [EAX]
MOVUPS XMM2, [EBX]
MOVUPS XMM3, [ECX]
MOVUPS XMM4, [EDX]
MOV EAX, pv2
MOVUPS XMM0, [EAX]
MULPS XMM1, XMM0
MOVUPS[v5], XMM1
MULPS XMM2, XMM0
MOVUPS[v6], XMM2
MULPS XMM3, XMM0
MOVUPS[v7], XMM3
MULPS XMM4, XMM0
MOVUPS[v8], XMM4 MOV EAX, pv5
MOV EBX, pv6
MOV ECX, pv7
MOV EDX, pv8
MOVUPS XMM1, [EAX]
MOVUPS XMM2, [EBX]
MOVUPS XMM3, [ECX]
MOVUPS XMM4, [EDX]
MOV EAX, pv3
MOVUPS XMM0, [EAX]
MULPS XMM1, XMM0
MOVUPS[v9], XMM1
MULPS XMM2, XMM0
MOVUPS[v10], XMM2
MULPS XMM3, XMM0
MOVUPS[v11], XMM3
MULPS XMM4, XMM0
MOVUPS[v12], XMM4 MOV EAX, pv5
MOV EBX, pv6
MOV ECX, pv7
MOV EDX, pv8
MOVUPS XMM1, [EAX]
MOVUPS XMM2, [EBX]
MOVUPS XMM3, [ECX]
MOVUPS XMM4, [EDX]
MOV EAX, pv4
MOVUPS XMM0, [EAX]
MULPS XMM1, XMM0
MOVUPS[v13], XMM1
MULPS XMM2, XMM0
MOVUPS[v14], XMM2
MULPS XMM3, XMM0
MOVUPS[v15], XMM3
MULPS XMM4, XMM0
MOVUPS[v16], XMM4
} ret._M[][] = Sum(v1);
ret._M[][] = Sum(v2);
ret._M[][] = Sum(v3);
ret._M[][] = Sum(v4); ret._M[][] = Sum(v5);
ret._M[][] = Sum(v6);
ret._M[][] = Sum(v7);
ret._M[][] = Sum(v8); ret._M[][] = Sum(v9);
ret._M[][] = Sum(v10);
ret._M[][] = Sum(v11);
ret._M[][] = Sum(v12); ret._M[][] = Sum(v13);
ret._M[][] = Sum(v14);
ret._M[][] = Sum(v15);
ret._M[][] = Sum(v16); return;
}
 
 
 
#include <Windows.h>
#include <iostream>
#include <math.h>
#include "sse.h" using namespace std; void main(int argc, char **argv)
{ Matrix m1,m2,mRet;
m1.Identity();
m2.Identity();
float time;
time = GetTickCount(); for (int t = ; t < ; t++)
{
SSE_MatrixMultiplyMatrix(m1,m2,mRet);
} time = GetTickCount() - time;
_asm {
int
}
return;
}

sse矩阵乘法 应该是1毫秒纯运算1000次的更多相关文章

  1. hdu 5068(线段树+矩阵乘法)

    矩阵乘法来进行所有路径的运算, 线段树来查询修改. 关键还是矩阵乘法的结合律. Harry And Math Teacher Time Limit: 5000/3000 MS (Java/Others ...

  2. Codeforces 576D - Flights for Regular Customers(bitset 优化广义矩阵乘法)

    题面传送门 题意: 有一张 \(n\) 个点 \(m\) 条边的有向图,你初始在 \(1\) 号点,边上有边权 \(c_i\) 表示只有当你经过至少 \(c_i\) 条边的时候你才能经过第 \(i\) ...

  3. [转]OpenBLAS项目与矩阵乘法优化

    课程内容 OpenBLAS项目介绍 矩阵乘法优化算法 一步步调优实现 以下为公开课完整视频,共64分钟: 以下为公开课内容的文字及 PPT 整理. 雷锋网的朋友们大家好,我是张先轶,今天主要介绍一下我 ...

  4. OpenGL学习进程(12)第九课:矩阵乘法实现3D变换

    本节是OpenGL学习的第九个课时,下面将详细介绍OpenGL的多种3D变换和如何操作矩阵堆栈.     (1)3D变换: OpenGL中绘制3D世界的空间变换包括:模型变换.视图变换.投影变换和视口 ...

  5. 【模拟题(电子科大MaxKU)】解题报告【树形问题】【矩阵乘法】【快速幂】【数论】

    目录: 1:一道简单题[树形问题](Bzoj 1827 奶牛大集会) 2:一道更简单题[矩阵乘法][快速幂] 3:最简单题[技巧] 话说这些题目的名字也是够了.... 题目: 1.一道简单题 时间1s ...

  6. OpenCL 矩阵乘法

    ▶ 矩阵乘法,按照书里的内容进行了几方面的优化,包括局部内存,矢量数据类型,寄存器,流水线等. ● 最直接的乘法.调用时 main.c 中使用 size_t globalSize[] = { rowA ...

  7. *HDU2254 矩阵乘法

    奥运 Time Limit: 1000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others)Total Submissi ...

  8. *HDU 1757 矩阵乘法

    A Simple Math Problem Time Limit: 3000/1000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Ot ...

  9. CH Round #30 摆花[矩阵乘法]

    摆花 CH Round #30 - 清明欢乐赛 背景及描述 艺术馆门前将摆出许多花,一共有n个位置排成一排,每个位置可以摆花也可以不摆花.有些花如果摆在相邻的位置(隔着一个空的位置不算相邻),就不好看 ...

随机推荐

  1. 【Mac】【创建钥匙串】

    1 Mac在钥匙串创建系统证书失败 https://blog.csdn.net/lllkey/article/details/79423596 问题: 在Eclipse的Debug,使用gdb的时候, ...

  2. Python的几个爬虫代码整理(网易云、微信、淘宝、今日头条)

    整理了一下网易云歌曲评论抓取.分析好友信息抓取.淘宝宝贝抓取.今日头条美图抓取的一些代码 抓取网易云评论 进入歌曲界面: http://music.163.com/#/song?id=45318582 ...

  3. 自定义Cordova插件(基础篇)

    cordova自定义插件 注意:存放自定义cordova插件目录不能有空格可能会报错 cordova的安装 下载node.js,安装完成后你可以在命令行中使用node和npm. 安装cordova使用 ...

  4. 关于两栏布局,三栏布局,一级点击三角触发select的onchange事件问题

    首先看这样一个效果:,这个截图来自移动端的列表的一整行,在这个效果当中,存在两个技术点,首先选择祝福卡这个宽度是一定的,右边的部分,宽度随着手机屏幕的宽度而自适应,再一个技术点就是点击最右侧向下箭头, ...

  5. (最完美)红米手机5的Usb调试模式在哪里打开的教程

    就在我们使用安卓手机接通PC的时候,或者使用的有些app比如我们企业营销部门就在使用的app引号精灵,之前老版本就需要开启usb开发者调试模式下使用,现就在新版本不需要了,如果手机没有开启usb开发者 ...

  6. 【Java】【11】String数组和List相互转换

    正文: 1,String[]转List String[] strs = {"aa", "bb", "cc"}; //String数组 //方 ...

  7. multi lstm attention 坑一个

    multi lstm attention时序之间,inputs维度是1024,加上attention之后维度是2018,输出1024,时序之间下次再转成2048的inputs 但是如果使用multi ...

  8. 一些重要的k8s概念

    1. Pause容器是什么 作为init pod存在,其他pod都会从pause 容器中fork出来 由pause容器管理 pause容器的工作 可知kubernetes的pod抽象基于Linux的n ...

  9. Spring教程笔记(2) IOC

    Ioc—Inversion of Control,即“控制反转”,不是什么技术,而是一种设计思想,一个重要的面向对象编程的法则,它能指导我们如何设计出松耦合.更优良的程序. 在Java开发中,Ioc意 ...

  10. 从零开始学Python 三(网络爬虫)

    本章由网络爬虫的编写来学习python.首先写几行代码抓取百度首页,提提精神,代码如下: import urllib.request file=urllib.request.urlopen(" ...