intel compiler的表现

好久没弄这个东西，今天突然想试下，代码没写完，以后补。

 #include <stdio.h>

 #include <stdlib.h>

 #include <time.h>

 #include <math.h>

 #include <Windows.h>

 #define M      1024

 float matA[M][M];

 float matB[M][M];

 float matC[M][M];

 void InitMatrix( float* matrixX )

 {

     register int i;

     for ( i = ; i < M * M; i ++ )

     {

         *matrixX ++ = ( float )( rand() %  ) / ;

     }

 }

 void MulMatrix( float* matrixA, float* matrixB, float* matrixC )

 {

     register int i, j, k;

     register float* p, *q, f;

     for ( j = ; j < M; j ++ )

     {

         for ( i = ; i < M; i ++ )

         {

             p = matrixA + j * M;

             q = matrixB + i;

             f = ;

             for ( k = ; k < M; k ++ )

             {

                 f += *p * *q;

                 p ++;

                 q += M;

             }

             matrixC[j * M + i] = f;

         }

     }

 }

 int main()

 {

     DWORD t;

     //register int i, j;

     srand( ( unsigned int )time( NULL ) );

     InitMatrix( ( float* )matA );

     InitMatrix( ( float* )matB );

     t = ::GetTickCount();

     MulMatrix( ( float* )matA, ( float* )matA, ( float* )matC );

     t = ::GetTickCount() - t;

     /*for ( j = 0; j < M; j ++ )

     {

         for ( i = 0; i < M; i ++ )

         {

             printf( "%.2f ", matC[j][i] );

         }

         printf( "\n" );

     }*/

     printf( "TIME:%d\n", t );

     return ;

 }

机器配置E3 1231V3 MEM:16G VS2010SP1 ICC 2015XE GTX660 将来把CUDA带来一起测下

1. CPU单线程仅一个O2

4750ms 大体如此

多线程原来测过，这次代码没加上。按物理核计算 4核应该6秒左右超线程估计会好些。应该能到5秒左右。

2. 单文件转为ICC编译额外添加优化项/Qipo /Qparallel

2600ms左右

多线程依然没测，以后补

3. CUDA也没测

4.MKL没测。。有点对不住这个CPU了。。呵呵，心血来潮，以后一定补上。

5. 比较搞笑的是，我在收工的时候突发奇想，要把MatrixC相关代码改为本地，试下有没有效果，这个还真有，平均少100ms

看来，高手们教的CACHE命中还是很有道理的。

上面代码是改后的，改之前为

void MulMatrix( float* matrixA, float* matrixB, float* matrixC )

{

    register int i, j, k, t;

    register float* p, *q;

    for ( j = ; j < M; j ++ )

    {

        for ( i = ; i < M; i ++ )

        {

            p = matrixA + j * M;

            q = matrixB + i;

            t = j * M + i;

            matrixC[t] = ;

            for ( k = ; k < M; k ++ )

            {

                matrixC[t] += *p * *q;

                p ++;

                q += M;

            }

        }

    }

}

6. 更搞笑的是，把q += M; 中的M改为100.。。。。竟然变为了原来的1/10

难道也是CACHE。。

intel compiler的表现的更多相关文章

[boost] build boost with intel compiler 16.0.XXX
Introduction There are few information about how to compile boost with Intel compiler. This article ...
[Boost] 1.57.0 with VS2013 + Intel compiler
The compiled version can be found below. Do not foget to give me a star. :) http://pan.baidu.com/s/1 ...
使用Intel编译器获得一致的浮点数值计算结果
使用Intel编译器获得一致的浮点数值计算结果大多数十进制的浮点数, 用二进制表示时不是完全一致的; 与此同时, 大多数与浮点数值相关的计算结果, 存在着固有的不确定性.通常, 编写浮点计算应用软件希 ...
记intel杯比赛中各种bug与debug【其一】：安装intel caffe
因为intel杯创新软件比赛过程中,并没有任何记录.现在用一点时间把全过程重演一次用作记录. 学习 pytorch 一段时间后,intel比赛突然不让用 pytoch 了,于是打算转战intel ca ...
[转帖]双剑合璧：CPU+GPU异构计算完全解析
引用自:http://tech.sina.com.cn/mobile/n/2011-06-20/18371792199.shtml 这篇文章写的深入浅出,把异构计算的思想和行业趋势描述的非常清楚,难得 ...
mysql 5.7.17发布
Mysql 5.7.17发布了,主要修复: Changes in MySQL 5.7.17 (2016-12-12, General Availability) Compilation Notes M ...
Ceph性能优化总结(v0.94)
优化方法论做任何事情还是要有个方法论的,“授人以鱼不如授人以渔”的道理吧,方法通了,所有的问题就有了解决的途径.通过对公开资料的分析进行总结,对分布式存储系统的优化离不开以下几点: 1. 硬件层面 ...
x265编译
x265 HEVC Encoder Mission Statement Online documentation Mailing list x265-devel@videolan.org HOWTO ...
openMP的一点使用经验【非原创】
按照百科上说的,针对于openmp的编程,最简单的就是在开头加个#include<omp.h>,然后在后面的for上加一行#pragma omp parallel for即可,下面的是较为 ...

随机推荐

Redis: Redis on Windows Setup
ylbtech-Redis: Redis on Windows Setup 1.返回顶部 1. 2. 3. 4. 5. 6. 7. 8. 9. 2.返回顶部 3.返回顶部 4.返回顶部 5 ...
is not mapped [from错误
我出现的错误是:org.hibernate.hql.ast.QuerySyntaxException: loginuser is not mapped [from loginuser] 配置文件如下: ...
【167】IDL 中相关技巧
IDL 中相关技巧 1. 注释:分号“;”表示注释内容的开始. 2. 续行:最后一个字符是“$”,那么本行将紧接着下一行,续行标志.(换行符,$+回车) 3. 中文编码:窗口>首选项>常规 ...
mac+php+xdebug
1,下载xdebug 2,进入xdebug-2.4.0RC4目录,运行phpize命令, 2,google之后说要安装autoconf brew install autoconf 3,但是使用brew ...
洛谷 P1582 倒水
题目描述一天,CC买了N个容量可以认为是无限大的瓶子,开始时每个瓶子里有1升水.接着~~CC发现瓶子实在太多了,于是他决定保留不超过K个瓶子.每次他选择两个当前含水量相同的瓶子,把一个瓶子的水全部倒 ...
[LOJ#10064]黑暗城堡
Description 在顺利攻破 Lord lsp 的防线之后,lqr 一行人来到了 Lord lsp 的城堡下方.Lord lsp 黑化之后虽然拥有了强大的超能力,能够用意念力制造建筑物,但是智商 ...
Modbus通讯协议简介
Modbus协议简介 Modbus协议最初由Modicon公司开发出来,此协议支持传统的RS-232.RS-422.RS-485和以太网设备,许多工业设备,包括PLC,DCS,智能仪表等都在使用Mod ...
maven idea
写在前面的话:此篇文章教程是在IntelliJ IDEA中搭建的maven项目.(建议eclipse党快点转IDEA吧,IDEA大法好.逃… 1.maven的安装前往Apache Maven官网点击 ...
Unity笔记（3）自学第三天
学习记录: 脚本使用:
C# 客户端读取共享目录文件
控制台应用程序 using System; using System.Collections.Generic; using System.Linq; using System.Text; using ...

intel compiler的表现

intel compiler的表现的更多相关文章

随机推荐

热门专题