（原）测试intel的并行计算pafor

转载请注明出处：

http://www.cnblogs.com/darkknightzh/p/4988264.html

参考网址：

关于mt19937：http://www.cnblogs.com/egmkang/archive/2012/09/06/2673253.html

代码如下：

 #include "stdafx.h"

 #include <iostream>

 #include <random>     // mt19937的头文件

 #include <ppl.h>      // parfor的头文件

 #include <windows.h>  // QueryPerformanceFrequency等函数的头文件

 using namespace concurrency; // parfor使用

 using namespace std;

 // 分配内存

 void AllocMatrix(double** m, size_t n)

 {

     *m = new double[n*n];

     memset(*m, , sizeof(double)*n*n);

 }

 // 初始化矩阵内容

 template <class Gen>

 void IniMatrix(double* m, size_t n, Gen& gen)

 {

     for (size_t i = ; i < n; ++i)

     {

         for (size_t j = ; j < n; ++j)

         {

             m[i*n + j] = static_cast<double>(gen());

         }

     }

 }

 // 释放内存

 void FreeMatrix(double** m)

 {

     if (nullptr != *m)

     {

         delete[](*m);

         (*m) = nullptr;

     }

 }

 // 矩阵相乘，使用for

 void matrixMultiplyFor(double* res, const double* m1, const double* m2, size_t n)

 {

     for (size_t i = ; i < n; i++)

     {

         for (size_t j = i; j < n; j++)

         {

             double temp = ;

             for (size_t k = ; k < n; k++)

             {

                 temp += m1[i * n + k] * m2[k * n + j];

             }

             res[i*n + j] = temp;

         }

     }

 }

 // 矩阵相乘，外层使用parfor

 void matrixMultiplyParForOuter(double* res, const double* m1, const double* m2, size_t n)

 {

     parallel_for(size_t(), n, [&](size_t i)

     {

         for (size_t j = i; j < n; j++)

         {

             double temp = ;

             for (size_t k = ; k < n; k++)

             {

                 temp += m1[i * n + k] * m2[k * n + j];

             }

             res[i*n + j] = temp;

         }

     });

 }

 // 矩阵相乘，内层使用parfor

 void matrixMultiplyParForInner(double* res, const double* m1, const double* m2, size_t n)

 {

     for (size_t i = ; i < n; i++)

     {

         parallel_for(size_t(i), n, [&](size_t j)

         {

             double temp = ;

             for (size_t k = ; k < n; k++)

             {

                 temp += m1[i * n + k] * m2[k * n + j];

             }

             res[i*n + j] = temp;

         });

     }

 }

 // 测试矩阵相乘，使用for的时间

 double testmatrixMultiplyFor(double* res, const double* m1, const double* m2, size_t n)

 {

     LARGE_INTEGER nFreq, nBeginTime, nEndTime;

     QueryPerformanceFrequency(&nFreq);

     QueryPerformanceCounter(&nBeginTime);

     matrixMultiplyFor(res, m1, m2, n);

     QueryPerformanceCounter(&nEndTime);

     return (double)(nEndTime.QuadPart - nBeginTime.QuadPart) *  / (double)nFreq.QuadPart;

 }

 // 测试矩阵相乘，外层使用parfor的时间

 double testmatrixMultiplyParForOuter(double* res, const double* m1, const double* m2, size_t n)

 {

     LARGE_INTEGER nFreq, nBeginTime, nEndTime;

     QueryPerformanceFrequency(&nFreq);

     QueryPerformanceCounter(&nBeginTime);

     matrixMultiplyParForOuter(res, m1, m2, n);

     QueryPerformanceCounter(&nEndTime);

     return (double)(nEndTime.QuadPart - nBeginTime.QuadPart) *  / (double)nFreq.QuadPart;

 }

 // 测试矩阵相乘，内层使用parfor的时间

 double testmatrixMultiplyParForInner(double* res, const double* m1, const double* m2, size_t n)

 {

     LARGE_INTEGER nFreq, nBeginTime, nEndTime;

     QueryPerformanceFrequency(&nFreq);

     QueryPerformanceCounter(&nBeginTime);

     matrixMultiplyParForInner(res, m1, m2, n);

     QueryPerformanceCounter(&nEndTime);

     return (double)(nEndTime.QuadPart - nBeginTime.QuadPart) *  / (double)nFreq.QuadPart;

 }

 // 主函数

 int _tmain(int argc, _TCHAR* argv[])

 {

     const size_t n = ;

     double* dM1 = NULL;

     double* dM2 = NULL;

     double* dRes1 = NULL;

     double* dRes2 = NULL;

     double* dRes3 = NULL;

     random_device rd;

     mt19937 gen(rd());

     AllocMatrix(&dM1, n);

     AllocMatrix(&dM2, n);

     IniMatrix(dM1, n, gen);

     IniMatrix(dM2, n, gen);

     AllocMatrix(&dRes1, n);

     AllocMatrix(&dRes2, n);

     AllocMatrix(&dRes3, n);

     double dTimeFor = testmatrixMultiplyFor(dRes1, dM1, dM2, n);

     double dTimeParForOuter = testmatrixMultiplyParForOuter(dRes2, dM1, dM2, n);

     double dTimeParForInner = testmatrixMultiplyParForInner(dRes3, dM1, dM2, n);

     printf("time(ms)\nfor: %f \nparforOunter: %f \nparforInner: %f\n", dTimeFor, dTimeParForOuter, dTimeParForInner);

     FreeMatrix(&dM1);

     FreeMatrix(&dM2);

     FreeMatrix(&dRes1);

     FreeMatrix(&dRes2);

     FreeMatrix(&dRes3);

     return ;

 }

debug：

time(ms)

for: 7761.769099

parforOunter: 3416.670736

parforInner: 3423.701265

release：

time(ms)

for: 3884.167485

parforOunter: 1062.581817

parforInner: 1083.642302

说明：此处测试outer和inner是因为，matlab里面，使用outer形式的并行计算，使用parfor后，如果循环比对类似这种三角形式，最终有些核先跑完结果，有些核后跑完结果，导致出现，一个核累死累活的跑程序，另外N-1个核围观的状态，使最终的计算时间变长（不过在matlab中未测试outer和inner使用parfor的时间对比）。

但是，在C++里面，不知道是否优化的原因，outer使用parfor比inner使用parfor要快。此处测试了n=2048，结果也是outer比inner的形式要快。

（原）测试intel的并行计算pafor的更多相关文章

(原)测试 Java中Synchronized锁定对象的用法
今天再android_serial_port中看到了关键字 synchronized;因为刚好在学java和android,所以就查了一下它的用法: 于是把代码中的一小段代码拿了出来,做了一下修改,测 ...
【原】C++11并行计算 — 数组求和
本文转载请注明出处 -- polobymulberry-博客园 0x00 - 前言最近想优化ORB-SLAM2,准备使用并行计算来提高其中ORB特征提取的速度.之前对并行计算方面一窍不通.借此机会, ...
Intel MKL函数,如何得到相同的计算结果？【转】
在运行程序时,我们总希望多次运行的结果,是完全一致,甚至在不同的机器与不同的OS中,程序运行的结果每一位都完全相同. 事实上,程序往往很难保证做到这一点. 为什么呢? 我们先看一个简单的例子: 当程序 ...
手机发烫是为何—— App 电量测试定位方法
为什么要做电量测试随着移动互联网的快速发展,手机的实用性.娱乐性越来越强.日常使用中发现,安装了应用后,即使不怎么使用,电量也会消耗很快.但如果恢复出场设置充满电后,手机可以待机很长时间.真相只有一 ...
MongoDB 副本集丢失数据的测试
在MongoDB副本集的测试中发现了一个丢数据的案例. 1. 概要描述测试场景为:一主一从一验证测试案例 step1 :关闭从副本: step 2 :向主副本中插入那条数据: step 3 :关闭 ...
(原创)发布一个c++11开发的轻量级的并行Task库TaskCpp
TaskCpp简介 TaskCpp是c++11开发的一个跨平台的并行task库,它的设计思路来源于微软的并行计算库ppl和intel的并行计算库tbb,关于ppl和tbb我在前面有介绍.既然已经有了这 ...
【AR实验室】mulberryAR：并行提取ORB特征
本文转载请注明出处 —— polobymulberry-博客园 0x00 - 前言在[AR实验室]mulberryAR : ORBSLAM2+VVSION末尾提及了iPhone5s真机测试结果,其中 ...
tfs 分支
集团-IT部张强 11:15:211.主干时刻处于稳定状态,随时可以发布.设专门人员对主干代码进行管理,普通开发人员只读. 2.为开发任务建立开发分支.常规的可以以小组为单位建立分支,较大的任务可以建 ...
单元测试_JUnit4的应用与实践
本文实例为:JUnit4+Eclipse+CVS的实践目录 1.测试环境搭建 1.1 JDK安装部署 1.2 Eclipse安装部署 1.3 Eclipse添加JUnit4 1.4 CVS项目文件引 ...

随机推荐

CF 8D Two Friends 【二分+三分】
三个地点构成一个三角形. 判断一下两个人能否一起到shop然后回家,如果不能: 两个人一定在三角形内部某一点分开,假设沿着直线走,可以将问题简化. 三分从电影院出来时候的角度,在对应的直线上二分出一个 ...
【android】android下的junit
<instrumentation android:name="android.test.InstrumentationTestRunner" android:targetPa ...
web app之rem
rem是什么? rem:font size of the root element,是指相对于根元素的字体大小的单位.简单的说它就是一个相对单位. em:font size of the elemen ...
[转载]移动终端浏览器初始设置apple-mobile-web-app-capable
这两句话的确很有用,有了它,手机访问的时候像样了. 原文地址:移动终端浏览器初始设置apple-mobile-web-app-capable作者:素水凌心移动终端浏览器默认设置视口的宽度和初始规模. ...
[C入门 - 游戏编程系列] 贪吃蛇篇(四) - 食物实现
由于食物是贪吃蛇游戏中最简单的一部分,而且和其他部分关联性不强,基本上是一个独立的部分,所以我打算先实现它. 我的想法是食物必须在世界中才能被创造出来,也就是说,先有世界再有食物,所以我得先判断世界是 ...
nginx日志管理与限速
1.日志简介nginx日志主要有两种:访问日志和错误日志.访问日志主要记录客户端访问nginx的每一个请求,格式可以自定义:错误日志主要记录客户端访问nginx出错时的日志,格式不支持自定义.两种日志 ...
layout_weight
最近写Demo,突然发现了Layout_weight这个属性,发现网上有很多关于这个属性的有意思的讨论,可是找了好多资料都没有找到一个能够说的清楚的,于是自己结合网上资料研究了一下,终于迎刃而解,写出 ...
LeetCode_Rotate Image
You are given an n x n 2D matrix representing an image. Rotate the image by 90 degrees (clockwise). ...
PowerShell 中的目录文件管理
前面的一篇文章我们说了部分在PS中进行文件浏览的基本概念,说到了几个虚拟驱动器的概念.并没有深入的描述相关的命令,这里我们进一步对这一知识点进行描述. 2.1 管理当前工作路径/位置在日常管理中经常 ...
Linux 下通过脚本实现远程自动备份
考虑到在本机上备份数据,一旦该机器硬盘出现故障,数据无法取出.远程手动备份数据费时费力且不及时.最好的方法就是通过脚本实现远程自动互备.但远程无论是通过SSH登陆,还是通过scp拷贝文件都需要输入密码 ...

（原）测试intel的并行计算pafor

（原）测试intel的并行计算pafor的更多相关文章

随机推荐

热门专题