CUDA-F-2-2-核函数计时

Abstract: 本文介绍CUDA核函数计时方法

Keywords: gettimeofday,nvprof

开篇废话

继续更新CUDA，同时概率和数学分析也在更新，欢迎大家访问www.face2ai.com

昨天晚上开始折腾ubuntu，上一篇用腾讯云搭建服务器来调试CUDA，现在有机器了，所以装个ubuntu准备调试cuda，但是出现了下面的纠结问题，搞了将近五个多小时，才解决，首先我的笔记本是联想R720 1050Ti的显卡，安装ubuntu 16.04 发现源中的驱动安装好后，安装CUDA 9.1 local版本出现问题，没办法安装成功，以为是驱动问题，安装新的驱动也不行，于是想起来之前用的是17.04，打开镜像网站发现17.04已经不再支持了，找了old版本中，找到下载安装，发现没有源可以用，放弃，安装17.10，开机就出错，于是又退回16.04，安装自带的驱动，安装了cuda 9.0 run版，成功了，安装cmake，ssh-server，于是我们成功了：

编程模型中我们介绍了内存，线程相关的知识，接着我们启动了我们的核函数，这些只是大概的勾勒出CUDA编程的外貌，通过前几篇可以写出一般的可运行程序，但是想获得最高的效率，需要反复的优化，以及对硬件和编程细节的详细了解，怎么评估效率，时间是个很直观的测量方式。

用CPU计时

使用cpu计时的方法是测试时间的一个常用办法，我记得很有趣的一件事时，我们在写C程序的时候最多使用的计时方法是：

clock_t start, finish;

start = clock();

// 要测试的部分

finish = clock();

duration = (double)(finish - start) / CLOCKS_PER_SEC;

其中clock()是个关键的函数，“clock函数测出来的时间为进程运行时间，单位为滴答数(ticks)”；字面上理解CLOCKS_PER_SEC这个宏，就是没秒中多少clocks，在不同的系统中值可能不同。必须注意的是，并行程序这种计时方式有严重问题！如果想知道具体原因，可以查询clock的源代码（c语言标准函数）

这里我们使用gettimeofday() 函数

#include <sys/time.h>

double cpuSecond()

{

  struct timeval tp;

  gettimeofday(&tp,NULL);

  return((double)tp.tv_sec+(double)tp.tv_usec*1e-6);

}

gettimeofday是linux下的一个库函数，创建一个cpu计时器，从1970年1月1日0点以来到现在的秒数，需要头文件sys/time.h

那么我们使用这个函数测试核函数运行时间：

我把代码部分贴出来，完整的访问代码库：https://github.com/Tony-Tan/CUDA_Freshman

#include <cuda_runtime.h>

#include <stdio.h>

#include "freshman.h"

__global__ void sumArraysGPU(float*a,float*b,float*res,int N)

{

  int i=blockIdx.x*blockDim.x+threadIdx.x;

  if(i < N)

    res[i]=a[i]+b[i];

}

int main(int argc,char **argv)

{

  // set up device.....

  // init data ......

  //timer

  double iStart,iElaps;

  iStart=cpuSecond();

  sumArraysGPU<<<grid,block>>>(a_d,b_d,res_d,nElem);

  cudaDeviceSynchronize();

  iElaps=cpuSecond()-iStart;

  // ......

}

完整内容参考https://face2ai.com/CUDA-F-2-2-核函数计时/