CUDA cufftPlanMany的用法_31通道32*8像素的FFT

#include <cufft.h>

#include <iostream>

#include <cuda_runtime.h>

#include <helper_cuda.h>

#include <stdio.h>

using namespace std;

#define CHANNEL_NUM  31 //通道数、FFT次数

const int dataH = 32; //图像高度

const int dataW = 8;  //图像宽度

cufftHandle fftplanfwd;//创建句柄

int main(void){

 /* 开辟主机端的内存空间 */

 printf("文件名planmany_cuda31.cu...\n");

 printf("分配CPU内存空间...\n");

 cufftComplex *h_Data = (cufftComplex*)malloc(dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex));//可用cudaMallocHost设置

 cufftComplex *h_resultFFT = (cufftComplex*)malloc(dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex));

 /* 开辟设备端的内存空间 */

 printf("分配GPU内存空间...\n");

 /* 定义设备端的内存空间 */

 cufftComplex *d_Data;//device表示GPU内存，存储从cpu拷贝到GPU的数据

 cufftComplex *fd_Data;//device表示GPU内存,R2C后存入cufftComplex类型数据

 checkCudaErrors(cudaMalloc((void**)&d_Data, dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex)));

 checkCudaErrors(cudaMemset(d_Data, 0, dataH*CHANNEL_NUM * dataW* sizeof(cufftComplex))); // 初始为0

 checkCudaErrors(cudaMalloc((void**)&fd_Data, dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex))); // 开辟R2C后的设备内存

 checkCudaErrors(cudaMemset(fd_Data, 0, dataH*CHANNEL_NUM*dataW* sizeof(cufftComplex))); // 初始为0

 //随机初始化测试数据

 printf("初始化测试数据...\n");

 for (int i = 0; i < dataH*CHANNEL_NUM; i++){

  for (int j = 0; j < dataW; j++){

   h_Data[i*dataW + j].x = float(rand()%255);

   h_Data[i*dataW + j].y = float(rand()%255);

  }

 }

 //使用event计算时间

 float time_elapsed = 0;

 cudaEvent_t start, stop;

 cudaEventCreate(&start);    //创建Event

 cudaEventCreate(&stop);

 const int rank = 2;//维数

 int n[rank] = { 32, 8 };//n*m

 int*inembed = n;//输入的数组size

 int istride = 1;//数组内数据连续，为1

 int idist = n[0] * n[1];//1个数组的内存大小

 int*onembed = n;//输出是一个数组的size

 int ostride = 1;//每点DFT后数据连续则为1

 int odist = n[0] * n[1];//输出第一个数组与第二个数组的距离，即两个数组的首元素的距离

 int batch = CHANNEL_NUM;//批量处理的批数

 //采用cufftPlanMany方法

 checkCudaErrors(

  cufftPlanMany(&fftplanfwd, rank, n, inembed, istride, idist, onembed, ostride, odist, CUFFT_C2C, batch));//针对多信号同时进行FFT

 //printf("拷贝CPU数据到GPU中...\n");

 checkCudaErrors(

  cudaMemcpy(d_Data, h_Data, dataW * dataH*CHANNEL_NUM * sizeof(cufftComplex), cudaMemcpyHostToDevice));

 //printf("执行R2C-FFT...\n");

 printf("开始计时...\n");

 cudaEventRecord(start, 0);    //记录当前时间

 checkCudaErrors(

  cufftExecC2C(fftplanfwd, d_Data, fd_Data, CUFFT_FORWARD));

 cudaEventRecord(stop, 0);    //记录当前时间

 cudaEventSynchronize(start);    //Waits for an event to complete.

 cudaEventSynchronize(stop);    //Waits for an event to complete.Record之前的任务

 cudaEventElapsedTime(&time_elapsed, start, stop);    //计算时间差

 //cudaDeviceSynchronize();

 //printf("拷贝GPU数据返回到CPU中...\n");

 checkCudaErrors(

  cudaMemcpy(h_resultFFT, fd_Data, dataW *dataH*CHANNEL_NUM * sizeof(cufftComplex), cudaMemcpyDeviceToHost));//将fft后的数据拷贝回主机

 //printf("显示返回到CPU中的数据...\n");

 //for (int i = 0; i < dataH*CHANNEL_NUM*dataW; i++){

 // cout << "h_resultFFT[" << i << "]=" << h_resultFFT[i].x << " + " << h_resultFFT[i].y << " i" << endl;

 //}

 cudaEventDestroy(start);    //destory the event

 cudaEventDestroy(stop);

 printf("执行时间：%f(ms)\n", time_elapsed);

 /* 销毁句柄 */

 checkCudaErrors(cufftDestroy(fftplanfwd));

 /* 释放设备空间 */

 checkCudaErrors(cudaFree(d_Data));

 checkCudaErrors(cudaFree(fd_Data));

 free(h_Data);

 free(h_resultFFT);

 return 0;

}

　CUDA8.0版本+VS2013的编译环境

再谈FFT：

1、库利-图基提出的基于蝶形算法的FFT，当变换的序列数量是2^n个那么变换速度很快；所以再用FFT是经常需要判断需要变换点的数量，不是2^n个则需要补0凑齐。

2、做FFt分析时，幅值的大小与FFT选择的点数相关，但不影响分析的结果，在IFFT时已经做了处理，要得到真实的振幅大小，只要将得到的变换结果乘以2除以N即可。

3、一维FFT与二维FFT原理不一样，二维如果用一维fft函数变换，可以分按行向量傅里叶变换、或按列向量傅里叶变换，二维数组整体对应的傅里叶变换函数维fft2();cufft中对应cufftplan2D();多维对应cufftplanmany();

4、cufftplanmany()数据的接口是一个数组首地址。用法详解：比如你有n通道的j*k维二维数组，那么可以将n个j*k数组的数组存到一个(j*n)*k的二维数组中，然后给赋予函数这个二维数组的首地址，然后设置好原来是j*k维的二维数组，一共有n个这样的数组，且它们是连续存在的（可以看上面代码来理解）。

5、傅里叶变换的作用在于将时域的信号转化到频域来处理，对于两个时域上函数的卷积运算可以转化到频域的乘积上来处理.

CUDA cufftPlanMany的用法_31通道32*8像素的FFT的更多相关文章

cuda中时间用法
转载:http://blog.csdn.net/jdhanhua/article/details/4843653 在CUDA中统计运算时间,大致有三种方法: <1>使用cutil.h中的函 ...
并行计算提升32K*32K点（32位浮点数） FFT计算速度（4核八线程E3处理器）
对32K*32K的随机数矩阵进行FFT变换,数的格式是32位浮点数.将产生的数据存放在堆上,对每一行数据进行N=32K的FFT,记录32K次fft的时间. 比较串行for循环和并行for循环的运行时间 ...
两通道实信号使用一个FFT同时计算算法
前言在工程的实际应用场景中,往往是需要最省资源量.而DSP资源和BRAM资源对FPGA来说弥足珍贵. 对于同时存在多个通道的实信号需要做FFT而言,常规做法是每个通道用一个FFT IP,FFT IP ...
Java NIO 文件通道 FileChannel 用法
FileChannel 提供了一种通过通道来访问文件的方式,它可以通过带参数 position(int) 方法定位到文件的任意位置开始进行操作,还能够将文件映射到直接内存,提高大文件的访问效率.本文将 ...
CUDA 笔记
名词解释 SM :Streaming Multiprocessor 而 Block 大致就是对应到 SM 所有的blocks 按照流水线被送到6个SM中进行计算在 Compute Ca ...
【CUDA学习】GPU硬件结构
GPU的硬件结构,也不是具体的硬件结构,就是与CUDA相关的几个概念:thread,block,grid,warp,sp,sm. sp: 最基本的处理单元,streaming processor 最 ...
C++ IO 详细用法
http://www.cnblogs.com/keam37/ keam所有转载请注明出处本文将分别从<iostream>,<sstream>,<fstream> ...
CUDA学习ing..
0.引言本文记载了CUDA的学习过程~刚开始接触GPU相关的东西,包括图形.计算.并行处理模式等,先从概念性的东西入手,然后结合实践开始学习.CUDA感觉没有一种权威性的书籍,开发工具变动也比较快, ...
CUDA零内存拷贝疑问考证
今天思考了一下CUDA零内存拷贝的问题,感觉在即将设计的程序中会派上用场,于是就查了一下相关信息. 以下是一些有帮助的链接: cuda中的零拷贝用法--针对二维指针 cuda中的零拷贝用法--针对一维 ...

随机推荐

关于nodejs 假设httpserver,会发现一次网页打开,服务端会响应两次的问题;
转自:http://cnodejs.org/topic/518772806d38277306804020 每个页面默认都会再发一个de style="line-height: 21px; p ...
判断and ,or
and 和 or 是条件与和或,记住一条,and 是两边同时都满足,or 是只有满足一个条件就成立. # print(1 or False) #条件1成立,条件2不成立.打印条件1 #返回: 1# ...
LibreOJ #6000. 「网络流 24 题」搭配飞行员最大匹配
#6000. 「网络流 24 题」搭配飞行员内存限制:256 MiB时间限制:1000 ms标准输入输出题目类型:传统评测方式:文本比较上传者: 匿名提交提交记录统计讨论测试数据题目描述 ...
c++11 stl 学习之 shared_ptr
shared_ptr智能指针 shared_ptr 的声明初始化方式由于指针指针使用explicit参数必须显示声明初始化shared_ptr<string> pNico = new s ...
spring学习四对象的创建
spring中,有三种创建对象的方式 (1)构造创建 (2)实例工厂构造 (3)静态工厂构造一构造器创建在构造器创建对象时,有无参构造和有参构造两种 (1)在spring中,默认的是无参构造 ...
NOIP水题测试(2017082301)
你们从题目也能看出来今天的题是很水的. 前几期答案还没出,效率有点低,谅解,谅解. 今天的答案应该会出的很快. 下面给题目: 时间限制:3小时题目一:旅行家的预算题目二:进制转换题目三:乘积最大 ...
如何将mysql卸载干净
一.在控制面板中卸载mysql软件二.卸载过后删除C:\Program Files (x86)\MySQL该目录下剩余了所有文件,把mysql文件夹也删了三.windows+R运行“regedit ...
Bayes’s formula for Conditional Probability
Conditional Probability Example:In a batch, there are 80% C programmers, and 40% are Java and C prog ...
2018.11.24 poj3693Maximum repetition substring（后缀数组）
传送门后缀数组好题. 考虑枚举循环节长度lenlenlen. 然后考虑枚举循环节的起点来更新答案. 但是直接枚举每次O(n)O(n)O(n). 考虑枚举len∗k+1len*k+1len∗k+1作为 ...
2018.11.09 bzoj4773: 负环（倍增+floyd）
传送门跟上一道题差不多. 考虑如果环上点的个数跟最短路长度有单调性那么可以直接上倍增+floyd. 然而并没有什么单调性. 于是我们最开始给每个点初始化一个长度为0的自环,于是就有单调性了. 代码: ...

CUDA cufftPlanMany的用法_31通道32*8像素的FFT

CUDA cufftPlanMany的用法_31通道32*8像素的FFT的更多相关文章

随机推荐

热门专题