矩阵赋值实例（matrixAssign）

题目：给一个二维数组赋值。

分析：主机端代码完成的主要功能：

启动CUDA，使用多卡时应加上设备号，或使用cudaSetDevice（）设置GPU设备。
为输入数据分配内存空间
初始化输入数据
为GPU分配显存，用于存放输入数据
将内存中的输入数据拷贝到显存。
为GPU分配显存，用于存放输出数据。
调用device端的Kernel进行计算，将结果写到显存中的对应区域。
为CPU分配内存，用于存放GPU传回的输出数据
将显存中的结果回读到内存。
使用CPU对传回的数据进行其他的处理。
释放内存和显存空间。
退出CUDA

设备端代码要完成的任务：

从显存读取数据到GPU片内。
对数据进行处理。
将处理后的数据写回显存。

实现代码：

#include <stdlib.h>  //系统头文件

#include <stdio.h>

#include <string.h>

#include <math.h>

// 核函数，GPU端代码

#ifndef _EXAMPLE_1_KERNEL_H_

#define _EXAMPLE_1_KERNEL_H_

//////#include <stdio.h> //在emu模式下包含这个头文件，以便输出一些中间结果来观察，在GPU实际运行时是不能使用的

////////////////////////////////////////////////////////////////////////////////

//! Simple test kernel for device functionality

//! @param g_idata  input data in global memory

//! @param g_odata  output data in global memory

////////////////////////////////////////////////////////////////////////////////

__global__ void

testKernel( float* g_idata, float* g_odata)

{

  // shared memory

  // extern表示大小由host端的Ns参数确定

  extern  __shared__  float sdata[];

  // access thread id

  const unsigned int bid = blockIdx.x; //线程所在的block的索引号

  const unsigned int tid_in_block = threadIdx.x; //线程在block中的位置

  const unsigned int tid_in_grid = blockDim.x * blockIdx.x + threadIdx.x;

//按行划分任务时，线程在整个grid中的位置

  // 将数据从global memory读入shared memory

  sdata[tid_in_block] = g_idata[tid_in_grid];

  //读入数据后进行一次同步，保证计算时所有数据均已到位

  __syncthreads();

  // 计算

  sdata[tid_in_block] *= (float)bid;

//  sdata[tid_in_block] *= (float)tid_in_block;

//  sdata[tid_in_block] *= (float)tid_in_grid;

  //进行同步，确保要写入的数据已经被更新

  __syncthreads();

  // 将shared memory中的数据写到global memory

  g_odata[tid_in_grid] = sdata[tid_in_block];

}

#endif // #ifndef _EXAMPLE_1_KERNEL_H_

// 函数声明

void runTest( int argc, char** argv);

// 主函数

int main( int argc, char** argv)

{

    runTest( argc, argv);

}

void runTest( int argc, char** argv)

{

    unsigned int num_blocks = 4; //定义网格中的线程块数量

    unsigned int num_threads = 4;//定义每个线程块中的线程数量

	unsigned int mem_size = sizeof(float) * num_threads * num_blocks;//为数据分配的存储器大小，这里我们用每一个线程计算一个单精度浮点数。

	// 在host端分配内存，h_表示host端，i表示input，o表示output

	//输入数据

	float* h_idata = (float*) malloc( mem_size);

	//输出数据

	float* h_odata = (float*) malloc( mem_size);

	// 在device端分配显存，d_表示device端

	//显存中的输入数据

	float* d_idata;

	cudaMalloc( (void**) &d_idata, mem_size);

	//显存中的输出数据

	float* d_odata;

	cudaMalloc( (void**) &d_odata, mem_size);

	 // 初始化内存中的值

	 for( unsigned int i = 0; i < num_threads * num_blocks; i++)

	 {

			h_idata[i] = 1.0f;

	 }

	 // 将内存中的输入数据读入显存，这样就完成了主机对设备的数据写入

	  cudaMemcpy( d_idata, h_idata, mem_size,cudaMemcpyHostToDevice );

    // 设置运行参数，即网格的形状和线程块的形状

    dim3  grid( num_blocks, 1, 1);

    dim3  threads( num_threads, 1, 1);

    // 运行核函数，调用GPU进行运算

    testKernel<<< grid, threads, mem_size >>>( d_idata, d_odata);

    // 将结果从显存写入内存

    cudaMemcpy( h_odata, d_odata, mem_size,cudaMemcpyDeviceToHost );

    // 打印结果

    for( unsigned int i = 0; i < num_blocks; i++)

    {

        for( unsigned int j = 0; j < num_threads; j++)

        {

	    printf( "%5.0f", h_odata[ i * num_threads + j]);

        }

        printf("\n");

    }

    // 释放存储器

    free( h_idata);

    free( h_odata);

    cudaFree(d_idata);

    cudaFree(d_odata);

}

矩阵赋值实例（matrixAssign）的更多相关文章

Matlab获取文件夹下所有文件名并将数据按矩阵赋值给变量
一.获取一个文件夹下所有文件名: fileFolder=fullfile('D:\MATLAB\bin\trc'); dirOutput=dir(fullfile(fileFolder,'*.trc' ...
jQuery对html元素的取值与赋值实例详解
jQuery对html元素的取值与赋值实例详解转载 2015-12-18 作者:欢欢我要评论这篇文章主要介绍了jQuery对html元素的取值与赋值,较为详细的分析了jQuery针对常 ...
StringGrid 实例3：本例功能: 1、修改 TStringGrid的默认宽与高; 2、添加行; 3、确认当前单元并赋值.
实例3: 本例功能: 1.修改 TStringGrid的默认宽与高; 2.添加行; 3.确认当前单元并赋值. 实例图形:
访问Mat矩阵中的元素并为其赋值
在OpenCV中有三种方式访问矩阵中的数据元素:容易的方式,困难的方式,以及正确的方式.今天主要讲容易方式: 最容易的方式是使用宏CV_MAT_ELEM( matrix, elemtype, row, ...
OpenGL矩阵类(C++)
概述创建&初始化存取器矩阵运算变换函数实例:模型视图矩阵实例:投影矩阵概述 OpenGL固定功能管线提供4个不同类型的矩阵(GL_MODELVIEW.GL_PROJECTION. ...
OpenGL矩阵类(C++) 【转】
http://www.cnblogs.com/hefee/p/3816727.html OpenGL矩阵类(C++) 概述创建&初始化存取器矩阵运算变换函数实例:模型视图矩阵实例: ...
快速入门：Python简单实例100个（入门完整版）
Python3 100例文章目录 Python3 100例实例001:数字组合实例002:“个税计算” 实例003:完全平方数实例004:这天第几天实例005:三数排序实例006:斐波那契 ...
Matlab之矩阵
1.新建矩阵 A = zeros(5,5); 2.矩阵赋值 A(:,j) = [5 5]表示取A矩阵的第j列全部元素 a.矩阵的同行元素之间用空格(或”,”)隔开: b.矩阵的行与行之间用”;”(或 ...
4-2.矩阵乘法的Strassen算法详解
题目描述请编程实现矩阵乘法,并考虑当矩阵规模较大时的优化方法. 思路分析根据wikipedia上的介绍:两个矩阵的乘法仅当第一个矩阵B的列数和另一个矩阵A的行数相等时才能定义.如A是m×n矩阵和B ...

随机推荐

js中getByClass()函数
js中getByClass()函数进化史对于js来说,我想每一个刚接触它的人都应该会抱怨:为什么没有一个通过class来获取元素的方法.尽管现在高版本的浏览器已经支持getElementsByCla ...
2013年全球IT公司市值排行榜
开源的应用快速开发平台排名公司市值国家荣誉 1 苹果 5006.1 美国全球市值最大的公司 2 谷歌 2324.4 美国全球最伟大的互联网公司 3 三星 2290.7 韩国全球最大的智 ...
LESS编译方案
我的LESS编译方案 2013-08-07 10:22 by 逆风之羽, 469 阅读, 2 评论, 收藏, 编辑背景近期项目前端决定使用less,简单介绍一下,详细信息有兴趣查看官方文档(htt ...
notes/Set up development environment on windows
恰好前几天买了个新笔记本, 15存 sony vaio, 终于从mac回到了windows. 不过作为(曾经的)*nix追随者, 没有bash真是寸步难行, 幸好windows8.x有了super s ...
html5基础的常用的技巧
html5基础的常用的技巧 1. 新的Doctype声明 XHTML的声明太长了,我相信很少会有前端开发人员能手写出这个Doctype声明. <!DOCTYPE html PUBLIC &quo ...
Visual Studio 2013 Preview - ASP.NET, MVC 5, Web API 2新功能搶先看
Visual Studio 2013 Preview - ASP.NET, MVC 5, Web API 2新功能搶先看來自TechEd North America 2013的第一手消息以下資訊均 ...
Arduino 各种模块篇 RGB LED灯
示例代码: 类似与这样的led,共阴rgb led,通过调节不同的亮度,组合成不同的颜色. 示例代码: /* 作者:极客工坊时间:2012年12月18日 IDE版本号:1.0.1 发布地址:www. ...
MarkDown/reST 文档发布流水线
相信很多朋友都在使用Markdown或者restructuredText格式来编写一些技术文档,也会把这些文档放在github上分享给社区.GitHub提供了很好的Markdown格式解析支持,但是这 ...
java foreach实现原理
在平时Java程序中,应用比较多的就是对Collection集合类的foreach遍历,foreach之所以能工作,是因为这些集合类都实现了Iterable接口,该接口中定义了Iterator迭代器的 ...
【JS学习笔记】关于function函数
函数的基本格式 function 函数名() { 代码: } 函数的定义和调用 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transit ...

矩阵赋值实例（matrixAssign）

矩阵赋值实例（matrixAssign）的更多相关文章

随机推荐

热门专题