http://blog.csdn.net/bendanban/article/details/8518382

mark一下

几个方案可以用：

方案1：

将所有文件分别编译，最后统一合并！

对于C程序

[]$nvcc -c test1.cu
[]$gcc -c test2.c
[]$gcc -o testc test1.o test2.o -lcudart -L/usr/local/cuda/lib64

C++ 程序

[]$nvcc -c test1.cu
[]$g++ -c test3.cpp
[]$g++ -o testcpp test1.o test3.o -lcudart -L/usr/local/cuda/lib64

方案2：

将CUDA程序弄成静态库

对于C程序

[]$nvcc -lib test1.cu -o libtestcu.a
[]$gcc test2.c -ltestcu -L. -lcudart -L/usr/local/cuda/lib64 -o testc

特别注意：test2.c在链接库的前面

对于C++

完全域C类似，只要将gcc 换成g++， test2.c换成test3.cpp

方案3：

将CUDA程序弄成动态库

makefile

all : c cpp
c : libtestcu.so
gcc test2.c -ltestcu -L. -lcudart -L/usr/local/cuda/lib64 -o testc
cpp : libtestcu.so
g++ test3.cpp -ltestcu -L. -lcudart -L/usr/local/cuda/lib64 -o testcpp
libtestcu.so : test.cu
nvcc -o libtestcu.so -shared -Xcompiler -fPIC test1.cu
clean :
rm *.so testc testcpp -f

应该能看懂。

后面继续补充，改学一下写makefile了，ide不会用。。。

http://blog.csdn.net/wzk6_3_8/article/details/15501931

CUDA nvcc编译步骤简单讲解

分类： GPU-CUDA2013-11-12 14:24 496人阅读评论(0) 收藏举报

如果你想了解 Nvcc 到底搞了什么鬼，究竟 compute_xy sm_xy 区别在哪里， ptx,cudabin 又是怎么嵌套到 exe 里面最终被驱动执行的，这一节正是你想要的知识。他将讲解每一个编译的具体步骤，而且不光是知识，读者可以自己动手操作来体验这一个过程。他的用处不仅在能够对 CUDA 的编译以及工作机制有更深的认识，而且可以进行高级 debug ，比如可以自己手动进行 ptx->cudabin 的步骤等等。

参考： nvcc2.1.pdf 由于水平有限，错误部分欢迎大家留言指出

作者： insky(wenyao2009(at)gmail.com)

主页： www.gamecoding.cn

1. 一个编译例子

随意找一个包含 kernel 以及 kernel 调用的 .cu 文件，如 x.cu 。进入命令行 : 敲打 nvcc –cuda x.cu –keep 将得到如下结果， -cuda 是将 .cu 编译成 .cu.cpp ， -keep 保留中间结果。（如果提示找不到 nvcc 请在 path 中添加 %cuda_bin_path%）

打开 .cu 文件所在目录（此处是 ptx ） , 你会惊讶的发现多出了一大堆文件，是的，很烦，不过很快你将会喜欢上他们，因为他们把 nvcc 的工作流程完美的记录下来了。好吧，那我们开始吧。

2. Virtual architecture vs GPUfeature

首先定位到文件 x.cu, x.ptx, x.sm_10.cubin 这三个文件上来，他们按照下图流程依次生成， x.cubin,x.ptx 最终会被嵌套到 x.cu.cpp 中。

Virtual compute architecture 对应 nvcc 的 -arch 编译选项，他的值如下表所示。他的意思
是 nvcc 将针对哪个类型的 virtual compute architecture 生成 ptx 汇编代码。如果是 compute_10
则 x.cu 中无法使用 atomic 等不支持的操作，否则会出现编译错误。

Real sm architecture 指的是真实 GPU 的架构，这个选项对应于 nvcc 的 -code 编译选项，
他可以选的值如下表所示。他的意思是根据此目标 GPU 架构将 x.ptx 编译成 x.cubin ，一般
来说， Real sm architecture 必须等于或者高于对应的 Virtual compute architecture 。比如：
Nvcc –cuda x.cu –arch compute_13 –code sm_10 是行不通的。

到这里，你或许会说 “ 你讲错了吧 ” ， nvcc 的 -arch 选项可以取 sm_13 呢， cudarule 都这么取的，没错，是可以怎么做，因为有些特殊机制的支持：

_ -code 可以有多个值，将生成多个版本的 cubin ，最终全部嵌套在 exe 中，见下节

_ -code 里面可以包含 compute_xy, 对应的 ptx 会被嵌套在 exe 中，见下节

_ 省略 -arch, 则自动选择最接近的

nvcc x.cu –code=sm_13 _ nvcc x.cu –arch=compute_13 –code=sm_13

_ 省略 -code

nvcc x.cu –arch=sm_13 _ nvcc x.cu –arch=compute_13 –code=compute_13 sm_13

nvcc x.cu –arch=compute_10 _ nvcc x.cu –arch=compute_10 –code=compute_10

_ 省略 -arch –code

nvcc x.cu _ nvcc x.cu –arch=compute_10 –code=sm_10

3. cubin ， ptx 是如何组织到 exe 中，又是如何被加载到驱动中去的

好的，现在我们已经能够用 -code –arch 去控制 nvcc 生成对应 virtual or gpu architecture 的 ptx 及 cubin 文件了。接下来我们讲更彻底去了解，这些 ptx, cubin 是怎么集中到 exe 中，又是如何被执行的。打开 x.cu.cpp ，搜索 “__deviceText_$compute_10$ ” , 找到了吗？没错，这就是 compute_10 下的 PTX 代码的二进制形式，接着往下看，你可以找到 “ __deviceText_$sm_10$ ” ，这是 sm_10 下的 cubin 代码。好吧，再接着看吧：

static __cudaFatPtxEntry __ptxEntries []

static __cudaFatCubinEntry __cubinEntries[]

static __cudaFatDebugEntry __debugEntries[]

他们分别是 ptx 数组， cubin 数组以及 debug 数组， {0 ， 0} 结尾的原因不用多说了吧，再找找 __cudaFatPtxEntry 在哪定义的吧 cuda2.1include__cudaFatFormat.h ，好好的读一下这个文件的说明，你会长叹一声 “ 你丫原来藏在这里 ” 。 OK ，全文引用如下：

4. 回头来解决剩下的中间文件

其实 nvcc 只是个编译器驱动，他会调用很多 cuda tools 去完成各个编译步骤，最后调用

系统的 c/cpp 编译器 (cl,gcc) 以及链接器。他的流程如下图所示：

1 ， cudafe.exe 去分离 host code, device code ，生成 .gpu 等

2 ， nvopencc( 我想应该就是 nvcc.exe 完成的 ) 编译 .gpu 到 .ptx

3 ， ptxas.exe 编译 .ptx 到 .cubin

4 ， fatbin.exe 编译 .cubin 到 .fatbin.c ，最终集合到 .cu.cpp 或者 .cu.c 中。

NVCC编译器的更多相关文章

nvcc编译器选项及配置
nvcc命令选项: 选项命令有长名和短名,通常我们使用是用短名,长名主要用于描述. 1．指定编译阶段主要指定编译的阶段以及要编译的输入文件. -cuda -cubin -fatbin -ptx ...
显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么？
在使用深度学习框架的过程中一定会经常碰到这些东西,虽然anaconda有时会帮助我们自动地解决这些设置,但是有些特殊的库却还是需要我们手动配置环境,但是我对标题上的这些名词其实并不十分清楚,所以老是被 ...
CUDA[2] Hello,World
Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...
从零开始山寨Caffe·陆：IO系统(一)
你说你学过操作系统这门课?写个无Bug的生产者和消费者模型试试! ——你真的学好了操作系统这门课嘛? 在第壹章,展示过这样图: 其中,左半部分构成了新版Caffe最恼人.最庞大的IO系统. 也是历来最 ...
CUDA程序设计(一)
为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...
从零开始山寨Caffe·壹：仰望星空与脚踏实地
请以“仰望星空与脚踏实地”作为题目,写一篇不少于800字的文章.除诗歌外,文体不限. ——2010·北京卷仰望星空规范性 Caffe诞生于12年末,如果偏要形容一下这个框架,可以用"须敬 ...
从零开始山寨Caffe·零：必先利其器
工作环境巧妇有了米炊众所周知,Caffe是在Linux下写的,所以长久以来,大家都认为跑Caffe,先装Linux. niuzhiheng大神发起了caffe-windows项目(解决了一些编译. ...
cuda 初学大全
转自:http://blog.csdn.net/augusdi/article/details/12529331 cuda 初学大全 1 硬件架构CUDA编程中,习惯称CPU为Host,GPU为Dev ...
GPU CUDA 经典入门指南
转自:http://luofl1992.is-programmer.com/posts/38830.html CUDA编程中,习惯称CPU为Host,GPU为Device.编程中最开始接触的东西恐怕是 ...

随机推荐

php laravel 帧该文件上传
好,我承认我的忠告. 今天laravel框架编写一个文件上传部分.总能找到不正确的路径.但是,终于攻克. 以下我分享一下自己的学习体会吧. client <form method="P ...
【剑指offer】设置在最小数目的阵列
转载请注明出处:http://blog.csdn.net/ns_code/article/details/28128551 题目描写叙述: 输入一个正整数数组,把数组里全部数字拼接起来排成一个数.打印 ...
hdu 4524 郑厂长系列故事——逃离迷宫小水题
郑厂长系列故事——逃离迷宫 Time Limit: 3000/1000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Others) To ...
[Sqlite]-->Java采用jdbc联系Sqlite各种特定的工艺数据库的数据操作
引: 1, Sqlite在Windows.Linux 和 Mac OS X 上的安装过程 2.嵌入式数据库的安装.建库.建表.更新表结构以及数据导入导出等等具体过程记录 3,嵌 ...
如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等(转)
你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并行的操作.数据专家们,我是在对你们说.你可能有一个4核或更多核的CPU,但我们合适的工具,例如 grep, ...
UDP议定书图像高速传输无损失程序
下面的程序实现UDP没有图像数据的高速传输协议损耗,测试数据egtest01图片库,实现PC和图像的传输嵌入式结束.变速箱+读写速度可以达到10+M/S.考 server端程序 #include &l ...
strchr,wcschr 和strrchr, wcsrchr,_tcschr,_tcsrchr功能
strchr,wcschr 和strrchr, wcsrchr,_tcschr,_tcsrchr功能 (1) char *strchr( const char *string, int ...
JAVA学习课第二十八届（多线程（七））- 停止-threaded多-threaded面试题
主密钥 /* * wait 和 sleep 差别? * 1.wait能够指定时间也能够不指定 * sleep必须指定时间 * 2.在同步中,对CPU的运行权和锁的处理不同 * wait释放运 ...
Source Insight 光标变粗设置NotePad++光标设置
为了更好的查看文档和代码,避免半天都找不到光标的情况,故做此说明 Source Insight 光标变粗菜单中 Options --->Preferences --->Typing -- ...
CSU 1659: Graph Center（SPFA）
1659: Graph Center Time Limit: 1 Sec Memory Limit: 128 MB Submit: 63 Solved: 25 [id=1659"> ...

NVCC编译器

CUDA nvcc编译步骤简单讲解

NVCC编译器的更多相关文章

随机推荐

热门专题