http://blog.csdn.net/bendanban/article/details/8518382

mark一下

几个方案可以用:

方案1:

将所有文件分别编译,最后统一合并!

对于C程序

  1. []$nvcc -c test1.cu
  2. []$gcc  -c test2.c
  3. []$gcc  -o testc test1.o test2.o -lcudart -L/usr/local/cuda/lib64

C++ 程序

  1. []$nvcc -c test1.cu
  2. []$g++  -c test3.cpp
  3. []$g++  -o testcpp test1.o test3.o -lcudart -L/usr/local/cuda/lib64

方案2:

将CUDA程序弄成静态库

对于C程序

  1. []$nvcc -lib test1.cu -o libtestcu.a
  2. []$gcc       test2.c -ltestcu -L. -lcudart -L/usr/local/cuda/lib64 -o testc

特别注意:test2.c在链接库的前面

对于C++

完全域C类似,只要将gcc 换成g++, test2.c换成test3.cpp

方案3:

将CUDA程序弄成动态库

makefile

  1. all : c cpp
  2. c : libtestcu.so
  3. gcc test2.c   -ltestcu -L. -lcudart -L/usr/local/cuda/lib64 -o testc
  4. cpp : libtestcu.so
  5. g++ test3.cpp -ltestcu -L. -lcudart -L/usr/local/cuda/lib64 -o testcpp
  6. libtestcu.so : test.cu
  7. nvcc -o libtestcu.so -shared -Xcompiler -fPIC test1.cu
  8. clean :
  9. rm *.so testc testcpp  -f

应该能看懂。

后面继续补充,改学一下写makefile了,ide不会用。。。

http://blog.csdn.net/wzk6_3_8/article/details/15501931

分类: GPU-CUDA2013-11-12 14:24 496人阅读 评论(0) 收藏 举报

如果你想了解 Nvcc 到底搞了什么鬼,究竟 compute_xy sm_xy 区别在哪里, ptx,cudabin 又是怎么嵌套到 exe 里面最终被驱动执行的,这一节正是你想要的知识。他将讲解每一个编译的具体步骤,而且不光是知识,读者可以自己动手操作来体验这一个过程。他的用处不仅在能够对 CUDA 的编译以及工作机制有更深的认识,而且可以进行高级 debug ,比如可以自己手动进行 ptx->cudabin 的步骤等等。

参考: nvcc2.1.pdf 由于水平有限,错误部分欢迎大家留言指出

作者: insky(wenyao2009(at)gmail.com)

主页: www.gamecoding.cn

1. 一个编译例子

随意找一个包含 kernel 以及 kernel 调用的 .cu 文件,如 x.cu 。进入命令行 : 敲打 nvcc –cuda x.cu –keep 将得到如下结果, -cuda 是将 .cu 编译成 .cu.cpp , -keep 保留中间结果。(如果提示找不到 nvcc 请在 path 中添加 %cuda_bin_path%)

打开 .cu 文件所在目录(此处是 ptx ) , 你会惊讶的发现多出了一大堆文件,是的,很烦,不过很快你将会喜欢上他们,因为他们把 nvcc 的工作流程完美的记录下来了。好吧,那我们开始吧。

2. Virtual architecture vs GPUfeature

首先定位到文件 x.cu, x.ptx, x.sm_10.cubin 这三个文件上来,他们按照下图流程依次生成, x.cubin,x.ptx 最终会被嵌套到 x.cu.cpp 中。 

Virtual compute architecture 对应 nvcc 的 -arch 编译选项,他的值如下表所示。他的意思 
是 nvcc 将针对哪个类型的 virtual compute architecture 生成 ptx 汇编代码。如果是 compute_10
则 x.cu 中无法使用 atomic 等不支持的操作,否则会出现编译错误。 
 
Real sm architecture 指的是真实 GPU 的架构,这个选项对应于 nvcc 的 -code 编译选项, 
他可以选的值如下表所示。他的意思是根据此目标 GPU 架构将 x.ptx 编译成 x.cubin ,一般 
来说, Real sm architecture 必须等于或者高于对应的 Virtual compute architecture 。比如: 
Nvcc –cuda x.cu –arch compute_13 –code sm_10 是行不通的。 

到这里,你或许会说 “ 你讲错了吧 ” , nvcc 的 -arch 选项可以取 sm_13 呢, cudarule 都这么取的,没错,是可以怎么做,因为有些特殊机制的支持:

_ -code 可以有多个值,将生成多个版本的 cubin ,最终全部嵌套在 exe 中,见下节

_ -code 里面可以包含 compute_xy, 对应的 ptx 会被嵌套在 exe 中,见下节

_ 省略 -arch, 则自动选择最接近的

nvcc x.cu –code=sm_13 _ nvcc x.cu –arch=compute_13 –code=sm_13

_ 省略 -code

nvcc x.cu –arch=sm_13 _ nvcc x.cu –arch=compute_13 –code=compute_13 sm_13

nvcc x.cu –arch=compute_10 _ nvcc x.cu –arch=compute_10 –code=compute_10

_ 省略 -arch –code

nvcc x.cu _ nvcc x.cu –arch=compute_10 –code=sm_10

3. cubin , ptx 是如何组织到 exe 中,又是如何被加载到驱动中去的

好的,现在我们已经能够用 -code –arch 去控制 nvcc 生成对应 virtual or gpu architecture 的 ptx 及 cubin 文件了。接下来我们讲更彻底去了解,这些 ptx, cubin 是怎么集中到 exe 中,又是如何被执行的。打开 x.cu.cpp ,搜索 “__deviceText_$compute_10$ ” , 找到了吗?没错,这就是 compute_10 下的 PTX 代码的二进制形式,接着往下看,你可以找到 “ __deviceText_$sm_10$ ” ,这是 sm_10 下的 cubin 代码。好吧,再接着看吧:

static __cudaFatPtxEntry __ptxEntries []

static __cudaFatCubinEntry __cubinEntries[]

static __cudaFatDebugEntry __debugEntries[]

他们分别是 ptx 数组, cubin 数组以及 debug 数组, {0 , 0} 结尾的原因不用多说了吧,再找找 __cudaFatPtxEntry 在哪定 义 的吧 cuda2.1include__cudaFatFormat.h ,好好的读一下这个文件的说 明 ,你会 长叹 一 声 “ 你 丫 原来 藏 在这里 ” 。 OK ,全文 引 用如下: 

4. 回头来解决剩下的中间文件

其 实 nvcc 只 是个编译 器 驱动,他会调用很多 cuda tools 去完成 各 个编译步骤,最 后 调用

系统 的 c/cpp 编译 器 (cl,gcc) 以及 链 接 器 。他的流程如下图所示:

1 , cudafe.exe 去分 离 host code, device code ,生成 .gpu 等

2 , nvopencc( 我想应 该 就是 nvcc.exe 完成的 ) 编译 .gpu 到 .ptx

3 , ptxas.exe 编译 .ptx 到 .cubin

4 , fatbin.exe 编译 .cubin 到 .fatbin.c ,最终集 合 到 .cu.cpp 或者 .cu.c 中。 

NVCC编译器的更多相关文章

  1. nvcc编译器选项及配置

    nvcc命令选项: 选项命令有长名和短名,通常我们使用是用短名,长名主要用于描述. 1.指定编译阶段 主要指定编译的阶段以及要编译的输入文件. -cuda  -cubin  -fatbin  -ptx ...

  2. 显卡,显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么?

    在使用深度学习框架的过程中一定会经常碰到这些东西,虽然anaconda有时会帮助我们自动地解决这些设置,但是有些特殊的库却还是需要我们手动配置环境,但是我对标题上的这些名词其实并不十分清楚,所以老是被 ...

  3. CUDA[2] Hello,World

    Section 0:Hello,World 这次我们亲自尝试一下如何用粗(CU)大(DA)写程序 CUDA最新版本是7.5,然而即使是最新版本也不兼容VS2015 ...推荐使用VS2012 进入VS ...

  4. 从零开始山寨Caffe·陆:IO系统(一)

    你说你学过操作系统这门课?写个无Bug的生产者和消费者模型试试! ——你真的学好了操作系统这门课嘛? 在第壹章,展示过这样图: 其中,左半部分构成了新版Caffe最恼人.最庞大的IO系统. 也是历来最 ...

  5. CUDA程序设计(一)

    为什么需要GPU 几年前我启动并主导了一个项目,当时还在谷歌,这个项目叫谷歌大脑.该项目利用谷歌的计算基础设施来构建神经网络. 规模大概比之前的神经网络扩大了一百倍,我们的方法是用约一千台电脑.这确实 ...

  6. 从零开始山寨Caffe·壹:仰望星空与脚踏实地

    请以“仰望星空与脚踏实地”作为题目,写一篇不少于800字的文章.除诗歌外,文体不限. ——2010·北京卷 仰望星空 规范性 Caffe诞生于12年末,如果偏要形容一下这个框架,可以用"须敬 ...

  7. 从零开始山寨Caffe·零:必先利其器

    工作环境 巧妇有了米炊 众所周知,Caffe是在Linux下写的,所以长久以来,大家都认为跑Caffe,先装Linux. niuzhiheng大神发起了caffe-windows项目(解决了一些编译. ...

  8. cuda 初学大全

    转自:http://blog.csdn.net/augusdi/article/details/12529331 cuda 初学大全 1 硬件架构CUDA编程中,习惯称CPU为Host,GPU为Dev ...

  9. GPU CUDA 经典入门指南

    转自:http://luofl1992.is-programmer.com/posts/38830.html CUDA编程中,习惯称CPU为Host,GPU为Device.编程中最开始接触的东西恐怕是 ...

随机推荐

  1. 关于Core Location-ios定位

    IOS中的core location提供了定位功能,能定位装置的当前坐标,同一时候能得到装置移动信息.由于对定位装置的轮询是非常耗电的,所以最好仅仅在非常必要的前提下启动. 当中,最重要的类是CLLo ...

  2. HSQL

    Whenever I connect to HSQLDB from my application deployed on eclipse Juno, it throws an exception as ...

  3. vim使用(三):.viminfo和.vimrc

    1. viminfo 在vim中操作的行为,vim会自己主动记录下来,保存在 ~/.viminfo 文件里. 这样为了方便下次处理, 如:vim打开文件时,光标会自己主动在上次离开的位置显示. 原来搜 ...

  4. 使用MVC写模式jsp连接到数据库操作

    首先用一个JavaBean封装数据库操作,即mvc中的模型 JdbcBean.java package data; import java.sql.*; public class JdbcBean { ...

  5. 怎么样putty打开图形化管理工具,在终端上

    有时需要在putty这种图形终端开放的图形化管理工具将出现以下错误: [root@node2 ~]# Traceback (most recent call last): File "/us ...

  6. AutoFac使用方法总结:Part III

    生命周期 AutoFac中的生命周期概念非常重要,AutoFac也提供了强大的生命周期管理的能力. AutoFac定义了三种生命周期: Per Dependency Single Instance P ...

  7. Light OJ Dynamic Programming

    免费做一样新 1004 - Monkey Banana Problem 号码塔 1005 - Rooks 排列 1013 - Love Calculator LCS变形 dp[i][j][k]对于第一 ...

  8. 修改字符串中特定的内容,用于OpenRecovery Script

    下面的是实例内容 目标是把OpenRecovery Script输入的内容进行修改 当有下面的输入:(作用是安装/emmc目录下面的update-signed.zip 刷机包) install /em ...

  9. Linux的proc文件系统

    proc,用户空间和内核空间能够通过该接口通信, 与普通文件不同的是.这些虚拟文件的内容都是动态创建的. proc文件系统是一个伪文件系统,它仅仅存在内存其中,而不占用外存空间. 它以文件系统的方式为 ...

  10. C# - is

     Checks if an object is compatible with a given type. An is expression evaluates to true if the pr ...