【DSP开发】【并行计算-CUDA开发】TI OpenCL v01.01.xx
TI OpenCL v01.01.xx
TI OpenCL™ Runtime Documentation Contents:
- Introduction
- OpenCL 1.1 Reference Material
- Compilation
- Memory Usage
- Device Memory
- How DDR3 is
Partitioned for Linux System and OpenCL - Alternate
Host malloc/free Extension for Zero Copy OpenCL Kernels - The OpenCL Memory
Model - OpenCL Buffers
- Buffer Read/Write
vs. Map/Unmap - Discovering OpenCL
Memory Sizes and Limits - Cache Operations
- Large OpenCL
buffers and Memory Beyond the 32-bit DSP Address Space - User
Defined DSP Heap Extension
- Execution Model
- Extensions
- Calling
Standard C Code From OpenCL C Code - Calling Standard
C code with OpenMP from OpenCL C code - C66x standard
C compiler intrinsic functions - OpenCL C code
using printf - DMA Control Using
EdmaMgr Functions - Using
Extended Memory on the 66AK2x device - Fast Global
buffers in on-chip MSMC memory - OpenCL
C Builtin Function Extensions - Cache Operations
- Calling
- Environment
Variables - Optimization Tips
- Optimization
Techniques for Host Code - Optimization
Techniques for Device (DSP) Code- Prefer
Kernels with 1 work-item per work-group - Use
Local Buffers - Use
async_work_group_copy and async_work_group_strided_copy - Avoid
DSP writes directly to DDR - Use
the reqd_work_group_size attribute on kernels - Use
the TI OpenCL extension than allows Standard C code to be called from OpenCL C code - Avoid
OpenCL C Barriers - Use
the most efficient data type on the DSP - Do
Not Use Large Vector Types - Consecutive
memory accesses - Prefer
the CPU style of writing OpenCL code over the GPU style
- Prefer
- Typical
Steps to Optimize Device Code - Optimizing
3x3 Gaussian smoothing filter - Performance
Data
- Optimization
- Examples
- Building
and Running - Example Descriptions
- platforms
example - simple
example - mandelbrot,
mandelbrot_native examples - ccode
example - matmpy
example - offline
example - vecadd_openmp
example - vecadd_openmp_t
example - vecadd
example - vecadd_mpax
example - vecadd_mpax_openmp
example - dsplib_fft
example - ooo,
ooo_map examples - null
example - sgemm
example - dgemm
example - edmamgr
example - dspheap
example
- platforms
- Float compute
example - Monte Carlo
example
- Building
- Debug
- Profiling
- OpenCL on TI-RTOS
- Frequently Asked Questions
- How do I get support
for TI OpenCL products? - Which TI OpenCL Version
is Installed? - Using Python OpenCL
with the TI OpenCL implementation - Guidelines
for porting Stand-alone DSP applications to OpenCL - OpenCL Interoperability
with Host OpenMP - MCSDK-HPC
to OpenCL Component Version Map - Does TI’s OpenCL support
images and samplers? - Why does the OpenCL ICD
installed on my platform not find the TI OpenCL implementation? - Why do I get messages about
/var/lock/opencl when running OpenCL applications? - Why do I get DLOAD
error messages when running OpenCL applications? - How do I limit log
file sizes on EVM’s temporary file storage (tmpfs)?
- How do I get support
- Readme
- Disclaimer
- Important
Notice
【DSP开发】【并行计算-CUDA开发】TI OpenCL v01.01.xx的更多相关文章
- 【并行计算-CUDA开发】FPGA 设计者应该学习 OpenCL及爱上OpenCL的十个理由
为什么要学习OpenCL呢?就目前我所从事的医疗超声领域,超声前端的信号处理器一般是通过FPGA或FPGA+DSP来设计的,高端设备用的是FPGA+ GPU架构.传统的设计方法是通过HDL语言来进行设 ...
- 【并行计算-CUDA开发】从零开始学习OpenCL开发(一)架构
多谢大家关注 转载本文请注明:http://blog.csdn.net/leonwei/article/details/8880012 本文将作为我<从零开始做OpenCL开发>系列文章的 ...
- 【并行计算-CUDA开发】OpenCL、OpenGL和DirectX三者的区别
什么是OpenCL? OpenCL全称Open Computing Language,是第一个面向异构系统通用目的并行编程的开放式.免费标准,也是一个统一的编程环境,便于软件开发人员为高性能计算服务器 ...
- 【并行计算-CUDA开发】Windows下opencl环境配置
首先声明我这篇主要是根据下面网站的介绍, 加以修改和详细描述,一步一步在我自己的电脑上实现的, http://www.cmnsoft.com/wordpress/?tag=opencl&pag ...
- 【并行计算-CUDA开发】GPGPU OpenCL/CUDA 高性能编程的10大注意事项
GPGPU OpenCL/CUDA 高性能编程的10大注意事项 1.展开循环 如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数.但是同时也不能使得kernel代码太大. 循环展 ...
- 【并行计算-CUDA开发】Apple's OpenCL——再谈Local Memory
在OpenCL中,用__local(或local)修饰的变量会被存放在一个计算单元(Compute Unit)的共享存储器区域中.对于nVidia的GPU,一个CU可以被映射为物理上的一块SM(Str ...
- 【并行计算-CUDA开发】浅谈GPU并行计算新趋势
随着GPU的可编程性不断增强,GPU的应用能力已经远远超出了图形渲染任务,利用GPU完成通用计算的研究逐渐活跃起来,将GPU用于图形渲染以外领域的计算成为GPGPU(General Purpose c ...
- 【并行计算-CUDA开发】OpenACC与OpenHMPP
在西雅图超级计算大会(SC11)上发布了新的基于指令的加速器并行编程标准,既OpenACC.这个开发标准的目的是让更多的编程人员可以用到GPU计算,同时计算结果可以跨加速器使用,甚至能用在多核CPU上 ...
- 【并行计算-CUDA开发】CUDA编程——GPU架构,由sp,sm,thread,block,grid,warp说起
掌握部分硬件知识,有助于程序员编写更好的CUDA程序,提升CUDA程序性能,本文目的是理清sp,sm,thread,block,grid,warp之间的关系.由于作者能力有限,难免有疏漏,恳请读者批评 ...
随机推荐
- hdu 6052 To my boyfriend
题目 OvO click here http://acm.hdu.edu.cn/showproblem.php?pid=6052 (2017 Multi-University Training Con ...
- 面向对象(oop)特征
上课时老师不止一次和我们说过,面向对象是Java基础的重中之重!!所以一定要扎实基本功,代码都是呆子活,重要的是思想! 一般来说oop的三大特性是:封装.继承和多态,上次笔者看到有把抽象也归类其中,不 ...
- eclipse简单构建maven工程
1.普通java工程 1)File->New->maven project 新建一个maven工程: 勾选上 Create a simple project:如果不勾选是利用插件生成:这里 ...
- @RequestMapping的简单理解
@Controller public class ItemController { @Autowired private ItemService itemService; 获取路径参数.../item ...
- List集合、泛型、装箱拆箱
1.List集合 Vector:增删改查都慢 线程同步 线程安全 LlinkedList:以链表结构存储数据,查询慢.增删快 ArrayList:的运行速度比较快 连续数据空间存储数据,查询快(下标) ...
- HZOJ 20190719 那一天我们许下约定(dp+组合数)
这个题目背景真的是让我想起了当年... 不说了,言归正传,这题,一眼看去30分暴力还是很好拿的,但我因为考试时的心态问题没有处理好细节爆了零. 30分暴力的普遍思路的复杂度应该是$O(nmd)$的,但 ...
- PCI-CAN卡驱动与数据通信调试小记
以前做项目,不注意记录调试过程中遇到的问题,以后应该注意这一点.今天抽空总结一下PCI-CAN卡驱动与数据通信调试过程中遇到的问题,方便以后回忆和思考. 1. 中断服务之字节流报文组包状态机 这是一个 ...
- Python基础之变量和常量
变量 将运算得到中间结果暂存到内存,以便后续程序调用. 变量的命名规则: 变量由字母.数字.下划线搭配组合而成 不能以数字开头,更不能全是数字 不能是Python中的关键字,这些符号和字母已经被Pyt ...
- html基础(选择器,font属性 )
css选择器 css与html的关系 css以html为基础 css主要设置的就是html标签中的属性样式,css进行网页布局. css语法 选择器{属性:值,属性:值} css选择 ...
- 开启两个线程,一个线程打印A~Z,一个线程打印1~52的数据
开启两个线程,一个线程打印A-Z,一个线程打印1-52的数据 import java.util.concurrent.locks.Condition; import java.util.concurr ...