环境:RTX2060 ,1920X1080p ,循环10次, kernal_size=8

一 、测试前128个线程拷贝到dst数据的性能  ,只测试行卷积, block=(128+2r)X1
  1. 使用中间128个线程拷贝       : (36.37+37.11+36.32)/3 = 36.6 GB
  2. 改为前128个线程拷贝出数据: (38.89+39.53+39.74)/3 = 39.39GB

  实验结果:使用前128个线程拷贝会快10.7%

二 、 测试const 变量对性能的影响 ,只测试行卷积 block =(128+2r)X1

  1. radius 为局部变量(函数传入) 40.1 GB

  2. radius 为__constant__ 变量  , 40.2GB

  实验结果 __constant__  和 局部变量 的性能实际上差不多

三、 测试block 线程数对性能的影响, 只测试行卷积

  1. block = (64+2r)X1             37.10GB

  2. block = (128+2r)X1            40.33GB

  3. block = (256+2r)X1     37.75GB

  4. block = (512+2r)X1     28.31GB

  5. block = (128)X1    37.3GB

  6. block=(320+2r)X1   34.26GB

  7. block=320X1      39GB

  8.block=160X1      38.57GB

  9.block=(160+2r)X1          39.04GB

  10 block=(640+2r)X1                  30.34GB

  11 block=640X1     27.96GB

  实验结果 : block并不是越大越好, 选择 block = (128+2r)X1  可能好一点吧~

四、列卷积时候, 测试连续copy 和 跳步copy性能,只测试列卷积,行卷积注释掉

  1. 跳步copy    :45.11GB

  2. 行连续copy:36.98GB

  3 列连续copy:47.31GB

  下图分别是1,2,3的拷贝过程示意图

  实验结果: 使用第三种拷贝方式会加速4.9%

  

五、 使用单列拷贝 ,只测试列卷积

  1. block=(128+2r)X1  18.89GB

  实验结果: 使用单列进行计算会很慢

六 、 测试IMUL对性能的影响

  1. 无IMUL  28.30GB

  2. IMUL       28.38GB

  实验结果 IMUL对实验结果无影响

七 、测试float4 对性能的影响,只测试行卷积

  1. 无float4

  2. float4

八 、列卷积时候, 测试连续计算 和 跳步计算性能,行卷积没有注释

  连续计算 23.7GB

  跳步计算 28.7 GB

  实验结果: 跳步计算要快一些

  

可分离滤波器设计高斯滤波 CUDA程序优化, 实验记录的更多相关文章

  1. opencv 源码分析 CUDA可分离滤波器设计 ( 发现OpenCV的cuda真TM慢 )

    1. 主函数 void SeparableLinearFilter::apply(InputArray _src, OutputArray _dst, Stream& _stream) { G ...

  2. 学习 opencv---(7) 线性邻域滤波专场:方框滤波,均值滤波,高斯滤波

    本篇文章中,我们一起仔细探讨了OpenCV图像处理技术中比较热门的图像滤波操作.图像滤波系列文章浅墨准备花两次更新的时间来讲,此为上篇,为大家剖析了"方框滤波","均值滤 ...

  3. 滤波器——BoxBlur均值滤波及其快速实现

    个人博客地址:滤波器--BoxBlur均值滤波及其快速实现 动机:卷积核.滤波器.卷积.相关 在数字图像处理的语境里,图像一般是二维或三维的矩阵,卷积核(kernel)和滤波器(filter)通常指代 ...

  4. matlab做gaussian高斯滤波

    原文链接:https://blog.csdn.net/humanking7/article/details/46826105 核心提示 在Matlab中高斯滤波非常方便,主要涉及到下面两个函数: 函数 ...

  5. CUDA性能优化----warp深度解析

    本文转自:http://blog.163.com/wujiaxing009@126/blog/static/71988399201701224540201/ 1.引言 CUDA性能优化----sp, ...

  6. SIFT四部曲之——高斯滤波

    本文为原创作品,未经本人同意,禁止转载 欢迎关注我的博客:http://blog.csdn.net/hit2015spring和http://www.cnblogs.com/xujianqing/ 或 ...

  7. 一步步做程序优化-讲一个用于OpenACC优化的程序(转载)

    一步步做程序优化[1]讲一个用于OpenACC优化的程序 分析下A,B,C为三个矩阵,A为m*n维,B为n*k维,C为m*k维,用A和B来计算C,计算方法是:C = alpha*A*B + beta* ...

  8. Java 程序优化 (读书笔记)

    --From : JAVA程序性能优化 (葛一鸣,清华大学出版社,2012/10第一版) 1. java性能调优概述 1.1 性能概述 程序性能: 执行速度,内存分配,启动时间, 负载承受能力. 性能 ...

  9. Atitit   图像处理 平滑 也称 模糊, 归一化块滤波、高斯滤波、中值滤波、双边滤波)

    Atitit   图像处理 平滑 也称 模糊, 归一化块滤波.高斯滤波.中值滤波.双边滤波) 是一项简单且使用频率很高的图像处理方法 用途 去噪 去雾 各种线性滤波器对图像进行平滑处理,相关OpenC ...

随机推荐

  1. clion ctrl+鼠标左键不能调到函数实现

    问题:ctrl+鼠标左键只能在函数定义和申明之间跳转,不能跳转到implement,如果按ctrl+shift+B会报“no implement”. 解决:更改CMakeList文件,更改版本号. c ...

  2. 剑指offer:丑数

    题目描述: 把只包含质因子2.3和5的数称作丑数(Ugly Number).例如6.8都是丑数,但14不是,因为它包含质因子7. 习惯上我们把1当做是第一个丑数.求按从小到大的顺序的第N个丑数. 解题 ...

  3. Plupload的几个demo

    Plupload有以下功能和特点: 1.拥有多种上传方式:HTML5.flash.silverlight以及传统的<input type=”file” />.Plupload会自动侦测当前 ...

  4. UltraEdit 的“查看方式”着色类项型

    UltraEdit 的“查看方式”着色类项型 2011年06月22日 13:16:00 cnki_ok 阅读数 5722   版权声明:本文为博主原创文章,遵循CC 4.0 by-sa版权协议,转载请 ...

  5. FactorVAE论文学习-1

    Disentangling by Factorising 我们定义和解决了从变量的独立因素生成的数据的解耦表征的无监督学习问题.我们提出了FactorVAE方法,通过鼓励表征的分布因素化且在维度上独立 ...

  6. 【Redis】Redis 事务

    Redis 事务介绍 Redis 事务可以一次执行多个命令, 并且带有以下三个重要的保证: 批量操作在发送 EXEC 命令前被放入队列缓存. 收到 EXEC 命令后进入事务执行,事务中任意命令执行失败 ...

  7. 获取进程 pid 以及命令参数

    方法一: wmic process where name="node.exe" get ProcessId,CommandLine 方法二: tlist -c

  8. LODOP打印项水平居中

    LODOP控制打印项水平居中,可以用如下语句,该语句控制的是打印项本身在纸张中水平居中.LODOP.SET_PRINT_STYLEA(0,"Horient",2);这个根据大的打印 ...

  9. python:日期计算

    python语言中的datetime模块可以利用其中的方法获取不同的日期,比如获取当前日期.明天.昨天.上个月.下个月和明年.下面利用几个实例说明这些日期的获取方法,操作如下: 第一步,利用datet ...

  10. linux : 各个发行版中修改python27默认编码为utf-8

    该方法可解决robot报错:'ascii' codec can't encode character u'\xf1' in position 16: ordinal not in  range(128 ...