CPU和GPU实现julia

主要目的是通过对比，学习研究如何编写CUDA程序。julia的算法还是有一定难度的，但不是重点。由于GPU实现了也是做图像识别程序，所以缺省的就是和OPENCV结合起来。

一、CPU实现(julia_cpu.cpp)

//julia_cpu 采用cpu实现julia变换

#
.;
     );
     );

    cuComplex c(.,.);
    cuComplex a(jx,jy);
    ;i;i)
        {
            ;
        }
    }
    ;
}
;x;y;c;c;
            }

        }
    }
    imshow(;
}

这里的实现，主要是说明julia的算法，它本身是一个递归的，而且具有一定计算复杂度的算法。

二、GPU实现

为了能够深刻理解这里的技术，我做了一系列的实验。需要注意的是GPU编译非常慢，不知道有什么办法能够加快这个速度。

此外，比较麻烦的就是矩阵的读入读出，因为现在的资料缺乏，所以很多东西还搞不清楚。

1）CUDA和OPENCV联系起来；（test1.cu)

CUDA主要还是来做数学运算的，它本身和OPENCV没有必然的联系。一般来说，计算本身在CUDA中，而OPENCV编写相关转换，进行结果显示。这里实现的功能就是读入一幅单色图像，所有像素进行反转。

编写代码的话，还是基于现有的模板，进行参数的调整，这样来得最快；基于现有的数据不断地调整，这样也能够控制错误。

注意，CUDA核中，不能用任何OPENCV的函数。目前我只能实现这样的效果，因为多数组如何引入，必须要查更多的资料。

主要就是数组的操作，现在只能做单数组，一旦多维就溢出。

);
resize(src,src,Size(N,N));
;i;i;j;c;c;
}

2）CUDA计算斐波那契数，思考CNN的实现；

CUDA是否适合斐波那契，像julia这样的，每一个点都是独立的，它很适合；如果能够分出一些块来，应该也是适合的因此，单个的斐波那契运算不适合，但是做到一个数组中，并且以并行化的想法来运算，还是有一定价值的。

结果报不支持递归，那么在以后运算设计的时候要注意这一点。并行设计从来都不是一个简单的问题，必然有很陡峭的学习曲线，需要分丰富的经验，也有很远大的市场。

但是，CNN的确算的上是一个典型的实现了，它不需要串行的运算，而是在大量的并行的结果之后，选择一个最好的参数，所以CNN可以作为图像领域和CUDA结合的一个典型实现。

3）CUDA实现julia。

在前面的基础上，非常顺利

.;
     );
     );
    cuComplex c(.,.);
    cuComplex a(jx,jy);
    ;i;i)
        {
            ;
        }
    }
    ;
}
__device__  )
    {
        )));
    }
}
;
}
;i;
    }
    checkCudaErrors(cudaMalloc((;i;j;c;c;
}

三、小结

CUDA编程是一个新的领域，虽然文档中都说不复杂、不复杂的，但是想要大规模应用不可能不复杂。所以先基于现有的例子，将能够跑起来的东西跑起来。然后思考融合，形成自己的东西，这就是生产率。我相信，不需要很多的时间，我就能够使用CUDA的计算功能去接触并解决一些以前无法去做的东西。

祝成功，愿回顾。

来自为知笔记(Wiz)

CPU和GPU实现julia的更多相关文章

浅谈CPU和GPU的区别
导读: CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景.CPU需要很强的通用性来处理各种不同的数据类型,而GPU面对的则是类型高度统一的.相互无依赖的大规模数据 ...
CPU和GPU性能对比
计算20000次10000点的fft,分别使用CPU和GPU,得 the running time of cpu is : 2.3696s the running time of gpu is : 0 ...
图像重采样（CPU和GPU）
1 前言之前在写影像融合算法的时候,免不了要实现将多光谱影像重采样到全色大小.当时为了不影响融合算法整体开发进度,其中重采样功能用的是GDAL开源库中的Warp接口实现的. 后来发现GDAL War ...
CPU和GPU的区别
个人认为CPU和GPU各有自己的适应领域.CPU(Central Processing Unit)计算核心较少,通常是双核.四核.八核,但是拥有大量的共享缓存.预测.乱序执行等优化,可以做逻辑非常复杂 ...
CPU和GPU的差别
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcyt317 首先需要解释CPU和GPU这两个缩写分别代表什么.CPU即中央处理器, ...
Shader 入门笔记(二) CPU和GPU之间的通信
渲染流水线的起点是CPU,即应用阶段. 1)把数据加载到显存中 2)设置渲染状态,通俗说这些状态定义了场景中的网格是怎样被渲染的. 3)调用DrawCall,一个命令,CPU通知GPU.(这个命令仅仅 ...
Caffe源码理解2：SyncedMemory CPU和GPU间的数据同步
目录写在前面成员变量的含义及作用构造与析构内存同步管理参考博客:blog.shinelee.me | 博客园 | CSDN 写在前面在Caffe源码理解1中介绍了Blob类,其中的数据成 ...
（七） Keras 绘制网络结构和cpu，gpu切换
视频学习来源 https://www.bilibili.com/video/av40787141?from=search&seid=17003307842787199553 笔记首先安装py ...
Shader 入门笔记(二) CPU和GPU之间的通信,渲染流水线
渲染流水线 1)应用阶段(CPU处理) 首先,准备好场景数据(摄像机位置,视锥体,模型和光源等) 接着,做粗粒度剔除工作. 最后,设置好每个模型的渲染状态(使用的材质,纹理,shader等) 这一阶段 ...

随机推荐

[翻译] java NIO 教程－－－介绍
原文地址:http://tutorials.jenkov.com/java-nio/index.html Java NIO(new IO)是从java1.4之后的对IO API的另一种选择,即对标准j ...
Postfix Completion 的使用
Postfix Completion 的介绍 Postfix Completion 功能本质上也是代码模板,只是它比 Live Templates 来得更加便捷一点点而已.具体它是做什么的,我们通过下 ...
java collections读书笔记（9)collection框架总览（2）
框架算法: 1)collection接口 add() Adds an element to the collection.addAll() Adds a collection of element ...
Codeforce Round #210 Div2
A:对角线为k其他为0 B:利用两个相邻的数一定gcd为1和1与任何数gcd为1错k个位就行了 C:不会做操蛋,好像是因为上一层的始终小于下一层的好吧C又研究了一下,是个贪心题,不符合的情况先科不考 ...
算法训练 Torry的困惑(基本型)
http://lx.lanqiao.org/problem.page?gpid=T129 算法训练 Torry的困惑(基本型) 时间限制:1.0s 内存限制:512.0MB 问题描述 ...
Python学习总结2：raw_input() 与 input()
参考http://www.cnblogs.com/way_testlife/archive/2011/03/29/1999283.html 1. 输入数据要求 raw_input() 直接读取控制台的 ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
paper 43 ：ENDNOTE下载及使用方法简介
转载来源:http://blog.sciencenet.cn/blog-484734-367968.html 软件下载来源: EndNote v9.0 Final 正式版:http://www.ttd ...
paper 17 ：机器学习算法思想简单梳理
前言: 本文总结的常见机器学习算法(主要是一些常规分类器)大概流程和主要思想. 朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分 ...
paper 11：matlab中fix函数，floor函数，ceil函数，round函数的区分
1)fix(n)朝零方向取整,这是一类应用在整数取值上的函数,就如同以前我们所研究的求整问题,例如,fix(pi)=3;fix(-1.3)=-1; fix(1.3)=1; 2)round(n):四舍五 ...

CPU和GPU实现julia

CPU和GPU实现julia的更多相关文章

随机推荐

热门专题