并行计算提升32K*32K点（32位浮点数） FFT计算速度（4核八线程E3处理器）

　　对32K*32K的随机数矩阵进行FFT变换，数的格式是32位浮点数。将产生的数据存放在堆上，对每一行数据进行N=32K的FFT，记录32K次fft的时间。

比较串行for循环和并行for循环的运行时间。

//并行计算
//调用openmp，通过g++ -fopenmp test.cpp -o out  编译程序
#pragma omp parallel for

    for(int i=;i<LEN;i++)

        fft(num[i],LEN,);

最终的运行时间：247，844，013 us

而串行fft,不调用openmp，它的运行时间为： 779，387，651 us

测试了，将32k*32k float型矩阵存储在堆上和栈上，并对比运行时间：几乎没有区别。

查阅资料：栈的大小为1M，大数组应该放在堆上，或者通过定义成全局变量/静态变量放在静态存储区。

fft算法：（该fft算法，不适合并行化处理，将来会寻找能够进行并行化的fft算法，继续改进）

void fft(complex<float> *x, int n, int inv)

{

	complex<float> u, w, t, tt;

	int m, nv2, nm1, l, le1, le, i, j, k, ip;

	m = int(log(double(n)) / log(2.) + 0.5);

	nv2 = n / 2;

	nm1 = n - 1;

	j = 0;

	for (i = 0; i<nm1; i++)

	{

		if (i >= j)   goto a;

		tt = x[j];

		x[j] = x[i];

		x[i] = tt;

	a:   k = nv2;

	b:

		if (k>j)  goto c;

		j = j - k;

		k = k / 2;

		goto b;

	c:   j = j + k;

	}

	for (l = 1; l <= m; l++){

		le = int(pow(2.0, double(l)));

		le1 = le / 2;

		u = complex<float>(1.0 , 0.0);

		w = complex<float>((float)cos(pi / le1), -(float)sin(pi / le1));

		if (inv != 0) w = conj(w);

		for (j = 0; j<le1; j++){

			for (i = j; i<n; i = le + i){

				ip = i + le1;

				t = x[ip] * u;

				x[ip] = x[i] - t;

				x[i] = x[i] + t;

			}

			u = u*w;

		}

	}

	if (inv != 0)  {

		for (i = 0; i<n; i++){

			x[i] = x[i] / float(n);

		}

	}

}

并行计算提升32K*32K点（32位浮点数） FFT计算速度（4核八线程E3处理器）的更多相关文章

WebGL着色器32位浮点数精度损失问题
问题 WebGL浮点数精度最大的问题是就是因为js是64位精度的,js往着色器里面穿的时候只能是32位浮点数,有效数是8位,精度丢失比较严重. 这篇文章里讲了一些处理方式,但是视坐标这种方式放在我们的 ...
IEEE754 32位浮点数表示范围
6.1浮点数的数值范围根据上面的探讨,浮点数可以表示-∞到+∞,这只是一种特殊情况,显然不是我们想要的数值范围. 以32位单精度浮点数为例,阶码E由8位表示,取值范围为0-255,去除0和255这两 ...
[转载]使用32位64位交叉编码混淆来打败静态和动态分析工具 - wildsator
0×00 摘要混淆是一种能增加二进制分析和逆向工程难度与成本的常用技术.主流的混淆技术都是着眼于使用与目标CPU相同的机器代码,在相同的处理器模式下,隐藏代码并进行控制.本文中引入了一种新的混淆方法 ...
图像转置的SSE优化（支持8位、24位、32位），提速4-6倍。
一.前言转置操作在很多算法上都有着广泛的应用,在数学上矩阵转置更有着特殊的意义.而在图像处理上,如果说图像数据本身的转置,除了显示外,本身并无特殊含义,但是在某些情况下,确能有效的提高算法效率,比如 ...
SSE图像算法优化系列四：图像转置的SSE优化（支持8位、24位、32位），提速4-6倍
一.前言转置操作在很多算法上都有着广泛的应用,在数学上矩阵转置更有着特殊的意义.而在图像处理上,如果说图像数据本身的转置,除了显示外,本身并无特殊含义,但是在某些情况下,确能有效的提高算法效率,比如 ...
Win10 PC一周年更新正式版14393.447 32位/64位更新补丁KB3200970下载 Flash补丁Kb3202790下载
微软在今天凌晨推送了Win10 PC一周年更新正式版14393.447,本次更新补丁代号为KB3200970,面向Win10一周年更新正式版的PC用户. 更新日志 • 提升了多媒体音频.远程桌面以及I ...
最新Internet Download Manager (IDMan) 6.25 Build 20 32位 64位注册破解补丁
0x00 IDMan介绍 Internet Download Manager提升你的下载速度最多达5倍,安排下载时程,或续传一半的软件.Internet Download Manager的续传功能可以 ...
ASM:《X86汇编语言-从实模式到保护模式》第10章：32位x86处理器的编程架构
★PART1:32位的x86处理器执行方式和架构 1. 寄存器的拓展(IA-32) 从80386开始,处理器内的寄存器从16位拓展到32位,命名其实就是在前面加上e(Extend)就好了,8个通用寄存 ...
iOS-程序发布-32位和64位系统的兼容
在苹果推出iPhone5S时,64位的应用就走到了眼前.当时就看见苹果官方资料宣布iOS7.x的SDK支持了64位的应用,而且内置的应用都已经是64位. 我记得自己刚刚接触电脑时还有16位的系统,指针 ...

随机推荐

开源组件ExcelReport 1.5.2 使用手册
ExcelReport是一款基于NPOI开发的报表引擎组件.它基于关注点分离的理念,将数据与样式.格式分离.让模板承载样式.格式等NPOI不怎么擅长且实现繁琐的信息,结合NPOI对数据的处理的优点将E ...
“前.NET Core时代”如何实现跨平台代码重用 ——程序集重用
除了在源代码层面实现共享("前.NET Core时代"如何实现跨平台代码重用 --源文件重用)之外,我们还可以跨平台共享同一个程序集,这种独立于具体平台的"中性" ...
CSS float 定位和缩放问题
今天调试一个看起来很简单的前端问题,但却花了太多的时间,示例代码: <!DOCTYPE html> <html> <head> <title></ ...
Hibernate（5）—— 联合主键、一对一关联关系映射（xml和注解）和领域驱动设计
俗话说,自己写的代码,6个月后也是别人的代码……复习!复习!复习!涉及的知识点总结如下: One to One 映射关系一对一单向外键(XML/Annotation) 一对一双向外键关联(XML/A ...
Anliven - To-Do List
2016 - December Name Type Start Deadline Status Output Comments Last Review SQL必知必会(第4版) Book 2016-1 ...
你可曾见过如此简单粗暴的JavaScript解说 -- if 判断的正确打开方式？
在JavaScript中,对于 if else 的逻辑判断你肯定非常熟悉,本文罗列了几种你不一定知道的简写方式,仅供参考. 例子: 已知小明考了68分,小于60分为不及格,大于60分为及格,问:小明是 ...
Autofac 组件、服务、自动装配《第二篇》
一.组件创建出来的对象需要从组件中来获取,组件的创建有如下4种(延续第一篇的Demo,仅仅变动所贴出的代码)方式: 1.类型创建RegisterType AutoFac能够通过反射检查一个类型,选择 ...
DevOps的基本原则与介绍
DevOps的基本原则与介绍 DevOps这个术语是developer与operations的合并简写.实现还有QA.DevOps描述与精简软件交付流程,在今天已经开始广泛的使用.强调从生 ...
SSH远程登录原理与运用
SSH是每一台Linux电脑的标准配置. 随着Linux设备从电脑逐渐扩展到手机.外设和家用电器,SSH的使用范围也越来越广.不仅程序员离不开它,很多普通用户也每天使用. SSH具备多种功能,可以用于 ...
jquery 点击查看更多箭头变化，文字变化,超出带滚动条。
从网上好了好久,没找到自己要的,自己写了一下. <!DOCTYPE html> <html> <head> <meta charset="utf-8 ...

并行计算提升32K*32K点（32位浮点数） FFT计算速度（4核八线程E3处理器）

并行计算提升32K*32K点（32位浮点数） FFT计算速度（4核八线程E3处理器）的更多相关文章

随机推荐

热门专题