在fortran下进行openmp并行计算编程
最近写水动力的程序,体系太大,必须用并行才能算的动,无奈只好找了并行编程的资料学习了。我想我没有必要在博客里开一个什么并行编程的教程之类,因为网上到处都是,我就随手记点重要的笔记吧。这里主要是openmp的~
1 临界与归约
在涉及到openmp的并行时,最需要注意的就是被并行的区域中的公共变量,对于需要reduce的变量,尤其要注意,比如这段代码:
program main
implicit none
include 'omp_lib.h'
integer N,M,i
real(kind=8) t
N=20000
t=0.0
!$OMP PARALLEL DO
do i=1,N
t=t+float(i);
M=OMP_get_num_threads()
enddo
write(*, "('t = ', F20.5, ' running on ', I3, ' threads.')") t,M
pause
stop
end
串行代码可以很容易的得到正确结果:
t = 200010000.00000 running on 1 threads.
不幸的是,如果是并行的话,可能每次都得到一个不同的结果:
t = 54821260.00000 running on 8 threads.
t = 54430262.00000 running on 8 threads.
....
原因很简单,假设do被并行了两个线程,A1,A2,则每个线程都可以t,在其中一个线程访问t的时候,另一个线程修改了t,导致t的某些值“丢了”。解决方法有两种,第一种就是“临界”,就是锁定t:
!$OMP PARALLEL DO
do i = , N
!$OMP CRITICAL
t = t+float(i)
!$OMP END CRITICAL
M = OMP_get_num_threads()
enddo
这样每个时刻只有一个线程能访问这个变量。显然,这种方法会遇到“短木板瓶颈”,更高效的方法是使用“归约”:
!$OMP PARALLEL DO REDUCTION(+:t)
do i = , N
t = t+float(i)
M = OMP_get_num_threads()
enddo
此时程序会自动在内部实现储存部分和之类的操作。这个方法比临界要高效的多,这是我这里运行的结果:临界0.005s, 归约0.003s。对于大任务,速度会更快。
2 条件并行
有时,对于小的循环,多线程的消耗超过了并行的节省时间,显然这是就不值得并行了。比如
do i = , N
t = t+(sin(float(i))+2.0)**0.3+abs(cos(log(float(i))))**0.7
M = OMP_get_num_threads()
enddo
发现:
N 20000 5000
tserial 0.027s 0.003
tparallel 0.013s 0.004
推断在N>5000时应该并行更有效,可以加上条件编译:
!$OMP PARALLEL DO REDUCTION(+:t) if(N > 5000)
3 负载平衡
不同线程间的工作量“不平等”是个很麻烦的问题,他会大大降低程序并行效率,比如这个程序:
N =
!$OMP PARALLEL DO PRIVATE(j)
do i = , N
do j = i, N
a(j, i) = fun(i, j)
enddo
enddo
其中fun是个费时的函数,串行与8核CPU并行的时间比较:
serial:3m28.007s;paralle:49.940s 加速比 4.1 太低了
这个显然与CPU个数无关。分析上面的循环发现,i=1时内层需要N个循环,而i=2500时候内部仅仅N/2个循环,极其不平衡,因此可以显式指定其调动模式,改进负载平衡。NAMD中有个LDB模块就是干这个的。SCHEDULE一般格式:
SCHEDULE(type, chunk)
可以比较一下:
!$OMP PARALLEL DO SCHEDULE(static,1) 34.955s
!$OMP PARALLEL DO SCHEDULE(dynamic,1) 29.773s
!$OMP PARALLEL DO SCHEDULE(guided,1) 53.116s
!$OMP PARALLEL DO SCHEDULE(static,500) 48.822s
!$OMP PARALLEL DO SCHEDULE(dynamic,500) 50.485s
!$OMP PARALLEL DO SCHEDULE(guided,500) 51.611s
需要注意的是,实际中很难一下看出那种调度方式最好。通常需要实际试验,这还与你调用的CPU数目有关。SCHEDULE中,增大chunk可以提高缓存命中率,但是以降低负载平衡为代价的
在fortran下进行openmp并行计算编程的更多相关文章
- OpenMP并行编程
什么是OpenMP?“OpenMP (Open Multi-Processing) is an application programming interface (API) that support ...
- [OpenMP] 并行计算入门
OpenMP并行计算入门 个人理解 OpenMP是一种通过共享内存并行系统的多处理器程序设计的编译处理方案,通过预编译指令告诉编译器哪些代码块需要被并行化,通过拷贝代码块实现并行程序.对于循环的并行化 ...
- Openmp多线程编程练习
环境配置 一般使用Visual Studio2019来作为openmp的编程环境 调试-->属性-->C/C++-->所有选项-->Openmp支持改为 是(可以使用下拉菜单) ...
- Linux下的C Socket编程 -- server端的继续研究
Linux下的C Socket编程(四) 延长server的生命周期 在前面的一个个例子中,server在处理完一个连接后便会立即结束掉自己,然而这种server并不科学啊,server应该是能够一直 ...
- 分享在winform下实现模块化插件编程-优化版
上一篇<分享在winform下实现模块化插件编程>已经实现了模块化编程,但我认为不够完美,存在以下几个问题: 1.IAppContext中的CreatePlugInForm方法只能依据完整 ...
- Linux下的C Socket编程 -- server端的简单示例
Linux下的C Socket编程(三) server端的简单示例 经过前面的client端的学习,我们已经知道了如何创建socket,所以接下来就是去绑定他到具体的一个端口上面去. 绑定socket ...
- Linux下的C Socket编程 -- 获取对方IP地址
Linux下的C Socket编程(二) 获取域名对应的IP地址 经过上面的讨论,如果我们想要连接到远程的服务器,我们需要知道对方的IP地址,系统函数gethostbyname便能够实现这个目的.它能 ...
- Linux下的C Socket编程 -- 简介与client端的处理
Linux下的C Socket编程(一) 介绍 Socket是进程间通信的方式之一,是进程间的通信.这里说的进程并不一定是在同一台机器上也有可能是通过网络连接的不同机器上.只要他们之间建立起了sock ...
- windows下的socket网络编程
windows下的socket网络编程 windows下的socket网络编程 clinet.c 客户端 server.c 服务器端 UDP通信的实现 代码如下 已经很久没有在windows下编程了, ...
随机推荐
- 理解ASP.NET 5的中间件
今天推荐的这篇文章,讲述了如何实现和使用ASP.NET 5的中间件. 虽然在ASP.NET 5中,微软没有再强调OWIN(Open Web Interface for .NET)及其微软官方的OWIN ...
- android知识体系
1.Android架构分为4层*应用程序层 Android会同一系列核心应用程序包一起发布,该应用程序包包括email客户端,SMS短消息程序,日历,地图,浏览器,联系人管理程序等.所有的应用程序都是 ...
- POJ1155 TELE(树形DP)
题目是说给一棵树,叶子结点有负权,边有正权,问最多能选多少个叶子结点,使从叶子到根的权值和小于等于0. 考虑数据规模表示出状态:dp[u][k]表示在u结点为根的子树中选择k个叶子结点的最小权值 最后 ...
- BZOJ3461 : Jry的时间表
fl[i]表示[1,i]操作一次,且在[j+1,i]处操作的最大值 1:把[j+1,i]改为b[i]: max(sum[j]+b[i]*(i-j)) =b[i]*i+max(-j*b[i]+sum[j ...
- 转 Web移动应用调试工具——Weinre
如今人们也越来越习惯在手机上浏览网页,而在手机上这些针对桌面浏览器设计的网页经常惨不忍睹.Web应用开发者需要针对手机进行界面的重新设计,但是手机上并没有称心如意的调试工具(如Firebug.web ...
- android环境安装之android4.2安装(转)
准备学习android,着手安装android时听说很麻烦,在网上看了很多android安装说明,都是android比较早的版本,我这里安装了android4.2,简单记录一下. 安装分为几步,首先申 ...
- ubuntu中的Wine详解
什么是wine?(转自百度百科,具体看百科) wine,是一款优秀的Linux系统平台下的模拟器软件,用来将Windows系统下的软件在Linux系统下稳定运行,该软件更新频繁,日臻完善,可以运行许多 ...
- 【POJ】3255 Roadblocks(次短路+spfa)
http://poj.org/problem?id=3255 同匈牙利游戏. 但是我发现了一个致命bug. 就是在匈牙利那篇,应该dis2单独if,而不是else if,因为dis2和dis1相对独立 ...
- YUV YCbCr
一,介绍 YUV是一种颜色空间 其中“Y”表示明亮度(Luminance或Luma),也就是灰阶值: 而“U”和“V” 表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和 ...
- JAVA排序算法
]; ; i < ; i++){ sort[i] = ran.nextInt(); } System.out.print(;i<sort.length;i++){ ;j<sort ...