OpenMP的简单使用教程
转自:http://binglispace.com/2015/01/09/openmp-intro/
OpenMP的简单使用教程
今天有幸参加了一个XSEDE OpenMP的workshop讲座,真是受益匪浅啊。简单来说OpenMP就是一个多线程程序的框架。和MPI相比,MPI每一个Node都有独立的内存空间,但是OpenMP所有的线程共享一个内存空间。显而易见,OpenMP的硬件制约要比MPI大,但是只要硬件跟得上就会比MPI要快。OpenMP一般都会部署再超级计算机中心,但是几年之前它就成为了一个通用标准。基本上所有的主流C/C++
语言编译器都支持OpenMP(当然除了C之外,OpenMP还支持Fortran,不过这里我主要介绍一下C),这意味着只要你的计算机上安装了C
的编译器你就可以直接使用OpenMP不需要额外部署任何东西。(这太方便了,想想Hadoop,当年为了部署它,我被折磨的那个叫一个销魂啊。)
##编写OpenMP程序
编写OpenMP的程序并不需要额外的学习很多东西,其实就是普通的C代码加上一些Directives。用Hello World为例:
#include<stdio.h>
int main(int argc,char** argv){
printf("Hello World!\n");
return 0;
}
这是一个最简单的程序,编译执行后的输出是。
Hello World!
然后我们给他加上OpenMP的directive,他就变成了。
#include<stdio.h>
int main(int argc,char** argv){
#pragma omp parallel
printf("Hello World!\n");
return 0;
}
看到没?就是简单的加了一句话#pragma omp parallel
,若是正常编译的话,这句话会被忽略一点都不影响你的程序,只有调用OpenMP的lib编译的时候才会编译成OpenMP的版本。以GCC
为例,OpenMP的编译方法是:
gcc -o hello hello.c -fopenmp
仅仅多了一个-fopenmp
的flag,太简单了。现在我们试试效果,这个hello world
的输出结果变成了:
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
Hello World!
输出了8次Hello World!
。这是为什么呢?原因是那个directive之后的代码被多线程操作了,默认情况下GCC
的-fopenmp
flag会调用和你CPU内核数相同数量的线程来执行程序。这个线程数量是可以控制,只需要修改环境变量中OMP_NUM_THREADS
参数,例如:
export OMP_NUM_THREADS=2
之后也不需要重新编译,直接执行之前的程序,就会发现Hello World!
的数量变成了两个了。
###for循环
大多数情况下,我们主要会将多线程技术应用在循环中而不是全部代码。OpenMP主要被应用于for循环的多线程处理,这主要还是因为for循环比较容易控制。当然如果你非要用在while循环上也不是不可以,只不过要大量修改你的代码然后用一个block来圈在while之外,总之是一个比较另类的操作了。我在此就不多说了。用一个最简单的例子,找寻1到10000中最大的数字。当然这个例子很白痴,但是代码简洁比较好理解。
#include<stdio.h>
int main(int argc, char** argv){
int i;
int max = 0;
#pragma omp parallel for
for(i=0;i<=10000;i++){
if(i>max)max=i;
}
printf("%d\n",max);
}
结果是:
10000
我们在directive里面加了一个for
,变成了#pragma omp parallel for
,这样的话OpenMP就只会把下面的for循环进行多线程处理,所以我们只看到了一个输出而不是好几个。
这里有一点一定要主要,将要进行多线程处理的for循环一定是独立的(independent),也就是说下面这种情况是不可以的。
for(i=0;i<10000;i++){
a[i] = a[i-1]+1;
}
每一次循环都需要之前的结果,这种循环没有办法进行多线程处理,因为每一次都要等待之前的输出,强行处理还会出错。
####private参数
细心的话,也许你会有一个问题。那就是循环只有一个迭代器(通常是变量i
),但进行多线程处理的时候,这个迭代器会不会被各个线程互相扯皮?这却是是一个问题,如果这个迭代器仅仅用作计数的话可能还不是什么大问题,但是如果这个变量也参与运算,这就麻烦了,所有OpenMP引入了private参数,用来告诉编译器那些变量需要有一个本地的实例。这个参数用于迭代器的话就变成了下面的例子。
#pragma omp parallel for private(i)
for(i=0;i<10000;i++){
...
}
这样的话每个线程都有自己的i
拷贝,就不会冲突了。当然这个参数的用途很广,这仅仅是一个简单的例子。但事实上基本上每次对循环进行多线程处理的时候都需要拷贝迭代器,因此可以把for private()
这样连起来记忆,不容易忘。
####reduction参数
我们回到之前的那个10000以内最大整数的例子。之前我提到了循环一定不能互相关联,否则不是效率低下(还不如单线程),就是出错误。这个例子其实就是一个反面典型,就是因为max
这个变量。循环的每一步都会读取之前的结果来参与计算。可是针对max
变量的这个例子,我们还是有解决办法的。
如果我们环境变量设置线程数为2,这个循环的前5000项和后5000项将分别在两个不同的线程中处理,也就是一份为二。我们需要的是所有数值中的最大值,换一个角度想。我们可以在前5000项和后5000项分别算出最大值,然后在对这两个结果进行比较取最大值,这样的话我们同样完成了寻找最大值的目的同时还可以多线程处理。
那么怎样做到呢?这个时候我们就需要reduction这个参数。reduction就是让某些变量先在各自的线程中独自计算,然后在循环结束时在合并。那么我们用这个参数来修改之前的例子:
#include<stdio.h>
int main(int argc, char** argv){
int i;
int max = 0;
#pragma omp parallel for private(i) reduction(max:max)
for(i=0;i<=10000;i++){
if(i>max)max=i;
}
printf("%d\n",max);
}
这下就变成了完整版。reduction这个函数格式是reduction(operation:variable)
,冒号前面的是操作类型,冒号后面的是变量名。目前reduction这个函数只支持如下几个操作:
+
(初始值是0)-
(初始值是0)max
(初始值是最小值)min
(初始值是最大值)Bit(&,|,^,iand,ior)
(初始值是~0,0)Logical(&&,||,.and.,.or.)
(初始值是0,1,.true.,.false.)
##编译与执行
其实之前已经提到了如何编译和执行。今天有幸在超计算机中心的服务器上面测试了几次,然后回到本地计算机试了一下,发现本地执行简单的多。因为本地执行就是简单的./program
。Windows下的话你可以试试双击。在服务器上面跑还要考虑调度多少node和多少core,但是在本地不需要提供任何额外的参数就和执行普通程序一样。所以说OpenMP真是多线程计算一大神器啊,主要还是操作简单。
之前提到了现在主流的C/C++
编译器都已经支持OpenMP了,那么都有那些编译器呢?我在这里给出一个列表。
编译器 | 参数 | 不设置环境变量时的初始值 |
---|---|---|
GNU (gcc, g++, gfortran) | -fopenmp | 与CPU内核数相同数量的线程 |
Intel (icc ifort) | -openmp | 与CPU内核数相同数量的线程 |
Portland Group (pgcc,pgCC,pgf77,pgf90) | -mp | 只使用一个线程 |
顺便在提一下,环境变量是控制线程数的环境变量是OMP_NUM_THREADS
。
###参考文献
OpenMP的简单使用教程的更多相关文章
- 程序员,一起玩转GitHub版本控制,超简单入门教程 干货2
本GitHub教程旨在能够帮助大家快速入门学习使用GitHub,进行版本控制.帮助大家摆脱命令行工具,简单快速的使用GitHub. 做全栈攻城狮-写代码也要读书,爱全栈,更爱生活. 更多原创教程请关注 ...
- knockout简单实用教程3
在之前的文章里面介绍了一些KO的基本用法.包括基本的绑定方式,基本的ko的绑定语法包括text绑定,html绑定等等(如有不明请参照上两篇文章),下面呢介绍一下关于ko的其他方面的知识.包括比较特殊绑 ...
- GitHub这么火,程序员你不学学吗? 超简单入门教程 【转载】
本GitHub教程旨在能够帮助大家快速入门学习使用GitHub. 本文章由做全栈攻城狮-写代码也要读书,爱全栈,更爱生活.原创.如有转载,请注明出处. GitHub是什么? GitHub首先是个分布式 ...
- sea.js简单使用教程
sea.js简单使用教程 下载sea.js, 并引入 官网: http://seajs.org/ github : https://github.com/seajs/seajs 将sea.js导入项目 ...
- vim简单使用教程【转】
vim的学习曲线相当的大(参看各种文本编辑器的学习曲线),所以,如果你一开始看到的是一大堆VIM的命令分类,你一定会对这个编辑器失去兴趣的.下面的文章翻译自<Learn Vim Progress ...
- 简单脱壳教程笔记(2)---手脱UPX壳(1)
本笔记是针对ximo早期发的脱壳基础视频教程,整理的笔记. ximo早期发的脱壳基础视频教程 下载地址如下: http://down.52pojie.cn/%E5%90%BE%E7%88%B1%E7% ...
- 【git】git简单使用教程
git的简单使用教程: 1.安装git bash客户端 2.打开git bash,cd到需要存储代码的路径下, 执行:git clone -b deploy ssh://git@gitlab.xxxx ...
- Flyway 简单入门教程
原文地址:Flyway 简单入门教程 博客地址:http://www.extlight.com 一.前言 Flyway 是一款开源的数据库版本管理工具,它更倾向于规约优于配置的方式.Flyway 可以 ...
- 【转】正则表达式简介及在C++11中的简单使用教程
正则表达式Regex(regular expression)是一种强大的描述字符序列的工具.在许多语言中都存在着正则表达式,C++11中也将正则表达式纳入了新标准的一部分,不仅如此,它还支持了6种不同 ...
随机推荐
- JDE修改Grid列样式
Set Grid Color :to change the background color of a cell, row, column, or the entire control. Set Gr ...
- Entity Framework 复杂类型
为了说明什么是复杂属性,先举一个例子. public class CompanyAddress { public int ID { get; set; } public string Compan ...
- mac 找文件
如何找到 etc 方法1: ! D# D! s2 F" f 七度苹果电脑软件1.打开Finder,按快键盘 Command + Shift + G,即可调出 前往文件夹 ,也可以左上角 找到 ...
- mac 无法ssh localhost
mac 无法ssh localhost,错误提示:bash: /usr/local/bin/ssh_session: Permission denied在网上找了很久也没有找到解决方案,最后根据提示自 ...
- 使用jvisualvm.exe 的Btrace插件监控应用程序
之前提到使用命令行的方式执行btrace监控,其实jdk提供更好的方式监控应用程序. 我们可以使用jvisualvm.exe加插件的方式监控,这样更加方便. 1.在jvisualvm.exe安装btr ...
- 使用MediaPlayer播放音频-----之二
MediaPlayer播放不同来源的音频文件: 一.播放应用的资源文件 1.调用MediaPlayer的create(Context context , int resid)方法加载指定资源文件. ...
- TopCoder SRM 582 ColorfulBuilding
DP 思路是三维,但是时间肯定会超时,需要根据其特殊性质加两个标记数组,优化成二维. 刚开始想了N久N久,没感觉,还是动手画了一下才有用呀,意淫再久,不如动手呀. 代码: #include<i ...
- ASP.NET MVC学习之路由篇(3)
根据路由输出链接 既然是网站开发自然少不了链接,我们已经学会了强大的路由,但是还缺少一步就是能够将这些路由的路径输出到页面,下面我们就开始学习如何输出路由路径. 首先我们的路由注册部分如下所示: 1 ...
- WP8 学习 Onnavigatedto和OnnavigatedFrom的区别
OnNavigatedTo:重写 OnNavigatedTo 方法以检查导航请求并且准备供显示的页面.这个方法就像是初始化(Ini) ,它先于Loaded事件之前被执行,所以在这里可以控制一些初始化前 ...
- POJ 1741 树的点分治
题目大意: 树上找到有多少条路径的边权值和>=k 这里在树上进行点分治,需要找到重心保证自己的不会出现过于长的链来降低复杂度 #include <cstdio> #include & ...