OpenMP并行程序设计——for循环并行化详解
在C/C++中使用OpenMP优化代码方便又简单,代码中需要并行处理的往往是一些比较耗时的for循环,所以重点介绍一下OpenMP中for循环的应用。个人感觉只要掌握了文中讲的这些就足够了,如果想要学习OpenMP可以到网上查查资料。
工欲善其事,必先利其器。如果还没有搭建好omp开发环境的可以看一下OpenMP并行程序设计——Eclipse开发环境的搭建
首先,如何使一段代码并行处理呢?omp中使用parallel制导指令标识代码中的并行段,形式为:
#pragma omp parallel
{
每个线程都会执行大括号里的代码
}
比如下面这段代码:
#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
//设置线程数,一般设置的线程数不超过CPU核心数,这里开4个线程执行并行代码段
omp_set_num_threads(4);
#pragma omp parallel
{
cout << "Hello" << ", I am Thread " << omp_get_thread_num() << endl;
}
}
omp_get_thread_num()是获取当前线程id号
以上代码执行结果为:
Hello, I am Thread 1
Hello, I am Thread 0
Hello, I am Thread 2
Hello, I am Thread 3
可以看到,四个线程都执行了大括号里的代码,先后顺序不确定,这就是一个并行块。
带有for的制导指令:
for制导语句是将for循环分配给各个线程执行,这里要求数据不存在依赖。
使用形式为:
(1)#pragma omp parallel for
for()
(2)#pragma omp parallel
{//注意:大括号必须要另起一行
#pragma omp for
for()
}
注意:第二种形式中并行块里面不要再出现parallel制导指令,比如写成这样就不可以:
#pragma omp parallel
{
#pragma omp parallel for
for()
}
第一种形式作用域只是紧跟着的那个for循环,而第二种形式在整个并行块中可以出现多个for制导指令。下面结合例子程序讲解for循环并行化需要注意的地方。
假如不使用for制导语句,而直接在for循环前使用parallel语句:(为了使输出不出现混乱,这里使用printf代替cout)
#include <iostream>
#include <stdio.h>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
//设置线程数,一般设置的线程数不超过CPU核心数,这里开4个线程执行并行代码段
omp_set_num_threads(4);
#pragma omp parallel
for (int i = 0; i < 2; i++)
//cout << "i = " << i << ", I am Thread " << omp_get_thread_num() << endl;
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
输出结果为:
i = 0, I am Thread 0
i = 0, I am Thread 1
i = 1, I am Thread 0
i = 1, I am Thread 1
i = 0, I am Thread 2
i = 1, I am Thread 2
i = 0, I am Thread 3
i = 1, I am Thread 3
从输出结果可以看到,如果不使用for制导语句,则每个线程都执行整个for循环。所以,使用for制导语句将for循环拆分开来尽可能平均地分配到各个线程执行。将并行代码改成这样之后:
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
输出结果为:
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 5, I am Thread 3
可以看到线程0执行i=0和1,线程1执行i=2和3,线程2执行i=4,线程3执行i=5。线程0就是主线程
这样整个for循环被拆分并行执行了。上面的代码中parallel和for连在一块使用的,其只能作用到紧跟着的for循环,循环结束了并行块就退出了。
上面的代码可以改成这样:
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
这写法和上面效果是一样的。需要注意的问题来了:如果在parallel并行块里再出现parallel会怎么样呢?回答这个问题最好的方法就是跑一遍代码看看,所以把代码改成这样:
#pragma omp parallel
{
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
输出结果:
i = 0, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 1, I am Thread 0
i = 2, I am Thread 0
i = 2, I am Thread 0
i = 3, I am Thread 0
i = 3, I am Thread 0
i = 4, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
i = 5, I am Thread 0
i = 0, I am Thread 0
i = 1, I am Thread 0
i = 0, I am Thread 0
i = 2, I am Thread 0
i = 1, I am Thread 0
i = 3, I am Thread 0
i = 2, I am Thread 0
i = 4, I am Thread 0
i = 3, I am Thread 0
i = 5, I am Thread 0
i = 4, I am Thread 0
i = 5, I am Thread 0
可以看到,只有一个线程0,也就是只有主线程执行for循环,而且总共执行4次,每次都执行整个for循环!所以,这样写是不对的。
当然,上面说的for制导语句的两种写法是有区别的,比如两个for循环之间有一些代码只能有一个线程执行,那么用第一种写法只需要这样就可以了:
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
//这里是两个for循环之间的代码,将会由线程0即主线程执行
printf("I am Thread %d\n", omp_get_thread_num());
#pragma omp parallel for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
离开了for循环就剩主线程了,所以两个循环间的代码是由线程0执行的,输出结果如下:
i = 0, I am Thread 0
i = 2, I am Thread 1
i = 1, I am Thread 0
i = 3, I am Thread 1
i = 4, I am Thread 2
i = 5, I am Thread 3
I am Thread 0
i = 4, I am Thread 2
i = 2, I am Thread 1
i = 5, I am Thread 3
i = 0, I am Thread 0
i = 3, I am Thread 1
i = 1, I am Thread 0
但是如果用第二种写法把for循环写进parallel并行块中就需要注意了!
由于用parallel标识的并行块中每一行代码都会被多个线程处理,所以如果想让两个for循环之间的代码由一个线程执行的话就需要在代码前用single或master制导语句标识,master由是主线程执行,single是选一个线程执行,这个到底选哪个线程不确定。所以上面代码可以写成这样:
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
#pragma omp master
{
//这里的代码由主线程执行
printf("I am Thread %d\n", omp_get_thread_num());
}
#pragma omp for
for (int i = 0; i < 6; i++)
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
效果和上面的是一样的,如果不指定让主线程执行,那么将master改成single即可。
到这里,parallel和for的用法都讲清楚了。接下来就开始讲并行处理时数据的同步问题,这是多线程编程里都会遇到的一个问题。
为了讲解数据同步问题,先由一个例子开始:
#include <iostream>
#include "omp.h"
using namespace std;
int main(int argc, char **argv) {
int n = 100000;
int sum = 0;
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
sum += 1;
}
}
}
cout << " sum = " << sum << endl;
}
期望的正确结果是100000,但是这样写是错误的。看代码,由于默认情况下sum变量是每个线程共享的,所以多个线程同时对sum操作时就会因为数据同步问题导致结果不对,显然,输出结果每次都不同,这是无法预知的,如下:
第一次输出sum = 58544
第二次输出sum = 77015
第三次输出sum = 78423
那么,怎么去解决这个数据同步问题呢?解决方法如下:
方法一:对操作共享变量的代码段做同步标识
代码修改如下:
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
#pragma omp critical
sum += 1;
}
}
}
cout << " sum = " << sum << endl;
critical制导语句标识的下一行代码,也可以是跟着一个大括号括起来的代码段做了同步处理。输出结果100000
方法二:每个线程拷贝一份sum变量,退出并行块时再把各个线程的sum相加
并行代码修改如下:
#pragma omp parallel
{
#pragma omp for reduction(+:sum)
for (int i = 0; i < n; i++) {
{
sum += 1;
}
}
}
reduction制导语句,操作是退出时将各自的sum相加存到外面的那个sum中,所以输出结果就是100000啦~~
方法三:这种方法貌似不那么优雅
代码修改如下:
int n = 100000;
int sum[4] = { 0 };
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for
for (int i = 0; i < n; i++) {
{
sum[omp_get_thread_num()] += 1;
}
}
}
cout << " sum = " << sum[0] + sum[1] + sum[2] + sum[3] << endl;
每个线程操作的都是以各自线程id标识的数组位置,所以结果当然正确。
数据同步就讲完了,上面的代码中for循环是一个一个i平均分配给各个线程,如果想把循环一块一块分配给线程要怎么做呢?这时候用到了schedule制导语句。下面的代码演示了schedule的用法:
#include <iostream>
#include "omp.h"
#include <stdio.h>
using namespace std;
int main(int argc, char **argv) {
int n = 12;
omp_set_num_threads(4);
#pragma omp parallel
{
#pragma omp for schedule(static, 3)
for (int i = 0; i < n; i++) {
{
printf("i = %d, I am Thread %d\n", i, omp_get_thread_num());
}
}
}
}
上面代码中for循环并行化时将循环很多很多块,每一块大小为3,然后再平均分配给各个线程执行。
输出结果如下:
i = 6, I am Thread 2
i = 3, I am Thread 1
i = 7, I am Thread 2
i = 4, I am Thread 1
i = 8, I am Thread 2
i = 5, I am Thread 1
i = 0, I am Thread 0
i = 9, I am Thread 3
i = 1, I am Thread 0
i = 10, I am Thread 3
i = 2, I am Thread 0
i = 11, I am Thread 3
从输出结果可以看到:线程0执行i=0 1 2,线程1执行i=3 4 5,线程2执行i=6 7 8,线程3执行i=9 10 11,如果后面还有则又从线程0开始分配。
OK,for循环并行化的知识基本讲完了,还有一个有用的制导语句barrier,用它可以在并行块中设置一个路障,必须等待所有线程到达时才能通过,这个一般在并行处理循环前后存在依赖的任务时使用到。
是不是很简单?
---------------------
作者:陈靖_
来源:CSDN
原文:https://blog.csdn.net/zhongkejingwang/article/details/40350027
版权声明:本文为博主原创文章,转载请附上博文链接!
OpenMP并行程序设计——for循环并行化详解的更多相关文章
- OpenMP并行构造的schedule子句详解 (转载)
原文:http://blog.csdn.net/gengshenghong/article/details/7000979 schedule的语法为: schedule(kind, [chunk_si ...
- 批处理命令 For循环命令详解!
批处理for命令详解FOR这条命令基本上都被用来处理文本,但还有其他一些好用的功能!看看他的基本格式(这里我引用的是批处理中的格式,直接在命令行只需要一个%号)FOR 参数 %%变量名 IN (相关文 ...
- 【转】批处理命令 For循环命令详解!
批处理for命令详解FOR这条命令基本上都被用来处理文本,但还有其他一些好用的功能!看看他的基本格式(这里我引用的是批处理中的格式,直接在命令行只需要一个%号)FOR 参数 %%变量名 IN (相关文 ...
- OpenMP并行程序设计
1.fork/join并行执行模式的概念 2.OpenMP指令和库函数介绍 3.parallel 指令的用法 4.for指令的使用方法 5 sections和section指令的用法 1.fork/j ...
- OpenMP 并行程序设计入门
OpenMP 是一个编译器指令和库函数的集合,主要是为共享式存储计算机上的并行程序设计使用的. 0. 一段使用 OpenMP 的并行程序 #include <stdio.h> #inclu ...
- DOS 批处理命令For循环命令详解
for命令是一种对一系列对象依次循环执行同一个或多个命令的在命令行或批处理中运行的命令,结合一些Windows管理中的程序后,其处理功能强大.应用灵活方便程度令人刮目相看 for命令是一种对一系列 ...
- for循环使用详解(c语言版)
说明:c语言的很多语法部分都和JAVA,AS等相同 特别是for的用法. c语言中的for循环语句使用最为灵活,不仅可以用于循环次数已经确定的情况,而且可以用于循环次数不确定而只给出循环结束条件的情况 ...
- Javascript中while和do-while循环用法详解
while循环 while 语句与 if 语句相似,都有条件来控制语句(或语句块)的执行,其语言结构基本相同:while(conditions){ statements;} while 语句与 ...
- SQL循环语句 详解
SQL循环语句 declare @i int set @i=1 while @i<30 begin insert into test (userid) values(@i) set @i=@i+ ...
随机推荐
- JavaScriptCore全面解析
本文由云+社区发表 作者:殷源,专注移动客户端开发,微软Imagine Cup中国区特等奖获得者 JavaScript越来越多地出现在我们客户端开发的视野中,从ReactNative到JSpatch, ...
- kubernetes进阶之二:概述
一:kubernetes是什么 Kubernetes一个用于容器集群的自动化部署.扩容以及运维的开源平台.通过Kubernetes,你可以快速有效地响应用户需求;快速而有预期地部署你的应用; 极速地扩 ...
- [十一]JavaIO之DataInputStream 和 DataOutputStream
功能简介 DataInputStream和DataOutputStream 继承了各自的FilterInputStream以及FilterOutputStream 使用装饰器模式对InputStrea ...
- Java面试系列--java基础
Java基础总结 JAVA中的几种基本数据类型是什么,各自占用多少字节. 八大基本数据类型,byte:8位,short:16位,int:32位,long:64位,float:32位,double:64 ...
- OpenCV在C#中应用—OpenCVSharp
1.什么是OpenCVSharp 之前一直是基于OpenCV开发视觉算法,但C++语言对于GUI的开发相对于C#来说确实很不方便,之前就了解到C#下使用OpenCV可以使用EmguCV,这段时间 ...
- spark问题
使用IDEA运行spark程序,除了需要导入spark的一些依赖包之外,还需要注意的是 当启动spark报找不到可执行的hadoop winutils.exe 可已下载相应版本的winutils.ex ...
- C# 如何添加Excel页眉页脚(图片、文字、奇偶页不同)
简介 我们可以通过代码编程来对Excel工作表实现很多操作,在下面的示例中,将介绍如何来添加Excel页眉.页脚.在页眉处,我们可以添加文字,如公司名称.页码.工作表名.日期等,也可以添加图片,如LO ...
- 【Linux】Linux上安装Nginx
本文介绍Linux环境安装Nginx,这里用的Linux系统是CentOS 7.2. 1. 从Nginx官网下载Nginx.这里用的版本为:1.13.6. 2. 将下载下来的Nginx上传到Linux ...
- 修改SublimeText3插件Emmet生成HTML中lang属性的默认值
打开Preferences → Package Settings → Emmet → Settings-User,输入如下代码并保存: { "snippets": { " ...
- Python全栈学习_作业集锦(持续更新)
python基础 day1 python初识 . 计算机基础(cpu,内存,硬盘,操作系统) . Python出生于应用 . python发展史 . 编程语言分类 . python优缺点 . pyth ...