C++ openmp并行程序在多核linux上如何最大化使用cpu
以上代码中,#pragma omp parallel for
这一行的作用即是调用openmp的功能,根据检测到的CPU核心数目,将for (i = 0; i < 1000000000; i++)这个循环执行过程平均分配给每一个CPU核心。
去掉#pragma omp parallel for这行,则和普通的串行代码效果一致。
注意,要使用openmp功能,在编译的时候需要加上-fopenmp编译参数。
以下是两种编译搭配两种代码出现的4种结果,可以很直观地看到效果:
1、代码里含有#pragma omp parallel for,编译参数有-fopenmp
Endys-MacBook-Pro:Desktop endy$ vi test.c
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test -fopenmp
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 50202611.00 clock tick.
2、代码里含有#pragma omp parallel for,编译参数没有-fopenmp
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 4068178.00 clock tick.
3、代码里没有#pragma omp parallel for,编译参数有-fopenmp
Endys-MacBook-Pro:Desktop endy$ vi test.c
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test -fopenmp
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 4090744.00 clock tick.
4、代码里没有#pragma omp parallel for,编译参数没有-fopenmp
Endys-MacBook-Pro:Desktop endy$ vi test.c
Endys-MacBook-Pro:Desktop endy$ gcc-6 test.c -o test
Endys-MacBook-Pro:Desktop endy$ ./test
Program costs 4170093.00 clock tick.
可以看出,只有在情况1下,openmp生效,其他3种情况下,均为单核运行,2、3、4结果较为接近,而1的运行结果大约相差25%。
值得注意的是,使用多核心的case 1竟然比单核的其他3种case慢了25%,原因是在这种单一的循环运算中,并行分配CPU任务的指令比直接执行下一个循环指令的效率更低。所以并不是用并行运算就一定能够提高运算效率的,要根据实际情况来判断。
#include<stdio.h>
#include<time.h>
#include<omp.h>
int main()
{
long long i;
clock_t t1,t2;
double t3,sum=;
t1=clock(); #pragma omp parallel for
{
//#pragma omp
for(int j=;j<;j++)
{
for(i=;i<=;i++)
{
sum=sum+i/;
}
printf("%d\n",j);
}
} t2=clock();
t3 =t2-t1;
t3 = t3/CLOCKS_PER_SEC;
printf("%f s\n",t3);
return ;
}
这个代码能体现openmp 的功能
1.另外注意哪些可以并行
2.哪些不能并行
3.简单的不需要并行,可能会比串行花费更多时间
在linux g++下的命令如下:
g++ program.cpp -o program -fopenmp
或者:g++ -fopenmp grogram.cpp -o program
./program
继续上面的例子来说:
上述代码中求出的sum有误。因为sum是共享的,那么多个线程对sum的操作会引发数据竞争。
解决办法:reduction
#include<stdio.h>
#include<time.h>
#include<omp.h>
#include<vector>
using namespace std;
int main()
{
long long i;
clock_t t1,t2;
double t3,sum1=1,sum2=;
t1=clock();
vector<int>ve;
printf("ID: %d, Max threads: %d, Num threads: %d \n",omp_get_thread_num(), omp_get_max_threads(), omp_get_num_threads());
#pragma omp parallel for reduction(+: sum1,sum2)
for(int j=; j<; j++)
{
sum1+=;
sum2+=;
printf("%d %f %f\n",j,sum1,sum2);
} t2=clock();
t3 =t2-t1;
t3 = t3/CLOCKS_PER_SEC;
printf("%f s\t %f\t %f\n",t3,sum1,sum2);
return ;
}
reduction声明可以看作:
1. 保证了对sum的原则操作
2. 多个线程的执行结果通过reduction中声明的操作符进行计算,以加法操作符为例:
假设sum的初始值为10(如上述代码中),reduction(+: sum)声明的并行区域中每个线程的sum初始值为0(规定),
并行处理结束之后,会将sum的初始化值10以及每个线程所计算的sum值相加。
reduction (operator: var1, val2, ...)
其中operator以及约定变量的初始值如下:
运算符 数据类型 默认初始值
+ 整数、浮点 0
- 整数、浮点 0
* 整数、浮点 1
& 整数 所有位均为1
|                    整数                        0
^                   整数                        0
&& 整数 1
|| 整数 0
vector 并行插入问题:
std::vector<int> vec;
#pragma omp parallel
{
std::vector<int> vec_private;
#pragma omp for nowait //fill vec_private in parallel
for(int i=; i<; i++) {
vec_private.push_back(i);
}
#pragma omp critical
vec.insert(vec.end(), vec_private.begin(), vec_private.end());
}
#pragma omp critical保证执行完子线程后,在执行主线程
C++ openmp并行程序在多核linux上如何最大化使用cpu的更多相关文章
- 如何利用mono把.net windows service程序迁移到linux上
		
How to migrate a .NET Windows Service application to Linux using mono? 写在最前:之所以用要把windows程序迁移到Linux上 ...
 - .Net程序跑在Linux上
		
.Net越来越拥抱开源了,今天就试了如何让.Net程序跑在Linux上,果然再无人可以阻挡.Net的脚步了. Linux Disibutaion:Open Logic 7.2 1.Install .N ...
 - Linux上如何查看物理CPU个数,核数,线程数
		
首先,看看什么是超线程概念 超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的 ...
 - OpenMP并行编程
		
什么是OpenMP?“OpenMP (Open Multi-Processing) is an application programming interface (API) that support ...
 - 在 Oracle Linux 上使用 DTrace
		
作者:Richard Friedman 简要介绍适用于 Oracle Linux 的 DTrace 探测器和提供程序,以及与 Oracle Solaris 中 DTrace 探测器和提供程序的区别.还 ...
 - 如何将.Net Core应用程序部署在Linux操作系统上运行
		
.Net Core简介 跨平台: 可以在 Windows.macOS 和 Linux 操作系统上运行. 跨体系结构保持一致: 在多个体系结构(包括 x64.x86 和 ARM)上以相同的行为运行代码. ...
 - 不装mono,你的.NET程序照样可以在Linux上运行!
		
让.NET应用程序在linux上运行,目前通用的做法就是在Linux上安装mono,然后通过”mono your.exe“命令运行这个程序. 这种运行.net程序的办法有两个弱点,一个是需要客户机安装 ...
 - Linux上如何执行java程序
		
想要在Ubuntu上运行java程序,可以将java程序编译成功后打包,然后在Ubuntu上用命令执行jar文件 具体操作如下: 1.Windows上使用eclipse编译java工程,编译完成后导出 ...
 - 使用VS GDB扩充套件在VS上远端侦错Linux上的C/C++程序
		
在 Linux 上开发 C/C++ 程序,或许你会直接(本机或远端)登入 Linux,打开编辑器写完代码后,就用 gcc/g++ 来编译,遇到要除错(debug)的时候,则会选择使用 gdb 来进行除 ...
 
随机推荐
- 996 icu我能为你做什么?
			
今天996,未来icu 996icu地址:https://github.com/996icu/996.ICU 前段时间github上出现了,一个讨论996的项目,这个项目使中国的软件工程师达到了空前的 ...
 - css样式的书写顺序及原理——很重要!
			
记得刚开始学习前端的时候,每次写css样式都是用到什么就在样式表后添加什么,完全没有考虑到样式属性的书写顺序对网页加载代码的影响.后来逐渐才知道正确的样式顺序不仅易于查看,并且也属于css样式优化的一 ...
 - K8s存储卷、pv和pvc的使用
			
emptyDIR 临时目录 hostPath :使用主机的路径 网络存储: 传统的设备存储:NAS,SAN 分布式存储:glusterfs,rbd,cephfs 云存储:EBS,Azure,阿里云的 ...
 - Windows下pip 离线包安装
			
pip在线安装十分方便,有时候某些服务器并没有直接联网,需要下载好安装包上传到服务器上进行安装,不经常用,还是有点小麻烦的. 安装Python之后,将下载好的安装包包放在Python安装的根目录下使用 ...
 - 1.express中间件的简介
			
express中间件的意思 1, 中间件是一个模块.在js中,模块意味着函数,所以中间件是一个函数.那么这个函数长什么样子? 这还要从中间件的功能说起,它拦截http 服务器提供的请求和响应对象,执行 ...
 - R和Python,对抗or融合?
			
来源商业新知网,原标题:从对抗到融合,教你充分利用R+Python! 我们应该将关注点放在技能上,而不是工具上. 如果你从事数据科学的工作,可能会立即想到两种编程语言:R和Python. 事实上,R和 ...
 - CSS 图像左右对齐
			
左右对齐图像使用的技术是浮动div元素. float:left 左对齐 float:right右对齐 示例 <!DOCTYPE html> <html> <hea ...
 - 服务器端AJAX的Servlet代码实现
			
package com.itheima.servlet; import java.io.IOException; import javax.servlet.ServletException; impo ...
 - centos7 tomcat8+jdk1.8
			
(1) 下载Tomcat8压缩包进入 http://tomcat.apache.org/download-80.cgi 在binary Distributions下面,选择tar.gz包下载 [tar ...
 - java 第二天运算符及录入函数Scanner
			
package com.it; /* 运算符;就是用于对常量和变量进行操作的符号 表达式:用运算符链接起来的符合java语法的式子,不同的运算符链接的表达式是不同类型的表达式 */ public cl ...