OpenMP(Open Muti-Processing)

OpenMP缺点:

1:作为高层抽象,OpenMp并不适合需要复杂的线程间同步和互斥的场合;

2:另一个缺点是不能在非共享内存系统(如计算机集群)上使用。在这样的系统上,MPI使用较多。

关于openMP实现 临界区 与互斥锁 可参考 reference3

windows系统下使用

==========================WINDOWS系统中使用==========================

基本使用:

在visual C++2010中使用OpenMP

1:将 Project 的Properties中C/C++里Language的OpenMP Support开启(参数为 /openmp);

2:在编写使用OpenMP 的程序时,则需要先include OpenMP的头文件:omp.h;

3:在要并行化的for循环前面加上  #pragma omp parallel for

如下简单例子:

  1. //未使用OpenMP
  2. #include <stdio.h>
  3. #include <stdlib.h>
  4. void Test(int n) {
  5. for(int i = 0; i < 10000; ++i)
  6. {
  7. //do nothing, just waste time
  8. }
  9. printf("%d, ", n);
  10. }
  11. int main(int argc,char* argv[])
  12. {
  13. for(int i = 0; i < 16; ++i)
  14. Test(i);
  15. system("pause");
  16. }

结果为:

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,11,12,13,14,15,

  1. //使用OpenMP
  2. <pre name="code" class="cpp">#include <stdio.h>
  3. #include <stdlib.h>
  4. #include <omp.h>
  5. void Test(int n) {
  6. for(int i = 0; i < 10000; ++i) {
  7. //do nothing, just waste time
  8. }
  9. printf("%d, ", n);
  10. }
  11. int main(int argc,char* argv[])
  12. {
  13. #pragma omp parallel for
  14. for(int i = 0; i < 16; ++i)
  15. Test(i);
  16. system("pause");
  17. }

(我的笔记本为2核 4线程)

显示结果为:

0,12,4,8,1,13,5,9,2,14,6,10,3,15,7,11,

OpenMP将循环0-15拆分成0-3,4-7,8-11,12-15四个部分来执行。

当编译器发现#pragma omp parallel for后,自动将下面的for循环分成N份,(N为电脑CPU线程数),然后把每份指派给一个线程去执行,而且多线程之间为并行执行。

关于获取CPU核数与线程ID

  1. #include <iostream>
  2. #include <omp.h>
  3. int main(){
  4. int sum = 0;
  5. int a[10] = {1,2,3,4,5,6,7,8,9,10};
  6. int coreNum = omp_get_num_procs();//获得处理器个数(其实获取的是线程的数量,我的笔记本为2核4线程,测试时获取的数字为4)</span>
  7. int* sumArray = new int[coreNum];//对应处理器个数,先生成一个数组
  8. for (int i=0;i<coreNum;i++)//将数组各元素初始化为0
  9. sumArray[i] = 0;
  10. #pragma omp parallel for
  11. for (int i=0;i<10;i++)
  12. {
  13. int k = <span style="color:#3366FF;">omp_get_thread_num();//获得每个线程的ID</span>
  14. sumArray[k] = sumArray[k]+a[i];
  15. }
  16. for (int i = 0;i<coreNum;i++)
  17. sum = sum + sumArray[i];
  18. std::cout<<"sum: "<<sum<<std::endl;
  19. return 0;
  20. }

Ubuntu系统中使用

=================ubuntu系统中=====================================

Hands on FAQ:

*怎么在Linux上运行OpenMP程序? 
> 只需要安装支持OpenMP的编译器即可,比如GCC 4.2以上版本(好像Fedora Core带的部分4.1版本也支持),或者ICC(我用的version 9.1是支持的,其他没试过)。

*怎么缺点编译器是不是支持OpenMP? 
> 看编译器安装路径下/include目录里有没有omp.h。

*怎么区分OpenMP程序? 
> 程序中有没有以下内容: 
> #include <omp.h> 
> #pragma omp ...

*怎么编译OpenMP程序? 
> gcc -fopenmp [sourcefile]   -o [destination file] 
> icc   -openmp   [sourcefile]   -o [destination file]

*怎么运行OpenMP程序? 
> 编译后得到的文件和普通可执行文件一样可以直接执行。

*怎么设置线程数? 
>:在程序中写入set_num_threads(n); 
Method2:export OMP_NUM_THREADS=n; 
> 两种方法各有用处,前者只对该程序有效,后者不用重新编译就可以修改线程数。

Example1:并行与串行时间差别

Sequetial Version:

  1. #include<iostream>
  2. #include<sys/time.h>
  3. #include<unistd.h>
  4. using namespace std;
  5. void test(int n)
  6. {
  7. int a=0;
  8. struct timeval tstart,tend;
  9. double timeUsed;
  10. gettimeofday(&tstart,NULL);
  11. for(int i=0;i<1000000000;i++)
  12. {
  13. a=i+1;
  14. }
  15. gettimeofday(&tend,NULL);
  16. timeUsed=1000000*(tend.tv_sec-tstart.tv_sec)+tend.tv_usec-tstart.tv_usec;
  17. cout<<n<<" Time="<<timeUsed/1000<<" ms"<<endl;
  18. }
  19. int main()
  20. {
  21. struct timeval tstart,tend;
  22. double timeUsed;
  23. gettimeofday(&tstart,NULL);
  24. int j=0;
  25. for(j=0;j<4;j++)
  26. {
  27. test(j);
  28. }
  29. gettimeofday(&tend,NULL);
  30. timeUsed=1000000*(tend.tv_sec-tstart.tv_sec)+tend.tv_usec-tstart.tv_usec;
  31. cout<<" Total Time="<<timeUsed/1000<<" ms"<<endl;
  32. return 0;
  33. }

Parallel Version:

  1. #include<iostream>
  2. #include<sys/time.h>
  3. #include<unistd.h>
  4. #include<omp.h>
  5. using namespace std;
  6. void test(int n)
  7. {
  8. int a=0;
  9. struct timeval tstart,tend;
  10. double timeUsed;
  11. gettimeofday(&tstart,NULL);
  12. for(int i=0;i<1000000000;i++)
  13. {
  14. a=i+1;
  15. }
  16. gettimeofday(&tend,NULL);
  17. timeUsed=1000000*(tend.tv_sec-tstart.tv_sec)+tend.tv_usec-tstart.tv_usec;
  18. cout<<n<<" Time="<<timeUsed/1000<<" ms"<<endl;
  19. }
  20. int main()
  21. {
  22. struct timeval tstart,tend;
  23. double timeUsed;
  24. gettimeofday(&tstart,NULL);
  25. int j=0;
  26. #pragma omp parallel for
  27. for(j=0;j<4;j++)
  28. {
  29. test(j);
  30. }
  31. gettimeofday(&tend,NULL);
  32. timeUsed=1000000*(tend.tv_sec-tstart.tv_sec)+tend.tv_usec-tstart.tv_usec;
  33. cout<<" Total Time="<<timeUsed/1000<<" ms"<<endl;
  34. return 0;
  35. }

Result:

Sequential version:

  1. 0 Time=2064.69 ms
  2. 1 Time=2061.11 ms
  3. 2 Time=2076.32 ms
  4. 3 Time=2077.93 ms
  5. Total Time=8280.14 ms

Parallel version:

  1. 2 Time=2148.22 ms
  2. 3 Time=2151.72 ms
  3. 0 Time=2151.85 ms
  4. 1 Time=2151.77 ms
  5. Total Time=2158.81 ms

------------------------------------------------------------------------------------------------------------------------------------------------------------

Example2:矩阵拟合法计算Pi

Sequential Version:

  1. #include<iostream>
  2. #include<sys/time.h>
  3. #include<unistd.h>
  4. //#include <omp.h>
  5. using namespace std;
  6. int main ()
  7. {
  8. struct timeval tstart,tend;
  9. double timeUsed;
  10. static long num_steps =1000000000;
  11. double step;
  12. int i;
  13. double x, pi, sum = 0.0;
  14. step = 1.0/(double) num_steps;
  15. gettimeofday(&tstart,NULL);
  16. //#pragma omp parallel for reduction(+:sum) private(x) /*只加了这一句,其他不变*/
  17. for (i=0;i < num_steps; i++)
  18. {
  19. x = (i+0.5)*step;
  20. sum = sum + 4.0/(1.0+x*x);
  21. }
  22. pi = step * sum;
  23. gettimeofday(&tend,NULL);
  24. timeUsed=1000000*(tend.tv_sec-tstart.tv_sec)+tend.tv_usec-tstart.tv_usec;
  25. timeUsed=timeUsed/1000;
  26. cout<<"pi="<<pi<<"  ("<<num_steps<<" )   "<<timeUsed<<" ms"<<endl;
  27. return 0;
  28. }

Parallel Version:

  1. #include<iostream>
  2. #include<sys/time.h>
  3. #include<unistd.h>
  4. #include <omp.h>
  5. using namespace std;
  6. int main ()
  7. {
  8. struct timeval tstart,tend;
  9. double timeUsed;
  10. static long num_steps = 1000000000;
  11. double step;
  12. int i;
  13. double x, pi, sum = 0.0;
  14. step = 1.0/(double) num_steps;
  15. gettimeofday(&tstart,NULL);
  16. #pragma omp parallel for reduction(+:sum) private(x) /*只加了这一句,其他不变*/
  17. for (i=0;i < num_steps; i++)
  18. {
  19. x = (i+0.5)*step;
  20. sum = sum + 4.0/(1.0+x*x);
  21. }
  22. pi = step * sum;
  23. gettimeofday(&tend,NULL);
  24. timeUsed=1000000*(tend.tv_sec-tstart.tv_sec)+tend.tv_usec-tstart.tv_usec;
  25. timeUsed=timeUsed/1000;
  26. cout<<"pi="<<pi<<"  ("<<num_steps<<" )   "<<timeUsed<<" ms"<<endl;
  27. return 0;
  28. }

运行结果为:

  1. von@von-pc:~/test$ ./parrPI2
  2. pi=3.14159  (1000000000 )   3729.68 ms
  3. von@von-pc:~/test$ ./seqPI2
  4. pi=3.14159  (1000000000 )   13433.1 ms

我的电脑为2核,4线程 提升速度为13433/3739=3.6 。因为这个程序本身具有良好的并发性,循环间几乎没有数据依赖,除了sum,但是用reduction(+:sum)把对于sum的相关也消除了。

关于reduction , private具体请到references 7中查看。

需要特别注意的一点是:

上述的计时方法使用的是gettimeofday() 而原博客给出的计时方法是time_t (使用time_t是没法达到作者所说的速度的,你会发现 并行的时间比串行还慢)。

主要原因:计时方法不一样,具体请看两者的区别(另一篇博客)

reference:

1:http://baike.baidu.com/view/1687659.htm

2:http://www.cnblogs.com/yangyangcv/archive/2012/03/23/2413335.html

-----------------------------------------------------------------------------------------------------------------

3:http://www.ibm.com/developerworks/cn/aix/library/au-aix-openmp-framework/index.html

4:http://openmp.org/wp/openmp-compilers/(官网)

5:http://blog.163.com/zl_dream1106/blog/static/84286020105210012295/   (linux 系统中OpenMP)

6:http://blog.163.com/zl_dream1106/blog/static/842860201052952352/?suggestedreading&wumii(OpenMP编程指南)

7:http://blog.163.com/zl_dream1106/blog/static/84286020105293213869/?suggestedreading&wumii(OpenMP 入门)

openMP多线程编程的更多相关文章

  1. Openmp多线程编程练习

    环境配置 一般使用Visual Studio2019来作为openmp的编程环境 调试-->属性-->C/C++-->所有选项-->Openmp支持改为 是(可以使用下拉菜单) ...

  2. 在C++中使用openmp进行多线程编程

    在C++中使用openmp进行多线程编程 一.前言 多线程在实际的编程中的重要性不言而喻.对于C++而言,当我们需要使用多线程时,可以使用boost::thread库或者自从C++ 11开始支持的st ...

  3. OpenMP 并行编程

    OpenMP 并行编程 最近开始学习并行编程,目的是为了提高图像处理的运行速度,用的是VS2012自带的OpenMP. 如何让自己的编译器支持OpenMP: 1) 点击 项目属性页 2)点击 配置 3 ...

  4. Web Worker javascript多线程编程(一)

    什么是Web Worker? web worker 是运行在后台的 JavaScript,不占用浏览器自身线程,独立于其他脚本,可以提高应用的总体性能,并且提升用户体验. 一般来说Javascript ...

  5. Web Worker javascript多线程编程(二)

    Web Worker javascript多线程编程(一)中提到有两种Web Worker:专用线程dedicated web worker,以及共享线程shared web worker.不过主要讲 ...

  6. windows多线程编程实现 简单(1)

    内容:实现win32下的最基本多线程编程 使用函数: #CreateThread# 创建线程 HANDLE WINAPI CreateThread( LPSECURITY_ATTRIBUTES lpT ...

  7. Rust语言的多线程编程

    我写这篇短文的时候,正值Rust1.0发布不久,严格来说这是一门兼具C语言的执行效率和Java的开发效率的强大语言,它的所有权机制竟然让你无法写出线程不安全的代码,它是一门可以用来写操作系统的系统级语 ...

  8. windows多线程编程星球(一)

    以前在学校的时候,多线程这一部分是属于那种充满好奇但是又感觉很难掌握的部分.原因嘛我觉得是这玩意儿和编程语言无关,主要和操作系统的有关,所以这部分内容主要出现在讲原理的操作系统书的某一章,看完原理是懂 ...

  9. Java多线程编程核心技术---学习分享

    继承Thread类实现多线程 public class MyThread extends Thread { @Override public void run() { super.run(); Sys ...

随机推荐

  1. ios开发GCD(2)-dispatch_semaphore_t信号量计数器

    思考:现在有多个线程异步执行,我们想要同时最多只能执行2个或n个,该怎么办? dispatch_semaphore_t 看代码解析: NSLog(@"开始"); dispatch_ ...

  2. (后端)java回调机制

    转自强哥: 所谓回调,就是客户程序C调用服务程序S中的某个函数A,然后S又在某个时候反过来调用C中的某个函数B,对于C来说,这个B便叫做回调函数.例如Win32下的窗口过程函数就是一个典型的回调函数. ...

  3. python redis 终端 redis-cli.py mini版本 redis 终端管理工具

    Python redis-cli.py Python3 redis-cli 命令行管理工具 redis终端工具 由于最近测试redis未授权访问漏洞,发现本机没有安装redis,不能运行redis-c ...

  4. 在ASP.NET Core 2.0 web项目中使用EntityFrameworkCore

    一.安装EFCode包 EFCore需要根据不同的数据库选择不同的数据库提供程序database provider,各数据库的包地址:https://docs.microsoft.com/zh-cn/ ...

  5. 解决pycharm下代码报错的问题

    file-----settings------project:Pythonstudy------project structure-----选择要导入的文件并点击OK

  6. January 09th, 2018 Week 02nd Tuesday

    Use the smile to change the world. Don't let the world change your smile. 用你的笑容去改变这个世界,别让这个世界改变了你的笑容 ...

  7. 反转链表的golang实现

    问题:反转一个单链表. 输入: ->->->->->NULL 输出: ->->->->->NULL 首先先认识一下链表这个数据结构: 链表节 ...

  8. 关于一台机器部署多个tomcat的小记

    一台机器部署多个tomcat在很多时候都是有可能的,比如说多个tomcat配合nginx负载更可能好的利用CPU,或者更新程序时做主备切换等. 1.直接下载或者复制一个已有的tomcat,第一个tom ...

  9. 【转】escape,encodeURI,encodeURIComponent有什么区别?

    在这个页面里面试着搜了一下 「UTF-8」 ,居然没有搜到. escape 和 encodeURI 都属于 Percent-encoding,基本功能都是把 URI 非法字符转化成合法字符,转化后形式 ...

  10. vue - 状态管理器 Vuex

    状态管理 vuex是一个专门为vue.js设计的集中式状态管理架构.状态?我把它理解为在data中的属性需要共享给其他vue组件使用的部分,就叫做状态.简单的说就是data中需要共用的属性.