预处理指令pragma

在系统中加入预处理器指令一般是用来允许不是基本c语言规范部分的行为。不支持pragma的编译器会忽略pragma指令提示的那些语句，这样就允许使用pragma的程序在不支持它们的平台上运行。

第一个程序：hello

#include <stdio.h>

#include <stdlib.h>

#include <omp.h>

void Hello(void); // Thread function

int main(int argc, char* argv[]) { 

	// Get number of threads from command line 

	int thread_count = strtol(argv[1], NULL, 10);

	#pragma omp parallel num_threads(thread_count) 

	Hello();

    return 0;

}

void Hello(void) {

	int my_rank = omp_get_thread_num();

	int thread_count = omp_get_num_threads();

	printf("Hello from thread %d of %dnn\n", my_rank, thread_count);

}

Hello例子的分析：

最基本的并行原语

用于运行代码块的线程数可以动态生成。

pragma omp parallel  :

当程序到达parallel指令时，原来的线程继续执行，另外的线程被启动。在openmp语法中，执行并行块的线程集合（原始线程和新的线程被称为线程组，原始的线程被称为主线程，额外的线程称为从线程。每个线程组成员都调用指令后的代码块。

num_thread( )

# pragma omp parallel num_threads ( thread_count )

一个从句例子（用于修饰原语），可用于指定线程数量

omp.h

#include <omp.h>

使用openmp必须含omp.h头文件

strtol( )

long strtol(const char* number p,char** end p,int base);

使用stdlib.h中的strtol来获得线程数

ps:一些系统因素可能会限制可以启动的线程数量；OpenMP 并不保证能够启动指定个的线程；

多数系统能够启动上百甚至上千的线程；除非启动的太多，一般都能满足要求。

例子:梯形积分法

如果每个子区间有相同的宽度，并且定义h=(b-a)/n，xi=a+ih，i=0, 1, ...， n,那么近似值将是：

 //串行算法实现//

 Input: a, b, n ;

 h = (b*a)/n;

 approx = (f(a) + f(b))/2.0;

 for (i = 1; i <= n-1; i++) {

 	x_i = a + i*h;

 	approx += f(x_i);

 }

 approx = h*approx;

第一种尝试

定义两种类型的任务:

a) 计算单个梯形的面积；

b) 将面积加起来。

在第一阶段，没有通信开销；但第二阶段每个任务需要通信。

考虑一个问题：结果不可预估——引入互斥量

pragma omp critical   global_result += my_result ;

第一个版本

 #include <stdio.h>

 #include <stdlib.h>

 #include <omp.h>

  void Trap(double a, double b, int n, double  global_result p);

  int main(int argc, char  argv[]){

    double  global_result = 0.0;

    double  a, b;

    int     n;

    int     thread_count;

    thread_count = strtol(argv[1], NULL, 10);

    printf("Enter a, b, and n n");

    scanf("%lf %lf %d", &a, &b, &n);

#   pragma omp parallel num_threads(thread_count)

    Trap(a, b, n, &global_result);

    printf("With n = %d trapezoids, our estimate n", n);

    printf("of the integral from %f to %f = %.14e n",

    a, b, global_result);

    return 0;

}    /∗  main ∗/

    void Trap(double a, double b, int n, double* global_result_p)

      double  h, x, my_result;

      double  local_a, local_b;

      int  i, local n;

      int my_rank = omp_get_thread_num();

      int thread_count = omp_get_num_threads();

      h = (b−a)/n;

      local_n = n/thread_count;

      local_a = a + my_rank*local_n*h;

      local_b = local_a + local_n*h;

      my_result = (f(local_a) + f(local_b))/2.0;

      for (i = 1; i <= local_n−1; i++){

        x = local_a + i*h;

        my_result += f(x);

       }

  `   ` my_result = my_result*h;

   #  pragma omp critical

      ∗global_result_p += my_result;

  }    /∗  Trap ∗/

作用域

在串行程序中, 变量的作用域包含了所有可以使用变量的区域；

在OpenMP中, 变量的作用域还要包括可以访问该变量的并行区域。

能被所有线程访问的变量具有 shared（共享）作用域；

只能被一个线程访问的变量具有 private （私有）作用域.

默认的作用域是 shared.

规约从句：

替代（在parallel块中声明一个私有变量和将临界区移到函数调用之）

归约：将相同的归约操作符重复的应用到操作数序列来得到一个结果的计算。

所有操作的中间结果存储在一个变量中：归约变量

reduction(<operator>:<variable list>)

新的代码：

global_result = 0.0;

#  pragma omp parallel num threads(thread count)\

 reduction(+: global_result)

global_result += Local_trap(double a, double b, int n);

parallel for

能够生成一队线程来执行接下来的语句块；

语句块必须是一个for循环；

通过将循环切分给不同的线程来实现并行。

只有迭代次数确定的循环才可以被并行化。

h = (b−a)/n;

approx = (f(a) + f(b))/2.0;

#  pragma omp parallel for num threads(thread_count) reduction(+: approx)

for (i = 1; i <= n−1; i++)

approx += f(a + i∗h); approx = h∗approx;

可被并行化的for循环形式：

**ps: **index 必须是整数或者指针 (e.g., 不能是浮点数)；

start, end, 和 incr 必须具有相应的类型。例如, 如果index 是一个指针, 那么 incr 必须是一个整型；

start, end, 和 incr 在循环执行过程中不能被修改；

在循环执行过程中, 变量 index 只能被for语句修改。

数据依赖

1.OpenMP 编译器并不检查循环迭代中的数据依赖问题；

2.一般来说，OpenMP无法处理带有数据依赖的循环。

解决思路：设计私有变量并且保证其私有作用域（private子句）

default子句

编译器强制要求程序员指定在块中使用的外部变量的作用范围。

double sum = 0.0;

# pragma omp parallel for num threads(thread count)\

default(none) reduction(+:sum) private(k, factor)\

 shared(n)

for (k = 0; k < n; k++){

  if (k % 2 == 0)

    factor = 1.0;

  else

    factor = −1.0;

  sum += factor/(2∗k+1);

}

for指令

并不创建线程，使用已经在parallel块中创建的线程。

#  pragma omp for

解决循环调用问题：schedule ( type , chunksize )

type 可以是:

static: 提前把任务分配好；

dynamic or guided: 在运行时动态分配；

dynamic:

任务被分成 chunksize 大小的连续段；

每个线程执行一小块, 当有一个线程执行完时, 它会请求获得1个新的；

重复上述过程，直到完成计算；

chunksize 可以被去掉;当去掉时, chunksize 默认为1.

guided:

每个线程执行一小块, 当有一个线程执行完时, 它会请求获得1个新的；

但是，新的任务块是不断变小的；

如果不指定chunksize，那么默认会降到1.

如果指定了chunksize, 则会降到指定的chunksize, 除了最后一块可能小于chunksize.

auto: 编译器或者运行时系统决定调度策略；

runtime: 运行时决定。

chunksize 是一个正整数

使用openmp进行并行编程的更多相关文章

C++ OpenMp的并行编程
基于OpenMp的并行编程功能:并行处理比较耗时的for循环在OpenMP中,对for循环并行化的任务调度使用schedule子句来实现: 使用格式:schedule(type[,size]) t ...
【并行计算】基于OpenMP的并行编程
我们目前的计算机都是基于冯偌伊曼结构的,在MIMD作为主要研究对象的系统中,分为两种类型:共享内存系统和分布式内存系统,之前我们介绍的基于MPI方式的并行计算编程是属于分布式内存系统的方式,现在我们研 ...
OpenMP共享内存并行编程详解
实验平台:win7, VS2010 1. 介绍平行计算机可以简单分为共享内存和分布式内存,共享内存就是多个核心共享一个内存,目前的PC就是这类(不管是只有一个多核CPU还是可以插多个CPU,它们都有 ...
OpenMP并行编程
什么是OpenMP?“OpenMP (Open Multi-Processing) is an application programming interface (API) that support ...
OpenMP并行编程应用—加速OpenCV图像拼接算法
OpenMP是一种应用于多处理器程序设计的并行编程处理方案,它提供了对于并行编程的高层抽象.仅仅须要在程序中加入简单的指令,就能够编写高效的并行程序,而不用关心详细的并行实现细节.减少了并行编程的难度 ...
OpenMP 并行编程
OpenMP 并行编程最近开始学习并行编程,目的是为了提高图像处理的运行速度,用的是VS2012自带的OpenMP. 如何让自己的编译器支持OpenMP: 1) 点击项目属性页 2)点击配置 3 ...
并行编程OpenMP基础及简单示例
OpenMP基本概念 OpenMP是一种用于共享内存并行系统的多线程程序设计方案,支持的编程语言包括C.C++和Fortran.OpenMP提供了对并行算法的高层抽象描述,特别适合在多核CPU机器上的 ...
在C++中使用openmp进行多线程编程
在C++中使用openmp进行多线程编程一.前言多线程在实际的编程中的重要性不言而喻.对于C++而言,当我们需要使用多线程时,可以使用boost::thread库或者自从C++ 11开始支持的st ...
C#并行编程系列-文章导航
菜鸟初步学习,不对的地方请大神指教,参考<C#并行编程高级教程.pdf> 目录 C#并行编程-相关概念 C#并行编程-Parallel C#并行编程-Task C#并行编程-并发集合 C# ...

随机推荐

5.Maven坐标
而这个坐标也意味着jar包等保存在 C:\Users\用户名.m2\repository\org\apache\tomcat\tomcat-catalina\9.0.2
Java递归练习201908091049
package org.jimmy.autofactory.test; public class TestRecursive20190809 { public static void main(Str ...
【Java技术系列】爱情36技之追美妹的技术
1. 在古老的非洲大陆上,有个原始人无意中抬头仰望星空,凝视的时间稍微长了一些,超过了外星人设置的阈值,立刻拉响了人类即将产生文明的警报.因为外星人认为,人类已经产生了对宇宙的好奇心,文明的产生,科技 ...
es6的箭头函数和es5的function函数区别
一.es6的箭头函数es6箭头函数内部没有this,使用时会上朔寻找最近的this不可以做构造函数,不能使用new命令,因为没有this函数体内没有arguments,可以使用rest参数代替不能用y ...
input radio点击选中再点击取消
这里主要说一下这个jquery中的data()方法,个人感觉这个方法平时挺少用到的,所以说一说,按照官方的解释就是向元素附加数据,然后取回该数据; 嗯,是的,就是这么简单. 那这里说一下这个方法的使 ...
Java反射（六）纯面向接口编程的简单框架实践
我们知道在使用MyBatis开发时,只需要添加DAO接口和对应的映射XML文件,不需要写DAO的实现类,其实底层是通过动态代理实现. 本文将使用前几篇文章的知识点实现一个纯面向接口编程的简单框架,与M ...
Git-flow 使用笔记
git-flow 原理:A successful Git branching model,两篇不错的中文翻译: Git开发管理之道,一个成功的Git分支模型. 简单来说,git-flow 就是在 gi ...
Java通过Http请求服务器
Java通过Http请求服务器图片输出.下载.转换 Java开发过程中总会遇到从服务器中请求文件(图片.text文档等).此处详情记录从服务器下载图片的方法,以及以多种方式输出. 1.整体流程: 建立 ...
100 Path Sum
Given a binary tree and a sum, determine if the tree has a root-to-leaf path such that adding up all ...
MTK Android Driver ：Lcm
MTK Android Driver :lcm 1.怎样新建一个LCD驱动 LCD模组主要包括LCD显示屏和驱动IC.比如LF040DNYB16a模组的驱动IC型号为NT35510.要在MTK6577 ...

使用openmp进行并行编程