使用openmp进行共享内存编程
预处理指令pragma:在系统中加入预处理器指令一般是用来允许不是基本c语言规范部分的行为。不支持pragma的编译器会忽略pragma指令提示的那些语句,这样就允许使用pragma的程序在不支持它们的平台上运行。
#include <stdio.h>
#include <stdlib.h>
#include <omp.h> void Hello(void); // Thread function int main(int argc, char* argv[]) {
// Get number of threads from command line
int thread_count = strtol(argv[], NULL, );
#pragma omp parallel num_threads(thread_count)
Hello(); return ;
} void Hello(void) {
int my_rank = omp_get_thread_num();
int thread_count = omp_get_num_threads(); printf("Hello from thread %d of %dnn\n", my_rank, thread_count); } //Hello
例子的分析:
# pragma omp parallel :
最基本的并行原语,用于运行代码块的线程数可以动态生成。
当程序到达parallel指令时,原来的线程继续执行,另外的线程被启动。在openmp语法中,执行并行块的线程集合(原始线程和新的线程被称为线程组,原始的线程被称为主线程,额外的线程称为从线程。每个线程组成员都调用指令后的代码块。
# pragma omp parallel num_threads ( thread_count )
num_threads():一个从句例子(用于修饰原语),可用于指定线程数量
#include <omp.h>
使用openmp必须含omp.h头文件
long strtol(const char* number p,char** end p,int base)
使用stdlib.h中的strtol来获得线程数
ps:一些系统因素可能会限制可以启动的线程数量;OpenMP 并不保证能够启动指定个的线程;
多数系统能够启动上百甚至上千的线程;除非启动的太多,一般都能满足要求。
- eg:梯形积分法

如果每个子区间有相同的宽度,并且定义h=(b-a)/n,xi=a+ih,i=0, 1, ..., n,那么近似值将是:

//串行算法实现
// Input: a, b, n
h = (b*a)/n;
approx = (f(a) + f(b))/2.0;
for (i = ; i <= n-; i++) {
x_i = a + ih;
approx += f(x_i);
}
approx = h*approx;
第一种尝试:1) 定义两种类型的任务:
a) 计算单个梯形的面积;
b) 将面积加起来。
2) 在第一阶段,没有通信开销;但第二阶段每个任务需要通信。考虑一个问题:结果不可预估——引入互斥量
# pragma omp critical
global_result += my_result ;
第一个版本:
#include <stdio.h>
#include <stdlib.h>
#include <omp.h> void Trap(double a, double b, int n, double global_result p); int main(int argc, char argv[]){
double global_result = 0.0;
double a, b;
int n;
int thread_count; thread_count = strtol(argv[], NULL, );
printf("Enter a, b, and n n");
scanf("%lf %lf %d", &a, &b, &n);
# pragma omp parallel num_threads(thread_count)
Trap(a, b, n, &global_result); printf("With n = %d trapezoids, our estimate n", n);
printf("of the integral from %f to %f = %.14e n",
a, b, global_result);
return ;
} /∗ main ∗/ void Trap(double a, double b, int n, double* global_result_p)
double h, x, my_result;
double local_a, local_b;
int i, local n;
int my_rank = omp_get_thread_num();
int thread_count = omp_get_num_threads(); h = (b−a)/n;
local_n = n/thread_count;
local_a = a + my_rank*local_n*h;
local_b = local_a + local_n*h;
my_result = (f(local_a) + f(local_b))/2.0;
for (i = ; i <= local_n−; i++){
x = local_a + i*h;
my_result += f(x);
}
` ` my_result = my_result*h;
# pragma omp critical
∗global_result_p += my_result;
} /∗ Trap ∗/
规约从句:
替代(在parallel块中声明一个私有变量和将临界区移到函数调用之)
归约:将相同的归约操作符重复的应用到操作数序列来得到一个结果的计算。
所有操作的中间结果存储在一个变量中:归约变量
reduction(<operator>:<variable list>)
新的代码:
global_result = 0.0;
# pragma omp parallel num threads(thread count)\
reduction(+: global_result)
global_result += Local_trap(double a, double b, int n);
parallel for:
能够生成一队线程来执行接下来的语句块;
语句块必须是一个for循环;
通过将循环切分给不同的线程来实现并行。
只有迭代次数确定的循环才可以被并行化。
h = (b−a)/n;
approx = (f(a) + f(b))/2.0;
# pragma omp parallel for num threads(thread_count) reduction(+: approx)
for (i = ; i <= n−; i++)
approx += f(a + i∗h); approx = h∗approx;
可被并行化的for循环形式:

ps: index 必须是整数或者指针 (e.g., 不能是浮点数);
start, end, 和 incr 必须具有相应的类型。 例如, 如果index 是一个指针, 那么 incr 必须是一个整型;
start, end, 和 incr 在循环执行过程中不能被修改;
在循环执行过程中, 变量 index 只能被for语句修改。
数据依赖:1.OpenMP 编译器并不检查循环迭代中的数据依赖问题;
2.一般来说,OpenMP无法处理带有数据依赖的循环。
解决思路:设计私有变量并且保证其私有作用域(private子句)
default子句:编译器强制要求程序员指定在块中使用的外部变量的作用范围。
double sum = 0.0;
# pragma omp parallel for num threads(thread count)\
default(none) reduction(+:sum) private(k, factor)\
shared(n)
for (k = ; k < n; k++){
if (k % == )
factor = 1.0;
else
factor = −1.0;
sum += factor/(∗k+);
}
for指令:并不创建线程,使用已经在parallel块中创建的线程。
# pragma omp for
解决循环调用问题:
schedule ( type , chunksize )
//chunksize 是一个正整数
type 可以是:
static: 提前把任务分配好;
dynamic or guided: 在运行时动态分配;
dynamic:任务被分成 chunksize 大小的连续段;每个线程执行一小块, 当有一个线程执行完时, 它会请求获得1个新的;重复上述过程,直到完成计算;
chunksize 可以被去掉;当去掉时, chunksize 默认为1.
guided:每个线程执行一小块, 当有一个线程执行完时, 它会请求获得1个新的;但是,新的任务块是不断变小的;如果不指定chunksize,那么默认会降到1.如果指定了chunksize, 则会降到指定的chunksize, 除了最后一块可能小于chunksize.
auto: 编译器或者运行时系统决定调度策略;
runtime: 运行时决定。
使用openmp进行共享内存编程的更多相关文章
- Linux共享内存编程实例
/*共享内存允许两个或多个进程进程共享同一块内存(这块内存会映射到各个进程自己独立的地址空间) 从而使得这些进程可以相互通信. 在GNU/Linux中所有的进程都有唯一的虚拟地址空间,而共享内存应用编 ...
- Linux 共享内存编程
共享内存允许系统内两个或多个进程共享同一块内存空间,并且数据不用在客户进程和服务器进程间复制,因此共享内存是通信速度最快的一种IPC. 实现的机制简单描述如下:一个进程在系统中申请开辟了一块共享内存空 ...
- System V IPC 之共享内存
IPC 是进程间通信(Interprocess Communication)的缩写,通常指允许用户态进程执行系列操作的一组机制: 通过信号量与其他进程进行同步 向其他进程发送消息或者从其他进程接收消息 ...
- Linux进程间通信—共享内存
五.共享内存(shared memory) 共享内存映射为一段可以被其他进程访问的内存.该共享内存由一个进程所创建,然后其他进程可以挂载到该共享内存中.共享内存是最快的IPC机制,但由于linux本身 ...
- Linux共享内存(二)
Linux共享内存编程实例 原文链接:http://blog.csdn.net/pcliuguangtao/article/details/6526119 /*共享内存允许两个或多个进程进程共享同一块 ...
- Linux进程间通信 共享内存+信号量+简单样例
每个进程都有着自己独立的地址空间,比方程序之前申请了一块内存.当调用fork函数之后.父进程和子进程所使用的是不同的内存. 因此进程间的通信,不像线程间通信那么简单.可是共享内存编程接口能够让一个进程 ...
- 转:Linux--进程间通信(信号量,共享内存)
源地址:http://www.cnblogs.com/forstudy/archive/2012/03/26/2413724.html Linux--进程间通信(信号量,共享内存)(转) 一. 信 ...
- OpenMP共享内存并行编程详解
实验平台:win7, VS2010 1. 介绍 平行计算机可以简单分为共享内存和分布式内存,共享内存就是多个核心共享一个内存,目前的PC就是这类(不管是只有一个多核CPU还是可以插多个CPU,它们都有 ...
- linux编程之共享内存
linux 进程间通信(IPC)包括3种机制:消息队列.信号量.共享内存.消息队列和信号量均是内核空间的系统对象,经由它们 的数据需要在内核和用户空间进行额外的数据拷贝:而共享内存和访问它的所有应用程 ...
随机推荐
- Java中的集合类、Lambda、鲁棒性简述
集合类 在java.util包中提供了一些集合类,常用的有List.Set和Map类,其中List类和Set类继承了Collection接口.这些集合类又称为容器,长度是可变的,数组用来存放基本数据类 ...
- Ubuntu系统在Anaconda中安装Python3.6的虚拟环境
原因:Anaconda的python版本是3.7的,TensorFlow尚不支持此版本,于是我们创建一个Python的虚拟环境以支持TensorFlow 创建tf环境 conda create --n ...
- [noip模拟赛]虫洞holes<SPFA>
虫洞(holes.cpp/c/pas) [题目描述] N个虫洞,M条单向跃迁路径.从一个虫洞沿跃迁路径到另一个虫洞需要消耗一定量的燃料和1单位时间.虫洞有白洞和黑洞之分.设一条跃迁路径两端的虫洞质量差 ...
- 使用Spring管理数据库事务
在整个JavaWeb项目开发中,事务是用来开发可靠性网络应用程序的最关键部分.当应用程序与后端资源进行交互时,就会用到事务,这里的后端资源包括数据库.MQ.ERP等.而数据库事务是最常见的类型,而我们 ...
- 【WPF学习】第六十二章 构建更复杂的模板
在控件模板和为其提供支持的代码之间又一个隐含约定.如果使用自定义控件模板替代控件的标准模板,就需要确保新模板能够满足控件的实现代码的所有需要. 在简单控件中,这个过程比较容易,因为对模板几乎没有(或完 ...
- 使用原生方法查询指定元素是否包含指定className
如果我们要查找某个指定元素是否包含指定的className,可以使用以下方法 eg:document.getElementById('Id').classList.contains('要查询的clas ...
- python实现杨辉三角形
代码实现: # python实现杨辉三角形 def yanghui(): # 定义第一行列表为[1] line = [1] while True: # yield的作用:把一个函数变成生成器,同时返回 ...
- PTA数据结构与算法题目集(中文) 7-10
PTA数据结构与算法题目集(中文) 7-10 7-10 公路村村通 (30 分) 现有村落间道路的统计数据表中,列出了有可能建设成标准公路的若干条道路的成本,求使每个村落都有公路连通所需要的最低 ...
- 微信小程序(黑马优购)完成!!{10天}
微信小程序(黑马优购)完成!!{10天} 项目技术点: wxml, json, wxss, js, mina框架 附上视频链接添加链接描述
- Java第十三天,内部类
内部类 一.①成员内部类.②局部内部类(包含③匿名内部类) 1.内部类用外部类属性和方法的时候,可以随意进行访问. 2.外部类用内部类属性和方法的时候,需要通过内部类对象访问. 3.在编译成class ...