分布式计算课程补充笔记 part 3

▶ OpenMP 的任务并行 (task parallelism)：显式定义一系列可执行的任务及其相互依赖关系，通过任务调度的方式多线程动态执行，支持任务的延迟执行 (deferred execution)

● 变量的数据域：并行区共享变量 → task 区也为共享；并行区私有变量 → task 区为 firstprivate；task 区其他变量 → 默认私有

● 范例代码

 #include <stdio.h>

 #include <omp.h>

 #include <time.h>

 int fib(int n)

 {

     int x, y;

     if (n < )

         return n;

 #pragma omp task shared(x)  // 创建关于 x 的 task

     x = fib(n - );

 #pragma omp task shared(y)  // 创建关于 y 的 task

     y = fib(n - );

 #pragma omp taskwait        // 等待两个 task 完成才嫩开始接下来的计算

     return  x + y;

 }

 int main()

 {

     int res, n = ;

     clock_t tick = clock();

 #pragma omp parallel        // task 要在并行区内调用

     {

 #pragma omp single          // 根任务只调用 1 次

         res = fib(n);

     }

     printf("Fib[%d] == %d, time = %f ms\n", n, res, float(clock() - tick)/);

     getchar();

     return ;

 }

▶ 动态线程：系统动态选择并行区的线程数 (默认关闭)

● 用库函数打开 / 关闭动态线程，flag == 0 按优先级决定线程数，flag != 0 系统动态调节线程数

void omp_set_dynamic(int flag)

● 用环境变量打开 / 关闭动态线程

export OMP_DYNAMIC = true

● 检查动态线程是否打开

int omp_get_dynamic (void)

▶ 嵌套并行：并行区之内开启并行区 (默认开启)

● 用库函数打开 / 关闭嵌套并行

void omp_set_nested(int flag)

● 用环境变量打开 / 关闭嵌套并行

export OMP_NESTED = true

export OMP_NUM_THREADS = n1, n2, n3 # 每层嵌套的线程数

● 检查嵌套并行是否打开

int omp_get_nested (void)

▶ 动态线程和嵌套并行的范例代码

 #include <stdio.h>

 #include <omp.h>

 #include <time.h>

 int main()

 {

     omp_set_dynamic();                                             // 关闭动态线程

     #pragma omp parallel num_threads(2)

     {

         #pragma omp single                                          // 一个线程来执行，返回 2

         printf("Outer: num_thds=%d\n\n", omp_get_num_threads());

         omp_set_nested();                                          // 开启嵌套并行

         #pragma omp parallel num_threads(3)                         // 内嵌一个 3 线程的并行块

         {

             #pragma omp single

             printf("Inner: num_thds=%d\n", omp_get_num_threads());  // 返回 3

         }

         #pragma omp barrier

         omp_set_nested();                                          // 关闭嵌套并行

         #pragma omp parallel num_threads(3)                         // 内嵌一个 3 线程的并行块

         {

             #pragma omp single

             printf("Inner: num_thds=%d\n", omp_get_num_threads());  // 返回 1

         }

         #pragma omp barrier

     }              

     getchar();

     return ;

 }

▶ 线程私有型全局变量：将全局变量置为线程私有（对线程而言是全局变量），必须置于全局变量的声明列表之后

#pragma omp threadprivate (list)

● 范例代码

 #include <stdio.h>

 #include <omp.h>   

 int a, b, i, tid;

 float x;

 #pragma omp threadprivate(a, x)

 int main(int argc, char *argv[])

 {

     omp_set_dynamic();

     omp_set_num_threads();

     printf("1st Parallel Region:\n");

     #pragma omp parallel private(b, tid)

     {

         tid = omp_get_thread_num();

         a = tid;

         b = tid;

         x = float(tid);

         printf("Thread %d: a, b, x= %d, %d, %f\n", tid, a, b, x);

     }

     printf("\n2nd Parallel Region:\n");

     #pragma omp parallel private(tid)

     {

         tid = omp_get_thread_num();

         printf("Thread %d: a, b, x= %d, %d, %f\n", tid, a, b, x);

     }

     getchar();

     return ;

 }

● 输出结果，b 没有私有化，保持了第一并行区的结果

1st Parallel Region :

Thread  : a, b, x = , , 0.000000

Thread  : a, b, x = , , 1.000000

Thread  : a, b, x = , , 3.000000

Thread  : a, b, x = , , 2.000000

2nd Parallel Region :

Thread  : a, b, x = , , 0.000000

Thread  : a, b, x = , , 2.000000

Thread  : a, b, x = , , 3.000000

Thread  : a, b, x = , , 1.000000

▶ OpenMP 堆栈：除了主线程，每个线程的私有变量存储空间受线程堆栈大小控制，超出堆栈大小程序的行为不可控

● OpenMP 堆栈大小依赖实现：icc 默认 4 MB；gcc / gfortran 默认 2 MB；

● 可以通过环境变量修改默认堆栈大小：

export OMP_STACKSIZE=32M

export OMP_STACKSIZE=8192K

▶ 线程亲和性（affinity）和线程绑定（binding）：线程亲和性决定 NUMA 架构的系统上线程在物理计算核心的映射策略；线程绑定显式确定线程与物理计算核心的对应关系，以提升性能

● OpenMP 3.1 开始提供线程绑定支持，OpenMP 4.5 开始较好支持，工具：numactl（参考http://www.glennklockwood.com/hpc-howtos/process-affinity.html）

export OMP_PROC_BIND=TRUE

● icc 可设置线程亲和性（参考https://software.intel.com/en-us/node/522691）

export KMP_AFFINITY = [<modifier>,...] <type> [,<permute>] [,<offset>]

▶ PETSc （Portable Extensible Toolkit for Sciencific Computation）讲座相关

● Advanced Sciencific Computing：

　　■ 应用上（Large and Complex）

　　■ 算法上（fully or semi implicit, multileve, nested, hierarchical, computer architure aware）

　　■ 并行化（Libraries, extensible solvers, composable）

● 部分幻灯片

● 终端中的代码

cd petsc-3.10./

module add mpich

module add petsc

cd src/vec/vec/examples/tutorials/

ls -al

make ex2

srun -c  mpiexec -n  ./ ex2       # 指定  核心

分布式计算课程补充笔记 part 3的更多相关文章

分布式计算课程补充笔记 part 4
▶ 并行通讯方式: map 映射全局一到一全局单元素计算操作 transpose 转置一到一单元素位移 gather 收集多到一元素搬运不计算 scatter 分散一到多元素搬运不计算 ...
分布式计算课程补充笔记 part 2
▶ 并行计算八字原则:负载均衡,通信极小 ▶ 并行计算基本形式:主从并行.流水线并行.工作池并行.功能分解.区域分解.递归分治 ▶ MPI 主要理念:进程 (process):无共享存储:显式消息传递 ...
分布式计算课程补充笔记 part 1
▶ 高性能计算机发展历程真空管电子计算机,向量机(Vector Machine),并行向量处理机(Parallel Vector Processors,PVP),分布式并行机(Parallel Pr ...
分布式计算课程补充笔记 part 1.5
▶ 编写 SLURM 脚本 #!/bin/bash #SBATCH -J name # 任务名 #SBATCH -p gpu # 分区名,可为 cpu 或 gpu #SBATCH -N # 节点数 # ...
（转载）林轩田机器学习基石课程学习笔记1 — The Learning Problem
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can M ...
03、同事分享课程的笔记 —《Android应用低功耗设计》
这是安卓组的同事一个月前分享的一节课程,听课时写了一下笔记,之前是写在本子上的,感觉内容挺不错的,就保存在博客了吧,方便回看. 他曾经在就职于英特尔公司,是与芯片设计相关的,这课程标题虽然是与安卓相 ...
Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
分布式计算框架学习笔记--hadoop工作原理
(hadoop安装方法:http://blog.csdn.net/wangjia55/article/details/53160679这里不再累述) hadoop是针对大数据设计的一个计算架构.如果你 ...
[基础]斯坦福cs231n课程视频笔记(三) 训练神经网络
目录 training Neural Network Activation function sigmoid ReLU Preprocessing Batch Normalization 权重初始化 ...

随机推荐

neutron之neutron_openvswitch_agent占用100%CPU资源问题
基于kolla-ansible部署的queens版本,基于docker stats查看openstack的资源占用,发现neutron_openvswitch_agent一直占用100%CPU资源,这 ...
Msfvenom学习总结
1. –p (- -payload-options) 添加载荷payload. 载荷这个东西比较多,这个软件就是根据对应的载荷payload生成对应平台下的后门,所以只有选对payload,再填 ...
@Autowired Map<String , Object> xx
http://www.cnblogs.com/davidwang456/p/4432410.html @Autowired 标注作用于 Map 类型时,如果 Map 的 key 为 String 类型 ...
TOJ-5395 大于中值的边界元素
描述给定一个二维数组,求二维数组的边界元素中,大于二维数组“中值”的元素个数.这里的“中值”定义为一个元素序列中: (1)当元素个数为奇数时,即为中间大的元素: (2)当元素个数为偶数时,为中间大的 ...
FreeSWITCH与FreeSWITCH对接
(主机A ---> 主机B)192.168.100.A主机:修改/usr/local/freeswitch/conf/dialplan/default.xml 10 <ex ...
mysql oracle 数据库备份
mysql 备份与还原转载:https://blog.csdn.net/win_turn/article/details/60880990 备份数据库数据库名叫dddd mysqldump -u ...
第k大元素
在数组中找到第k大的元素样例给出数组[9,3,2,4,8],第三大的元素是4 给出数组 [1,2,3,4,5],第一大的元素是5,第二大的元素是4,第三大的元素是3,以此类推注意你可以交换数组 ...
Linux下修改Jenkins默认端口
我是自动安装的Jenkins,默认目录为 jenkins安装目录:/var/lib/jenkins jenkins日志目录:/var/log/jenkins/jenkins.logjenkins默认配 ...
python 不同进程间通信
from multiprocessing import Process,Queue import os def f (qq): qq.put([42,None,'hello']) #将列表传入队列qq ...
Concordion test
reference documents http://concordion.org/Example.html

分布式计算课程补充笔记 part 3

分布式计算课程补充笔记 part 3的更多相关文章

随机推荐

热门专题