高性能计算-雅可比算法-MPI重复非阻塞优化(7)

#include <stdio.h>

#include <mpi.h>

#include <unistd.h>

#include <stdlib.h>

#define S 4			//分块方阵的大小

#define RB 8		//行方向分块维数

#define B RB*RB		//并行进程数

#define N S*RB		//方阵行列数

#define BS S+2		//块包含交换数据的方阵大小

#define T 2			//迭代次数

//并行-重复非阻塞-笛卡尔64个进程块

/*

优化：通信接口分步优化 MPI_Start

要求：

1、仍然采取二维行列同时分块的方式，对数据进行区域分解。

2、使用笛卡尔虚拟拓扑的相关接口，进行二维进程网格阵列构建、邻居进程编号获取等操作。

3、使用64个进程，每个进程初始化一个二维子块，并负责该子块的Jacobi迭代计算。

4、使用重复非阻塞通信接口。

思路:使用虚拟进程和笛卡尔，每个进程都对上下左右块通信

*/

void printRows(int pid,float rows[BS][BS])

{

	printf("result in %d\n",pid);

	for(int i=0;i<BS;i++)

	{

		for(int j=0;j<BS;j++)

			printf("%.3f\t",rows[i][j]);

		printf("\n");

	}

}

void RequestStart(int count,MPI_Request arr_request[])

{

	for(int i=0;i<count;i++)

		MPI_Start(&arr_request[i]);

}

void RequestFree(int count,MPI_Request arr_request[])

{

	for(int i=0;i<count;i++)

		MPI_Request_free(&arr_request[i]);

}

int main(int argc,char* argv[])

{

	float rows[BS][BS],rows2[BS][BS],temprows[S][S],temprows1[N][N],finalrows[N][N];

	//int top=0,bottom=0,left=0,right=0;	//标记每个block实际数据的边界

	//int ltBID=0,rtBID=1,lbBID=2,rbBID=3;//标记四个角落位置的进程

	MPI_Status arr_status[2+S*2]={0};		//

	MPI_Request* arr_requestS = calloc(2+S*2,sizeof(MPI_Request));	//发送请求

	MPI_Request* arr_requestR = calloc(2+S*2,sizeof(MPI_Request));	//接收请求

	int dims[2]={N/S,N/S};	//8,8

	int periods[2] = {0,0};	//每个维度中不定期

	MPI_Comm cartcomm;

	int pid;				//当前进程ID

	int size=0;

	int coords[2] ={0};		//当前进程笛卡尔坐标

	int nbrs[4] ={0};		//上下左右进程的id

	enum DIR{UP,DOWN,LEFT,RIGHT};

	MPI_Init(&argc,&argv);

	MPI_Comm_size(MPI_COMM_WORLD,&size);

	MPI_Comm_rank(MPI_COMM_WORLD,&pid);

	if(size == B)

	{

		MPI_Cart_create(MPI_COMM_WORLD,2,dims,periods,0,&cartcomm);

		MPI_Cart_coords(cartcomm,pid,2,coords);

		//初始化

		for(int i=0; i<BS; i++)

		{

			for(int j=0; j<BS; j++)

			{

				rows[i][j] = 0.0;

				rows2[i][j] = 0.0;

			}

		}

		//确定上下左右进程的id

		MPI_Cart_shift(cartcomm,0,1,&nbrs[UP],&nbrs[DOWN]);

		MPI_Cart_shift(cartcomm,1,1,&nbrs[LEFT],&nbrs[RIGHT]);

		//有效数据边界初始化

		if(pid%RB == 0)//left

		{

			for(int i=1;i<BS-1;i++)

				rows[i][1] = 8.0;

		}

		if(pid%RB==RB-1)//right

		{

			for(int i=1;i<BS-1;i++)

				rows[i][BS-2] = 8.0;

		}

		if(pid>=0 && pid<RB)//top

		{

			for(int i=1;i<BS-1;i++)

				rows[1][i] = 8.0;

		}

		if(pid<B && pid>=B-RB)//bottom

		{

			for(int i=1;i<BS-1;i++)

				rows[BS-2][i] = 8.0;

		}

		//建立通信连接

		for(int i=0;i<4;i++)

		{

			if(nbrs[i] == -1)

				nbrs[i] = MPI_PROC_NULL;

		}

		//上下左右

		MPI_Recv_init(&rows[0][1],S,MPI_FLOAT,nbrs[UP],0,cartcomm,&arr_requestR[0]);

		MPI_Recv_init(&rows[BS-1][1],S,MPI_FLOAT,nbrs[DOWN],0,cartcomm,&arr_requestR[1]);

		for(int i=1,k=2;i<BS-1;i++,k+=2)

		{

			MPI_Recv_init(&rows[i][0],1,MPI_FLOAT,nbrs[LEFT],0,cartcomm,&arr_requestR[k]);

			MPI_Recv_init(&rows[i][BS-1],1,MPI_FLOAT,nbrs[RIGHT],0,cartcomm,&arr_requestR[k+1]);

		}

		MPI_Send_init(&rows[1][1],S,MPI_FLOAT,nbrs[UP],0,cartcomm,&arr_requestS[0]);

		MPI_Send_init(&rows[BS-2][1],S,MPI_FLOAT,nbrs[DOWN],0,cartcomm,&arr_requestS[1]);

		for(int i=1,k=2;i<BS-1;i++,k+=2)

		{

			MPI_Send_init(&rows[i][1],1,MPI_FLOAT,nbrs[LEFT],0,cartcomm,&arr_requestS[k]);

			MPI_Send_init(&rows[i][BS-2],1,MPI_FLOAT,nbrs[RIGHT],0,cartcomm,&arr_requestS[k+1]);

		}

		//块内需要计算数据的边界索引

		int rbegin,rend;	//块内起始 终止列号

		int cbegin,cend;	//块内列起始 终止列号

		rbegin = (pid>=0 && pid<RB)?2:1;

		rend = (pid<B && pid>=B-RB)?BS-3:BS-2;

		cbegin =(pid%RB == 0)?2:1;

		cend = (pid%RB == RB-1)?BS-3:BS-2;

		//迭代

		for(int step=0; step<T; step++)

		{

			//每个进程都完成收发数据才能计算

			RequestStart(2+S*2,arr_requestR);

			RequestStart(2+S*2,arr_requestS);

			MPI_Waitall(2+S*2,arr_requestR,arr_status);

			MPI_Waitall(2+S*2,arr_requestS,arr_status);

			//计算

			for(int i=rbegin;i<=rend;i++)

			{

				for(int j=cbegin;j<=cend;j++)

					rows2[i][j] =0.25*(rows[i-1][j]+rows[i][j-1]+rows[i][j+1]+rows[i+1][j]);

			}

			//更新

			for(int i=rbegin;i<=rend;i++)

			{

				for(int j=cbegin;j<=cend;j++)

					rows[i][j] = rows2[i][j];

			}

		}

		//打印

		sleep(pid);

		printRows(pid,rows);

		//Gather data from all processes

		for(int i=1,m=0;i<BS-1;i++,m++)

		{

			for(int j=1,n=0;j<BS-1;j++,n++)

				temprows[m][n] = rows[i][j];

		}

		MPI_Barrier(MPI_COMM_WORLD);

		MPI_Gather(temprows,S*S,MPI_FLOAT,temprows1,S*S,MPI_FLOAT,0,MPI_COMM_WORLD);

		//对数据重新整理

		//遍历temprows1

		int index=0;

		for(int rb=0;rb<RB;rb++)//块行索引

		{

			for(int cb=0;cb<RB;cb++)//块列索引

			{

				for(int r=0;r<S;r++)

				{

					for(int c=0;c<S;c++)

					{

						finalrows[rb*S+r][cb*S+c] = *((float*)&temprows1+index++);

					}

				}

			}

		}

		if(pid==0)

		{

			fprintf(stderr,"\nResult after gathering data:\n");

			for(int i = 0; i < N; i++)

			{

				for(int j = 0; j < N; j++)

					fprintf(stderr,"%.3f\t", finalrows[i][j]);

				fprintf(stderr,"\n");

			}

			fprintf(stderr,"\n");

		}

		RequestFree(2+S*2,arr_requestR);

		RequestFree(2+S*2,arr_requestS);

	}

	else if(pid==0)

	{

		printf("parameter:should -n %d\n",B);

	}

	free(arr_requestS);

	free(arr_requestR);

	MPI_Finalize();

	return 0;

}

高性能计算-雅可比算法-MPI重复非阻塞优化(7)的更多相关文章

【MPI学习4】MPI并行程序设计模式：非阻塞通信MPI程序设计
这一章讲了MPI非阻塞通信的原理和一些函数接口,最后再用非阻塞通信方式实现Jacobi迭代,记录学习中的一些知识. (1)阻塞通信与非阻塞通信阻塞通信调用时,整个程序只能执行通信相关的内容,而无法执 ...
Java锁与非阻塞算法的性能比较与分析+原子变量类的应用
15.原子变量与非阻塞同步机制在java.util.concurrent包中的许多类,比如Semaphore和ConcurrentLinkedQueue,都提供了比使用Synchronized更好的 ...
java并发之非阻塞算法介绍
在并发上下文中,非阻塞算法是一种允许线程在阻塞其他线程的情况下访问共享状态的算法.在绝大多数项目中,在算法中如果一个线程的挂起没有导致其它的线程挂起,我们就说这个算法是非阻塞的. 为了更好的理解阻塞算 ...
《Java并发编程实战》笔记-非阻塞算法
如果在某种算法中,一个线程的失败或挂起不会导致其他线程也失败和挂起,那么这种算法就被称为非阻塞算法.如果在算法的每个步骤中都存在某个线程能够执行下去,那么这种算法也被称为无锁(Lock-Free)算法 ...
29、Java并发性和多线程-非阻塞算法
以下内容转自http://ifeve.com/non-blocking-algorithms/: 在并发上下文中,非阻塞算法是一种允许线程在阻塞其他线程的情况下访问共享状态的算法.在绝大多数项目中,在 ...
java并发编程（8）原子变量和非阻塞的同步机制
原子变量和非阻塞的同步机制一.锁的劣势 1.在多线程下:锁的挂起和恢复等过程存在着很大的开销(及时现代的jvm会判断何时使用挂起,何时自旋等待) 2.volatile:轻量级别的同步机制,但是不能用 ...
非阻塞同步机制与CAS操作
锁的劣势 Java在JDK1.5之前都是靠synchronized关键字保证同步的,这种通过使用一致的锁定协议来协调对共享状态的访问,可以确保无论哪个线程持有守护变量的锁,都采用独占的方式来访问这些 ...
Java并发编程实战第15章原子变量和非阻塞同步机制
非阻塞的同步机制简单的说,那就是又要实现同步,又不使用锁. 与基于锁的方案相比,非阻塞算法的实现要麻烦的多,但是它的可伸缩性和活跃性上拥有巨大的优势. 实现非阻塞算法的常见方法就是使用volatil ...
非阻塞同步算法与CAS(Compare and Swap)无锁算法
锁(lock)的代价锁是用来做并发最简单的方式,当然其代价也是最高的.内核态的锁的时候需要操作系统进行一次上下文切换,加锁.释放锁会导致比较多的上下文切换和调度延时,等待锁的线程会被挂起直至锁释放. ...
【Java并发编程】9、非阻塞同步算法与CAS(Compare and Swap)无锁算法
转自:http://www.cnblogs.com/Mainz/p/3546347.html?utm_source=tuicool&utm_medium=referral 锁(lock)的代价 ...

随机推荐

【Python自动化】之运用Git+jenkins集成来运行展示pytest+allure测试报告
目录: 一.安装allure 二.生成allure报告三.结合jenkins来集成pytest+allure 四.结合Git集成Jenkins+Pytest+Allure测试报告五.附录一.安装 ...
第1章-JSP 简介
目录什么是JSP 安装配置JSP运行环境 JSP页面 JSP页面简介设置Web服务目录 JSP运行原理 JSP 与Java Servlet的关系 HTML与JavaScript 什么是JSP ★ ...
netcore高级知识点，内存对齐，原理与示例
最近几年一直从事物联网开发,与硬件打交道越来越多,发现越接近底层开发对性能的追求越高,毕竟硬件资源相对上层应用来实在是太缺乏了.今天想和大家一起分享关于C#中的内存对齐,希望通过理解和优化内存对齐,可 ...
Go实现常用的排序算法
一.插入排序 1.从第一个元素开始,该元素可以认为已经被排序 2.取出下一个元素,在已经排序的元素序列中从后向前扫描 3.如果该元素(已排序)大于新元素,将该元素移到下一位置 4.重复步骤3,直到找到 ...
WPF 实现一个吃豆豆的Loading加载动画
运行的效果如下先引入一下我们需要的库在nuget上面搜一下"expression.Drawing",安装一下这个包我们再创建一个Window,引入一下这个包的命名空间我们设 ...
SQL Server – 树结构 (二叉树, 红黑树, B-树, B+树)
前言很久以前有学习过各种树结构, 但后来真的没有在实际项目中运用到. 毕竟我主要负责的都是写业务代码. 太上层了但是忘光光还是很可惜的. 所以久久可以复习一下. 记得概念也好, 帮助思考. 参考: ...
Blazor与IdentityServer4的集成
本文合并整理自 CSDN博主「65号腕」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明. Blazor与IdentityServer4的集成(一) IdentityS ...
简化部署流程：Rainbond让Jeepay支付系统部署更轻松
在如今的开发环境中,部署一套像 Jeepay 这样的 Java 支付系统往往需要开发者面对繁琐的配置.依赖环境管理以及服务的高可用性保障,手动部署和运维变得异常艰巨和费时.然而,借助 Rainbond ...
CE-植物大战僵尸杂交版
植物大战僵尸杂交版偏移:208+82c
第三方的开源库FluentVaidation校验字段的
内置的 using System.ComponentModel.DataAnnotations; 基本使用: 1. 安装包 FluentValidation.AspNetCOre 2. 注册服务 bu ...

高性能计算-雅可比算法-MPI重复非阻塞优化(7)

高性能计算-雅可比算法-MPI重复非阻塞优化(7)的更多相关文章

随机推荐

热门专题