高性能计算-雅可比算法MPI通信优化(5)

雅可比算法原理：如下图对方阵非边界元素求上下左右元素的均值，全部计算元素的数值计算完成后更新矩阵，进行下一次迭代。
测试目标：用MPI实现对8*8方阵雅可比算法迭代并行计算，用重复非阻塞的通信方式

#include <stdio.h>

#include <mpi.h>

#include <unistd.h>

#define N 8		//方阵行列数

#define B 4		//并行进程数

#define S N/(B/2)	//分块方阵的大小

#define BS S+1	//块包含交换数据的方阵大小

#define T 2		//迭代次数

//并行-重复非阻塞-4*4分块并行计算，共4个块，每个计算块包含其他块计算数据的块大小为 5*5

/*

优化：通信接口分步优化 MPI_Start

*/

void printRows(int pid,float rows[BS][BS])

{

	printf("result in %d\n",pid);

	for(int i=0;i<BS;i++)

	{

		for(int j=0;j<BS;j++)

			printf("%.3f\t",rows[i][j]);

		printf("\n");

	}

}

void RequestStart(int count,MPI_Request arr_request[])

{

	for(int i=0;i<count;i++)

		MPI_Start(&arr_request[i]);

}

void RequestFree(int count,MPI_Request arr_request[])

{

	for(int i=0;i<count;i++)

		MPI_Request_free(&arr_request[i]);

}

int main(int argc,char* argv[])

{

	float rows[BS][BS],rows2[BS][BS],temprows[S][S],temprows1[N][N],finalrows[N][N];	

	int pid;

	int top=0,bottom=0,left=0,right=0;	//标记每个block实际数据的边界

	int ltBID=0,rtBID=1,lbBID=2,rbBID=3;//标记四个角落位置的进程

	MPI_Status arr_status[BS]={0};		//

	MPI_Request arr_requestS[BS] = {0};	//发送请求 第0个:行数据请求

	MPI_Request arr_requestR[BS] = {0};	//接收请求 第0个:行数据请求

	MPI_Init(&argc,&argv);

	MPI_Comm_rank(MPI_COMM_WORLD,&pid);

	//初始化

	for(int i=0; i<BS; i++)

	{

		for(int j=0; j<BS; j++)

		{

			rows[i][j] = 0.0;

			rows2[i][j] = 0.0;

		}

	}

	//有效数据边界初始化

	if(ltBID==pid || rtBID==pid)

	{

		top = 0;

		bottom = S-1;

	}

	else

	{

		top = 1;

		bottom = S;

	}

	if(ltBID==pid || lbBID==pid)

	{

		left = 0;

		right = S-1;

	}

	else

	{

		left = 1;

		right = S;

	}

	//数据初始化

	if(ltBID==pid || rtBID==pid)

	{

		for(int j=left;j<=right;j++)

			rows[top][j] = 8.0;

	}

	else if(lbBID==pid || rbBID==pid)

	{

		for(int j=left;j<=right;j++)

			rows[bottom][j] = 8.0;

	}

	if(ltBID==pid||lbBID==pid)

	{

		for(int i=top;i<=bottom;i++)

			rows[i][left] = 8.0;

	}

	else if(rtBID==pid || rbBID==pid)

	{

		for(int i=top;i<=bottom;i++)

			rows[i][right] = 8.0;

	}

	//建立通信连接

	if(ltBID==pid)

	{

		MPI_Recv_init(&rows[S],S,MPI_FLOAT,pid+2,0,MPI_COMM_WORLD,&arr_requestR[0]);

		for(int i=top,k=1;i<=bottom;i++,k++)

		{

			MPI_Recv_init(&rows[i][S],1,MPI_FLOAT,pid+1,0,MPI_COMM_WORLD,&arr_requestR[k]);

			MPI_Send_init(&rows[i][S-1],1,MPI_FLOAT,pid+1,0,MPI_COMM_WORLD,&arr_requestS[k]);

		}

		MPI_Send_init(&rows[S-1],S,MPI_FLOAT,pid+2,0,MPI_COMM_WORLD,&arr_requestS[0]);

	}

	if(rtBID==pid)

	{

		MPI_Recv_init(&rows[S][1],S,MPI_FLOAT,pid+2,0,MPI_COMM_WORLD,&arr_requestR[0]);

		for(int i=top,k=1;i<=bottom;i++,k++)

		{

			MPI_Recv_init(&rows[i],1,MPI_FLOAT,pid-1,0,MPI_COMM_WORLD,&arr_requestR[k]);

			MPI_Send_init(&rows[i][1],1,MPI_FLOAT,pid-1,0,MPI_COMM_WORLD,&arr_requestS[k]);

		}

		MPI_Send_init(&rows[S-1][1],S,MPI_FLOAT,pid+2,0,MPI_COMM_WORLD,&arr_requestS[0]);

	}

	if(lbBID==pid)

	{

		MPI_Recv_init(&rows[0],S,MPI_FLOAT,pid-2,0,MPI_COMM_WORLD,&arr_requestR[0]);

		for(int i=top,k=1;i<=bottom;i++,k++)

		{

			MPI_Recv_init(&rows[i][S],1,MPI_FLOAT,pid+1,0,MPI_COMM_WORLD,&arr_requestR[k]);

			MPI_Send_init(&rows[i][S-1],1,MPI_FLOAT,pid+1,0,MPI_COMM_WORLD,&arr_requestS[k]);

		}

		MPI_Send_init(&rows[1],S,MPI_FLOAT,pid-2,0,MPI_COMM_WORLD,&arr_requestS[0]);

	}

	if(rbBID==pid)

	{

		MPI_Recv_init(&rows[0][1],S,MPI_FLOAT,pid-2,0,MPI_COMM_WORLD,&arr_requestR[0]);

		for(int i=top,k=1;i<=bottom;i++,k++)

		{

			MPI_Recv_init(&rows[i],1,MPI_FLOAT,pid-1,0,MPI_COMM_WORLD,&arr_requestR[k]);

			MPI_Send_init(&rows[i][1],1,MPI_FLOAT,pid-1,0,MPI_COMM_WORLD,&arr_requestS[k]);

		}

		MPI_Send_init(&rows[1][1],S,MPI_FLOAT,pid-2,0,MPI_COMM_WORLD,&arr_requestS[0]);

	}

	//块内需要计算数据的边界索引

	int rbegin,rend;	//块内起始 终止列号

	int cbegin,cend;	//块内列起始 终止列号

	rbegin = 1;

	rend = S-1;

	cbegin = 1;

	cend = S-1;

	//迭代

	for(int step=0; step<T; step++)

	{

		//每个进程都完成收发数据才能计算

		RequestStart(BS,arr_requestR);

		RequestStart(BS,arr_requestS);

		MPI_Waitall(BS,arr_requestR,arr_status);

		MPI_Waitall(BS,arr_requestS,arr_status);

		//计算

		for(int i=rbegin;i<=rend;i++)

		{

			for(int j=cbegin;j<=cend;j++)

				rows2[i][j] =0.25*(rows[i-1][j]+rows[i][j-1]+rows[i][j+1]+rows[i+1][j]);

		}

		//更新

		for(int i=rbegin;i<=rend;i++)

		{

			for(int j=cbegin;j<=cend;j++)

				rows[i][j] = rows2[i][j];

		}

	}

	//打印

	sleep(pid);

	printRows(pid,rows);

	//Gather data from all processes

	for(int i=top,m=0;i<=bottom;i++,m++)

	{

		for(int j=left,n=0;j<=right;j++,n++)

			temprows[m][n] = rows[i][j];

	}

	MPI_Barrier(MPI_COMM_WORLD);

	MPI_Gather(temprows,16,MPI_FLOAT,temprows1,16,MPI_FLOAT,0,MPI_COMM_WORLD);

	//对数据重新整理

	//遍历temprows1

	int index=0;

	for(int rb=0;rb<2;rb++)//块行索引

	{

		for(int cb=0;cb<2;cb++)//块列索引

		{

			for(int r=0;r<S;r++)

			{

				for(int c=0;c<S;c++)

				{

					finalrows[rb*S+r][cb*S+c] = *((float*)&temprows1+index++);

				}

			}

		}

	}

	if(pid==0)

	{

        fprintf(stderr,"\nResult after gathering data:\n");

        for(int i = 0; i < N; i++)

        {

            for(int j = 0; j < N; j++)

                fprintf(stderr,"%.3f\t", finalrows[i][j]);

            fprintf(stderr,"\n");

        }

        fprintf(stderr,"\n");

	}

	RequestFree(BS,arr_requestR);

	RequestFree(BS,arr_requestS);

	MPI_Finalize();

	return 0;

}

高性能计算-雅可比算法MPI通信优化(5)的更多相关文章

SSE图像算法优化系列二：高斯模糊算法的全面优化过程分享（一）。
这里的高斯模糊采用的是论文<Recursive implementation of the Gaussian filter>里描述的递归算法. 仔细观察和理解上述公式,在forward过程 ...
小波学习之二（单层一维离散小波变换DWT的Mallat算法C++实现优化）--转载
小波学习之二(单层一维离散小波变换DWT的Mallat算法C++实现优化) 在上回<小波学习之一>中,已经详细介绍了Mallat算法C++实现,效果还可以,但也存在一些问题,比如,代码 ...
Java 排序算法-冒泡排序及其优化
Java 排序算法-冒泡排序及其优化什么是冒泡排序基本写法优化后写法终极版本源码及测试什么是冒泡排序这里引用一下百度百科上的定义: 冒泡排序(Bubble Sort),是一种计算机科学领 ...
Parallel Computing–Cannon算法 (MPI 实现)
原理不解释,直接上代码代码中被注释的源程序可用于打印中间结果,检查运算是否正确. #include "mpi.h" #include <math.h> #includ ...
图的最短路算法 Dijkstra及其优化
单源最短路径算法时间复杂度O(N2) 优化后时间复杂度为O(MlogN)(M为图中的边数所以对于稀疏图来说优化后更快) 不支持有负权的图 #include<iostream> usin ...
KMP串匹配算法解析与优化
朴素串匹配算法说明串匹配算法最常用的情形是从一篇文档中查找指定文本.需要查找的文本叫做模式串,需要从中查找模式串的串暂且叫做查找串吧. 为了更好理解KMP算法,我们先这样看待一下朴素匹配算法吧.朴素 ...
南理第八届校赛同步赛-F sequence//贪心算法&二分查找优化
题目大意:求一个序列中不严格单调递增的子序列的最小数目(子序列之间没有交叉). 这题证明贪心法可行的时候,可以发现和求最长递减子序列的长度是同一个方法,只是思考的角度不同,具体证明并不是很清楚,这里就 ...
SSE图像算法优化系列十：简单的一个肤色检测算法的SSE优化。
在很多场合需要高效率的肤色检测代码,本人常用的一个C++版本的代码如下所示: void IM_GetRoughSkinRegion(unsigned char *Src, unsigned char ...
关于tarjan算法的空间优化
最近随着对tarjan算法理解的加深,我发现用另外一种途径实现tarjan的方法,且可以省去DFN数组,大大节省了空间.经过大量测试,已经无误.以下将分阶段阐述进行优化的过程. 第一阶段下面来说一下 ...
【机器学习】支持向量机（SVM）的优化算法——序列最小优化算法（SMO）概述
SMO算法是一一种启发式算法,它的基本思路是如果所有变量的解的条件都满足最优化问题的KKT条件,那么这个最优化问题的解就得到了.因为KKT条件是该优化问题的充分必要条件. 整个SMO算法包括两个部分: ...

随机推荐

MacPorts 使用
安装安装苹果命令行开发工具: xcode-select --install 下载并打开 MacPorts 安装包. 使用 MacPorts 中的软件包称为 port. sudo port selfu ...
使用 AWS CLI 管理 S3
S3 是 AWS 的对象存储服务 S3: Simple Storage Service 创建桶使用 aws s3 mb 命令创建新的 S3 桶.您需要提供一个全球唯一的桶名称和创建桶的区域. aws ...
最常用集合 - arraylist详解
ArrayList介绍 ArrayList实现了List接口,是顺序容器,即元素存放的数据与放进去的顺序相同,允许放入null元素,底层通过数组实现.除该类未实现同步外,其余跟Vector大致相同.每 ...
nacos 注册服务正常，服务列表内没有服务
解决办法: 在nacos里创建注册的命名空间 , 然后再看服务列表就会有对应命名空间的数据了
【YashanDB知识库】同时设置默认值和非空约束时报错YAS-02070
[问题分类]功能使用 [关键字]YAS-02070 [问题描述] SQL create table test01(id int,name varchar(10)); insert into test0 ...
BIM: From sketch to digital twin
BIM - building information model mechanical, electrical, and plumbing (MEP) Revit - AutoDesk的建筑建模软件, ...
Angular Material 18+ 高级教程 – CDK Table
前言 CDK Table 是 Angular Material 对 <table> 的抽象 (无 styles) 封装. 无 styles 的 table 有什么好封装的呢? CDK Ta ...
C++11 线程同步接口std::condition_variable和std::future的简单使用
std::condition_variable 条件变量std::condition_variable有wait和notify接口用于线程间的同步.如下图所示,Thread 2阻塞在wait接口,Th ...
Maven高级——依赖管理
依赖管理依赖指向当前项目运行所需的jar包,一个项目可以设置多个依赖依赖传递依赖具有传递性直接依赖:在当前项目中通过依赖配置建立的依赖关系间接依赖:被依赖的资源如果依赖其他资源.当前项目间接 ...
Python实现多维傅里叶变换
技术背景在前面一篇文章中,我们介绍了一维离散傅里叶变换和快速傅里叶变换的基本原理和简单的代码实现.本文补充一个多维傅里叶变换的场景,以及简单的Python实现. 二维傅里叶变换首先回顾一下上一篇文 ...

高性能计算-雅可比算法MPI通信优化(5)

高性能计算-雅可比算法MPI通信优化(5)的更多相关文章

随机推荐

热门专题