高性能计算-gemm串行计算优化(3)

目标：Darknet 源码cpu矩阵乘法函数 gemm_nn 优化。参数说明：lda A的列数; ldb B的列数; ldc C的列数; M C的行数; K A的列数

测试方法：Darknet源码，makefile文件添加编译选项 -pg，编译后得到可执行程序 darknet，运行可执行程序：

./darknet detect cfg/yolov3-tiny.cfg yolov3-tiny.weights data/kite.jpg

得到文件 gmon.out，转换为文本，查看热点函数及其耗时。

gprof darknet gmon.out > out

矩阵乘法基础写法

for(int i=0; i<M; i++)//矩阵A: M*K

{

  for(int j=o; j<N; j++)//矩阵B: K*N

  {

		for(int k=0; k<K; k++)

		{

			C[i][j] += A[i][k] * B[k][j];

		}

  }

}

darknet 矩阵乘法源码 src/gemm.c

void gemm_nn(int M, int N, int K, float ALPHA, float *A, int lda, float*B, int ldb,loat *C, int ldc)

{

  int i,j,k;

	for (i = 0; i < M; ++i)//矩阵A: M*K

	{

		 for (j = 0; j < N; ++j)//矩阵B: K*N

		{

			register float c_sum = 0.0f;//使用局部变量减少对传入内存引用

			for (k = 0; k < K; ++k)//K 矩阵A列数；按行列顺序，逐一完成C 元素的计算

			{

				//lda 矩阵A的列数；lAb 矩阵B的列数

				c_sum += ALPHA * A[i * lda  + k] * B[k * ldb + j ];

			}

			//ldc 矩阵C的列数

			C[i * ldc +j] += c_sum;

		}

	}

}

循环展开优化：2x和4x加速不明显

void gemm_nn(int M, int N, int K, float ALPHA,

        float *A, int lda,

        float *B, int ldb,

        float *C, int ldc)

{

    int i,j,k;

    for (i = 0; i < M; ++i)

    {

        for (j = 0; j < N; ++j)

        {

            register float c_sum = 0.0f;

			#if 0

			for (k = 0; k < K; ++k)//一个完整元素的完整计算过程

            {

                c_sum += ALPHA * A[i * lda + k] * B[k * ldb + j];

            }

			#elif 1 //2x

			for (k = 0; k < K; k += 2)//一个完整元素的完整计算过程

            {

                c_sum += ALPHA * A[i * lda + k] * B[k * ldb + j];

                c_sum += ALPHA * A[i * lda + k+1] * B[(k+1) * ldb + j];

            }

			#elif //4x

            for (k = 0; k < K; k += 4)//一个完整元素的完整计算过程

            {

                c_sum += ALPHA * A[i * lda + k] * B[k * ldb + j];

                c_sum += ALPHA * A[i * lda + k+1] * B[(k+1) * ldb + j];

				c_sum += ALPHA * A[i * lda + k+2] * B[(k+2) * ldb + j];

                c_sum += ALPHA * A[i * lda + k+3] * B[(k+3) * ldb + j];

            }

			#elif

			#endif

            C[i * ldc + j] += c_sum;

        }

    }

}

矩阵乘法一维分块优化

void gemm_nn(int M, int N, int K, float ALPHA,

        float *A, int lda,

        float *B, int ldb,

        float *C, int ldc)

{

	memset(C,0,sizeof(float)*ldc*M);

	for(int m=0; m<M; m += 4)//矩阵A M*K 行方向遍历，定位块行号

	{

		for(int n=0; n<N; n += 4)//矩阵B K*N 列方向遍历，定位块列号

		{

			for(int k=0; k<K; k++)//K方向遍历，放在最内层也可

			{

				for(int mb=0; mb<4; mb++)//定位块内行号

				{

					for(int nb=0; nb<4; nb++)//定位快内列号

					{

						C[(m+mb)*ldc + (n+nb)] +=  ALPHA* A[(m+mb)*lda + (k)]*B[(k)*ldb + (n+nb)];

					}

				}

			}

		}

	}

}

gemm_nn 矩阵乘法二维分块优化：cannon 算法

void gemm_nn(int M, int N, int K, float ALPHA,

        float *A, int lda,

        float *B, int ldb,

        float *C, int ldc)

{

	memset(C,0,sizeof(float)*ldc*M);

	for(int m=0; m<M; m += 4)//矩阵A M*K M方向遍历，定位块行号

	{

		for(int n=0; n<N; n += 4)//矩阵B K*N N方向遍历，定位块列号

		{

			for(int k=0; k<K; k += 4)//K方向遍历，定位块号

			{

				for(int mb=0; mb<4; mb++)//定位块内行号

				{

					for(int nb=0; nb<4; nb++)//定位块内列号

					{

						for(int kb=0; kb<4; kb++)//快内按照 K 方向累加

						{

							C[(m+mb)*ldc + (n+nb)] = ALPHA * A [(m+mb)*lda + (k+kb)] * B[(k+kb)*ldb + (n+nb)];

						}

					}

				}

			}

		}

	}

}

对B转置计算

通常矩阵元素的计算公式：

C [ m ] [ n ] = ∑ 0 k − 1 A [ m ] [ k ] ∗ B [ k ] [ n ]

优化后的矩阵元素计算公式：

C [ m ] [ n ] = ∑ 0 k − 1 A [ m ] [ k ] ∗ B T [ n ] [ k ]

代码实现：

void gemm_nn(int M, int N, int K, float ALPHA, float *A, int lda, float*B, int ldb,loat *C, int ldc)

{

	//对B转置再计算，可以增加缓存命中

        memset(C,0,sizeof(float)*ldc*M);

        float* Btemp=calloc(K*ldb,sizeof(float));

        for(int i=0;i<K;i++)

        {

          for(int j=0;j<ldb;j++)

            Btemp[j*K+i] = B[i*ldb+j];

        }

        for(int m=0;m<M;m++)

        {

          for(int n=0;n<ldb;n++)

          {

            for(int k=0;k<K;k++)

              C[m*ldc+n] += ALPHA * A[m*lda+k] * Btemp[n*K+k];

          }

        }

        free(Btemp);

}

测试结果

gemm_nn 函数耗时：

darknet 源码	11.7s

loop 2x循环展开：11.5s

loop 4x循环展开：12.1s

一维分块4*K：9.2，比源码提升 27%

二维分块block 4*4 ：6.53s，比源码效率提升 79%

对B转置：5.17s，比源码提升 126%

高性能计算-gemm串行计算优化(3)的更多相关文章

百度云BaaS体系揭秘，突破共识机制、单机计算和串行处理三大瓶颈
区块链作为去中心化的技术机制拥有广泛的应用场景与市场潜能.自2017年爆发式增长后,区块链虽然已经进入平稳期,但仍然存在概念混淆.技术性能制约.智能合约制约.共识机制.网络建设等痛点.为了打破行业壁垒 ...
痞子衡嵌入式：了解i.MXRT1060系列ROM中串行NOR Flash启动初始化流程优化点
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家分享的是i.MXRT1060系列ROM中串行NOR Flash启动初始化流程优化点. 前段时间痞子衡写了一篇 <深入i.MXRT1050系 ...
ForkJoin、并行流计算、串行流计算对比
ForkJoin 什么是 ForkJoin ForkJoin 是一个把大任务拆分为多个小任务来分别计算的并行计算框架 ForkJoin 特点:工作窃取这里面维护的都是双端队列,因此但其中一个线程完成 ...
CNN卷积神经网络_深度残差网络 ResNet——解决神经网络过深反而引起误差增加的根本问题，Highway NetWork 则允许保留一定比例的原始输入 x。（这种思想在inception模型也有，例如卷积是concat并行，而不是串行）这样前面一层的信息，有一定比例可以不经过矩阵乘法和非线性变换，直接传输到下一层，仿佛一条信息高速公路，因此得名Highway Network
from:https://blog.csdn.net/diamonjoy_zone/article/details/70904212 环境:Win8.1 TensorFlow1.0.1 软件:Anac ...
CUDA-F-1-0-并行计算与计算机架构
Abstract: 本文从总体上给出了CUDA编程的Big picture,后续所有的文章都在本文的基础上详细展开. Keywords: 并行计算,串行编程,并行编程,计算机架构,并行性,异构架构,C ...
【Java8新特性】关于并行流与串行流，你必须掌握这些！！
写在前面提到Java8,我们不得不说的就是Lambda表达式和Stream API.而在Java8中,对于并行流和串行流同样做了大量的优化.对于并行流和串行流的知识,也是在面试过程中,经常被问到的知 ...
Java8的新特性--并行流与串行流
目录写在前面 Fork/Join框架 Fork/Join框架与传统线程池的区别传统的线程池 Fork/Join框架 Fork/Join框架的使用 Java8中的并行流写在前面我们都知道,在开发 ...
GEMM与AutoKernel算子优化
GEMM与AutoKernel算子优化随着AI技术的快速发展,深度学习在各个领域得到了广泛应用.深度学习模型能否成功在终端落地应用,满足产品需求,一个关键的指标就是神经网络模型的推理性能.一大波算法 ...
串行移位锁存并行输出可级联器件74HC595
一.背景老同学今天突然咨询关于74HC595,自己没用过,同学说可以级联10级!10级?我艹,这么叼,级联又是什么鬼,这勾起了我极大兴趣,二话不说,手册down下来研究,并在此做个记录. 二.正文 ...
STM32学习笔记(五) USART异步串行口输入输出(轮询模式)
学习是一个简单的过程,只要有善于发掘的眼睛,总能学到新知识,然而如何坚持不懈的学习却很困难,对我亦如此,生活中有太多的诱惑,最后只想说一句勿忘初心.闲话不多扯,本篇讲诉的是异步串行口的输入输出,串口在 ...

随机推荐

Kubernetes 初体验
在 DigitalOcean 创建一个 Kubernetes 集群下载集群 Config 文件到 ~/.kube 目录通过环境变量 KUBECONFIG 设置本地 kubectl 工具使用下载的配 ...
Qml 实现水波进度动画条
[写在前面] 最近看到一个非常有趣的动画效果:水波进度动画. 学习了一下实现思路,觉得很有意思. 不过原版是 HTML + CSS,我这里用的是 Qml,有一些小技巧,分享给大家~ [正文开始] 老样 ...
使用 Wake Lock API：保持设备唤醒的最佳实践
在现代 Web 应用中,尤其是涉及视频播放.实时通信.地图导航等长时间运行的任务时,用户常常希望设备不要因为空闲而自动进入睡眠模式或屏幕变暗.为了解决这一问题,Web API 提供了一个名为 Wake ...
神经网络之卷积篇：详解为什么使用卷积？（Why convolutions?）
详解为什么使用卷积? 来分析一下卷积在神经网络中如此受用的原因,然后对如何整合这些卷积,如何通过一个标注过的训练集训练卷积神经网络做个简单概括.和只用全连接层相比,卷积层的两个主要优势在于参数共享和稀 ...
【YashanDB知识库】如何dump数据文件，转换rowid，查询对应内容
本文来自YashanDB官网,具体内容可见https://www.yashandb.com/newsinfo/7459464.html?templateId=1718516 问题现象客户环境有时候会 ...
在 macOS上安装 MongoDB 社区版
官网教程 https://docs.mongodb.com/manual/tutorial/install-mongodb-on-os-x/ 使用第三方 brew package manager 在 ...
掌握Docker：简化KES单机安装与管理的最佳实践
今天我们将继续深入探讨KES的单机安装,依然围绕Docker的使用展开.这一部分的内容将涵盖一些常见的陷阱以及在遇到问题时如何进行有效的反馈和解决.首先,我们需要找到官方的安装教程,确保以官方指南为主 ...
云原生周刊：KubeSphere 3.4.1 发布 | 2023.11.13
开源项目推荐 Inspektor Gadget Inspektor Gadget 是一组用于调试和检查 Kubernetes 资源与应用程序的工具(或小工具).它在 Kubernetes 集群中管理 ...
重构案例：将纯HTML/JS项目迁移到Webpack
我们已经了解了许多关于 Webpack 的知识,但要完全熟练掌握它并非易事.一个很好的学习方法是通过实际项目练习.当我们对 Webpack 的配置有了足够的理解后,就可以尝试重构一些项目.本次我选择了 ...
rsa原理及其应用
rsa算法 0x01 原理 1.1 相关概念 RSA(Rivest-Shamir-Adleman)加密算法是一种基于数论的非实时加密算法,广泛用于安全通信.RSA算法的核心依赖于大整数分解的困难性 1 ...

高性能计算-gemm串行计算优化(3)

高性能计算-gemm串行计算优化(3)的更多相关文章

随机推荐

热门专题