英特尔数学核心函数库(Intel Math Kernel Library,MKL)是一套经过高度优化和广泛线程化的数学例程，专为需要极致性能的科学、工程及金融等领域的应用而设计。核心数学函数包括BLAS、LAPACK、ScaLAPACK1、稀疏矩阵解算器、快速傅立叶转换、矢量数学及其它函数。其可以为英特尔处理器提供性能优化，并且更出色地与 Microsoft Visual Studio相集成。Intel MKL是一套经过高度优化和线程化的函数库，并提供了C和Fortran接口。

使用矩阵乘法(cblas_cgemm)为例来对比不同环境与配置的性能差距。

#include <stdio.h>

#include <stdlib.h>

#include "mkl.h"		// 调用mkl头文件

#define min(x,y) (((x) < (y)) ? (x) : (y))

double* A, * B, * C;		//声明三个矩阵变量，并分配内存

int m, n, k, i, j;			//声明矩阵的维度，其中

double alpha, beta;

m = 2000, k = 200, n = 1000;

alpha = 1.0; beta = 0.0;

A = (double*)mkl_malloc(m * k * sizeof(double), 64);	//按照矩阵维度分配内存

B = (double*)mkl_malloc(k * n * sizeof(double), 64);	//mkl_malloc用法与malloc相似，64表示64位

C = (double*)mkl_malloc(m * n * sizeof(double), 64);

if (A == NULL || B == NULL || C == NULL) {		//判空

    mkl_free(A);

    mkl_free(B);

    mkl_free(C);

    return 1;

}

for (i = 0; i < (m * k); i++) {		//赋值

    A[i] = (double)(i + 1);

}

for (i = 0; i < (k * n); i++) {

    B[i] = (double)(-i - 1);

}

for (i = 0; i < (m * n); i++) {

    C[i] = 0.0;

}

先定义出待乘矩阵$A$和$B$，拟执行$C=A*B$。其中$C$矩阵为全0，$A$和$B$矩阵设置为：

\[\begin{array}{l}
A = \left[ {\begin{array}{*{20}{c}}
{1.0}&{2.0}& \cdots &{1000.0}\\
{1001.0}&{1002.0}& \cdots &{2000.0}\\
\vdots & \vdots & \ddots & \cdots \\
{999001.0}&{999002.0}& \cdots &{1000000.0}
\end{array}} \right] ~~~~~
B = \left[ {\begin{array}{*{20}{c}}
{-1.0}&{-2.0}& \cdots &{-1000.0}\\
{-1001.0}&{-1002.0}& \cdots &{-2000.0}\\
\vdots & \vdots & \ddots & \cdots \\
{-999001.0}&{-999002.0}& \cdots &{-1000000.0}
\end{array}} \right]
\end{array}
\]

1 对比普通CPU与MKL库性能差距

1.1 使用dgemm(Sequential 串行)

printf (" Making the first run of matrix product using Intel(R) MKL dgemm function \n"

        " via CBLAS interface to get stable run time measurements \n\n");

cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

            m, n, p, alpha, A, p, B, n, beta, C, n);

printf (" Measuring performance of matrix product using Intel(R) MKL dgemm function \n"

        " via CBLAS interface \n\n");

s_initial = dsecnd();

for (r = 0; r < LOOP_COUNT; r++) {

    cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                m, n, p, alpha, A, p, B, n, beta, C, n);

}

s_elapsed = (dsecnd() - s_initial) / LOOP_COUNT;

printf (" == Matrix multiplication using Intel(R) MKL dgemm completed == \n"

        " == at %.5f milliseconds == \n\n", (s_elapsed * 1000));

输出为：

1.2 使用嵌套循环(C)计算矩阵乘法

printf(" Measuring performance of matrix product using triple nested loop \n\n");

s_initial = dsecnd();

for (r = 0; r < LOOP_COUNT; r++) {

    for (i = 0; i < m; i++) {

        for (j = 0; j < n; j++) {

            sum = 0.0;

            for (k = 0; k < p; k++)

                sum += A[p * i + k] * B[n * k + j];

            C[n * i + j] = sum;

        }

    }

}

s_elapsed = (dsecnd() - s_initial) / LOOP_COUNT;

printf(" == Matrix multiplication using triple nested loop completed == \n"

       " == at %.5f milliseconds == \n\n", (s_elapsed * 1000));

输出为：

2 对比串、并行与多线程差距

2.1 并行模式(Parallel)

2.2 多线程并行

默认情况下，英特尔 MKL 使用 $n$个线程，其中 $n$ 是系统上的物理内核数。通过限制线程数量、观察 dgemm 的性能变化，以下示例展示了线程如何影响性能。

max_threads = mkl_get_max_threads();

printf (" Finding max number %d of threads Intel(R) MKL can use for parallel runs \n\n", max_threads);

printf (" Running Intel(R) MKL from 1 to %i threads \n\n", max_threads*2);

for (i = 1; i <= max_threads*2; i++) {

    for (j = 0; j < (m*n); j++)

        C[j] = 0.0;

    mkl_set_num_threads(i);

    cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                m, n, p, alpha, A, p, B, n, beta, C, n);

    s_initial = dsecnd();

    for (r = 0; r < LOOP_COUNT; r++) {

        cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                    m, n, p, alpha, A, p, B, n, beta, C, n);

    }

    s_elapsed = (dsecnd() - s_initial) / LOOP_COUNT;

    printf (" == Matrix multiplication using Intel(R) MKL dgemm completed ==\n"

            " == at %.5f milliseconds using %d thread(s) ==\n\n", (s_elapsed * 1000), i);

}

输出为：

完整代码

(I) dgemm_with_timing.c

#include <stdio.h>

#include <stdlib.h>

#include "mkl.h"

#define LOOP_COUNT 10

int main()

{

    double *A, *B, *C;

    int m, n, p, i, r;

    double alpha, beta;

    double s_initial, s_elapsed;

    printf ("\n This example measures performance of Intel(R) MKL function dgemm \n"

            " computing real matrix C=alpha*A*B+beta*C, where A, B, and C \n"

            " are matrices and alpha and beta are double precision scalars\n\n");

    m = 2000, p = 200, n = 1000;

    printf (" Initializing data for matrix multiplication C=A*B for matrix \n"

            " A(%ix%i) and matrix B(%ix%i)\n\n", m, p, p, n);

    alpha = 1.0; beta = 0.0;

    printf (" Allocating memory for matrices aligned on 64-byte boundary for better \n"

            " performance \n\n");

    A = (double *)mkl_malloc( m*p*sizeof( double ), 64 );

    B = (double *)mkl_malloc( p*n*sizeof( double ), 64 );

    C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );

    if (A == NULL || B == NULL || C == NULL) {

        printf( "\n ERROR: Can't allocate memory for matrices. Aborting... \n\n");

        mkl_free(A);

        mkl_free(B);

        mkl_free(C);

        return 1;

    }

    printf (" Intializing matrix data \n\n");

    for (i = 0; i < (m*p); i++) {

        A[i] = (double)(i+1);

    }

    for (i = 0; i < (p*n); i++) {

        B[i] = (double)(-i-1);

    }

    for (i = 0; i < (m*n); i++) {

        C[i] = 0.0;

    }

    printf (" Making the first run of matrix product using Intel(R) MKL dgemm function \n"

            " via CBLAS interface to get stable run time measurements \n\n");

    cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                m, n, p, alpha, A, p, B, n, beta, C, n);

    printf (" Measuring performance of matrix product using Intel(R) MKL dgemm function \n"

            " via CBLAS interface \n\n");

    s_initial = dsecnd();

    for (r = 0; r < LOOP_COUNT; r++) {

        cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                    m, n, p, alpha, A, p, B, n, beta, C, n);

    }

    s_elapsed = (dsecnd() - s_initial) / LOOP_COUNT;

    printf (" == Matrix multiplication using Intel(R) MKL dgemm completed == \n"

            " == at %.5f milliseconds == \n\n", (s_elapsed * 1000));

    printf (" Deallocating memory \n\n");

    mkl_free(A);

    mkl_free(B);

    mkl_free(C);

    printf (" Example completed. \n\n");

    return 0;

}

(II) matrix_multiplication.c

#include <stdio.h>

#include <stdlib.h>

#include "mkl.h"

#define min(x,y) (((x) < (y)) ? (x) : (y))

#define LOOP_COUNT 10

int main()

{

    double* A, * B, * C;

    int m, n, p, i, j, k, r;

    double alpha, beta;

    double sum;

    double s_initial, s_elapsed;

    printf("\n This example measures performance of rcomputing the real matrix product \n"

        " C=alpha*A*B+beta*C using a triple nested loop, where A, B, and C are \n"

        " matrices and alpha and beta are double precision scalars \n\n");

    m = 2000, p = 200, n = 1000;

    printf(" Initializing data for matrix multiplication C=A*B for matrix \n"

        " A(%ix%i) and matrix B(%ix%i)\n\n", m, p, p, n);

    alpha = 1.0; beta = 0.0;

    printf(" Allocating memory for matrices aligned on 64-byte boundary for better \n"

        " performance \n\n");

    A = (double*)mkl_malloc(m * p * sizeof(double), 64);

    B = (double*)mkl_malloc(p * n * sizeof(double), 64);

    C = (double*)mkl_malloc(m * n * sizeof(double), 64);

    if (A == NULL || B == NULL || C == NULL) {

        printf("\n ERROR: Can't allocate memory for matrices. Aborting... \n\n");

        mkl_free(A);

        mkl_free(B);

        mkl_free(C);

        return 1;

    }

    printf(" Intializing matrix data \n\n");

    for (i = 0; i < (m * p); i++) {

        A[i] = (double)(i + 1);

    }

    for (i = 0; i < (p * n); i++) {

        B[i] = (double)(-i - 1);

    }

    for (i = 0; i < (m * n); i++) {

        C[i] = 0.0;

    }

    printf(" Making the first run of matrix product using triple nested loop\n"

        " to get stable run time measurements \n\n");

    for (i = 0; i < m; i++) {

        for (j = 0; j < n; j++) {

            sum = 0.0;

            for (k = 0; k < p; k++)

                sum += A[p * i + k] * B[n * k + j];

            C[n * i + j] = sum;

        }

    }

    printf(" Measuring performance of matrix product using triple nested loop \n\n");

    s_initial = dsecnd();

    for (r = 0; r < LOOP_COUNT; r++) {

        for (i = 0; i < m; i++) {

            for (j = 0; j < n; j++) {

                sum = 0.0;

                for (k = 0; k < p; k++)

                    sum += A[p * i + k] * B[n * k + j];

                C[n * i + j] = sum;

            }

        }

    }

    s_elapsed = (dsecnd() - s_initial) / LOOP_COUNT;

    printf(" == Matrix multiplication using triple nested loop completed == \n"

        " == at %.5f milliseconds == \n\n", (s_elapsed * 1000));

    printf(" Deallocating memory \n\n");

    mkl_free(A);

    mkl_free(B);

    mkl_free(C);

    printf(" Example completed. \n\n");

    return 0;

}

(III) dgemm_threading_effect_example.c

#include <stdio.h>

#include <stdlib.h>

#include "mkl.h"

#define LOOP_COUNT 10  

int main()

{

    double *A, *B, *C;

    int m, n, p, i, j, r, max_threads;

    double alpha, beta;

    double s_initial, s_elapsed;

    printf ("\n This example demonstrates threading impact on computing real matrix product \n"

            " C=alpha*A*B+beta*C using Intel(R) MKL function dgemm, where A, B, and C are \n"

            " matrices and alpha and beta are double precision scalars \n\n");

    m = 2000, p = 200, n = 1000;

    printf (" Initializing data for matrix multiplication C=A*B for matrix \n"

            " A(%ix%i) and matrix B(%ix%i)\n\n", m, p, p, n);

    alpha = 1.0; beta = 0.0;

    printf (" Allocating memory for matrices aligned on 64-byte boundary for better \n"

            " performance \n\n");

    A = (double *)mkl_malloc( m*p*sizeof( double ), 64 );

    B = (double *)mkl_malloc( p*n*sizeof( double ), 64 );

    C = (double *)mkl_malloc( m*n*sizeof( double ), 64 );

    if (A == NULL || B == NULL || C == NULL) {

        printf( "\n ERROR: Can't allocate memory for matrices. Aborting... \n\n");

        mkl_free(A);

        mkl_free(B);

        mkl_free(C);

        return 1;

    }

    printf (" Intializing matrix data \n\n");

    for (i = 0; i < (m*p); i++) {

        A[i] = (double)(i+1);

    }

    for (i = 0; i < (p*n); i++) {

        B[i] = (double)(-i-1);

    }

    for (i = 0; i < (m*n); i++) {

        C[i] = 0.0;

    }

    max_threads = mkl_get_max_threads();

    printf (" Finding max number %d of threads Intel(R) MKL can use for parallel runs \n\n", max_threads);

    printf (" Running Intel(R) MKL from 1 to %i threads \n\n", max_threads*2);

    for (i = 1; i <= max_threads*2; i++) {

        for (j = 0; j < (m*n); j++)

            C[j] = 0.0;

        mkl_set_num_threads(i);

        cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                    m, n, p, alpha, A, p, B, n, beta, C, n);

        s_initial = dsecnd();

        for (r = 0; r < LOOP_COUNT; r++) {

            cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans,

                        m, n, p, alpha, A, p, B, n, beta, C, n);

        }

        s_elapsed = (dsecnd() - s_initial) / LOOP_COUNT;

        printf (" == Matrix multiplication using Intel(R) MKL dgemm completed ==\n"

                " == at %.5f milliseconds using %d thread(s) ==\n\n", (s_elapsed * 1000), i);

    }

    printf (" Deallocating memory \n\n");

    mkl_free(A);

    mkl_free(B);

    mkl_free(C);

    printf (" Example completed. \n\n");

    return 0;

}

MKL库性能对比的更多相关文章

音频处理库性能对比：计算mel频谱的速度哪个更快？
介绍音频信号处理在各种应用中都发挥着重要的作用,如语音识别.音乐信息检索.语音合成等.其中,Mel频谱是一种常用的频域特征表示方法,用于描述人类听觉系统对频率的敏感程度. 在深度学习音频领域,mel ...
Java常用Json库性能对比
Java对于处理JSON数据的序列化与反序列化目前常用的类库有Gson.FastJSON.Jackson.jettison以及json-lib.在这里我们将对这些类库在json序列化与反序列化方面的性 ...
C正则库做DNS域名验证时的性能对比
C正则库做DNS域名验证时的性能对比本文对C的正则库regex和pcre在做域名验证的场景下做评测. 验证DNS域名的正则表达式为: "^[0-9a-zA-Z_-]+(\\.[0-9a ...
java中常见的json解析方法、库以及性能对比
常见的json解析有原生的JSONObject和JSONArray方法,谷歌的GSON库,阿里的fastjson,还有jackson,json-lib. Gson(项目地址:https://githu ...
ArrayList和LinkedList的几种循环遍历方式及性能对比分析
最新最准确内容建议直接访问原文:ArrayList和LinkedList的几种循环遍历方式及性能对比分析主要介绍ArrayList和LinkedList这两种list的五种循环遍历方式,各种方式的性 ...
lua、groovy嵌入到java中的性能对比（转）
lua和groovy都是可以嵌入到java中的脚本语言.lua以高性能著称,与C/C++在游戏开放中有较多使用,groovy是一个基于Java虚拟机(JVM)的敏捷动态语言,在jvm下有着不错的性能. ...
[转]Numpy使用MKL库提升计算性能
from:http://unifius.wordpress.com.cn/archives/5 系统:Gentoo Linux (64bit, Kernel 3.7.1)配置:Intel(R) Cor ...
Java几种常用JSON库性能比较
本篇通过JMH来测试一下Java中几种常见的JSON解析库的性能. 每次都在网上看到别人说什么某某库性能是如何如何的好,碾压其他的库.但是百闻不如一见,只有自己亲手测试过的才是最值得相信的. JSON ...
Struts2、SpringMVC、Servlet(Jsp)性能对比测试
Struts2.SpringMVC.Servlet(Jsp)性能对比测试 . Servlet的性能应该是最好的,可以做为参考基准,其它测试都要向它看齐,参照它. 做为一个程序员,对于各个框架的性能要 ...
Python 读取图像文件的性能对比
Python 读取图像文件的性能对比使用 Python 读取一个保存在本地硬盘上的视频文件,视频文件的编码方式是使用的原始的 RGBA 格式写入的,即无压缩的原始视频文件.最开始直接使用 Pytho ...

随机推荐

【Ubuntu】在Ubuntu上安装微信
[Ubuntu]在Ubuntu上安装微信零.说明微信官网最近发布了Linux的测试版本,实际使用下来与Windows版本相差不多,本文介绍如何在Ubuntu(Debian系)上安装Linux版本的 ...
关于TFDMemtable的使用场景【2】处理SOAP/REST取得的数据
如果可以直接获得JSON数据,那么可以直接连到TFDMemtable进行显示和编辑. 1.一组REST组件.RESTClient的属性BaseURL是http地址. 2.点击TRESTRequest右 ...
第五届新型功能材料国际会议（ICNFM 2025）
第五届新型功能材料国际会议(ICNFM 2025) 2025年5月16日-17日曼谷,泰国 http://www.icnfm.net/ 会议简介第五届新型功能材料国际会议(ICNFM 2025)将 ...
STM32 DMA中的DMA_BufferSize和DMA_MemoryDataSize
示例代码1 采集2通道ADC数据查看代码 extern uint16_t ADC3ConvertedValue[2]; /* DMA2 Stream0 channel2 配置 *********** ...
Python科学计算系列4—函数和数列极限
1.数列极限例1:求下列数列的极限代码如下: from sympy import * n, k = symbols('n k') f1 = limit(n / (factorial(n) ** ( ...
rabbitmq学习与总结
一.rabbitmq的使用场景 1.高并发的流量削峰举个例子,假设某订单系统每秒最多能处理一万次订单,也就是最多承受的10000qps,这个处理能力应付正常时段的下单时绰绰有余,正常时段我们下单一秒 ...
🎀Docker下Dubbo服务优雅上下线实现
简介在Docker容器环境中部署基于Dubbo的服务时,实现服务的优雅上下线是至关重要的.这通常涉及到两个关键步骤:首先,确保服务能够从注册中心摘除,停止接受新的请求:其次,等待所有正在处理的请求完 ...
VMware平台的Ubuntu部署完全分布式Hadoop环境
前言: 此文章是本人初次部署Hadoop的过程记录以及所遇到的问题解决,这篇文章只有实际操作部分,没有理论部分.因本人水平有限,本文难免存在不足的地方,如果您有建议,欢迎留言或私信告知于我,非常感谢. ...
get time等时间指令的用法
如图,活动时间是选择的方式选取,虽然可以通过定位年月日时来实现选择,这务必带来很多脚本内容.这里用另外的方法实现 1.使用"get time"指令获得当前系统时间 ${1} = 2 ...
即时通信SSE和WebSocket对比
Server-Sent Events (SSE) 和 WebSocket 都是用于实现服务器与客户端实时通信的技术,但它们在设计目标.协议特性和适用场景上有显著区别.以下是两者的详细对比: 一.核心区 ...

MKL库性能对比

1 对比普通CPU与MKL库性能差距

1.1 使用dgemm(Sequential 串行)

1.2 使用嵌套循环(C)计算矩阵乘法

2 对比串、并行与多线程差距

2.1 并行模式(Parallel)

2.2 多线程并行

完整代码

(I) dgemm_with_timing.c

(II) matrix_multiplication.c

(III) dgemm_threading_effect_example.c

MKL库性能对比的更多相关文章

随机推荐

热门专题