cublas fp16

编译选项： nvcc 4.cpp -o test_gemm -lcudart -lcuda -lcublas -std=c++11

#include <sys/time.h>

#include <cuda_profiler_api.h>

#include <cublas_v2.h>

#include <cuda.h>

#include <cuda_fp16.h>

#include <cuda_runtime.h>

#include <stdio.h>

int8_t float2int8(float f, float scale) {

    int8_t i = int8_t(f * scale);

    if (i < -127) i = -127;

    if (i > 127) i = 127;

    return i;

}

template <typename T, typename S>

void allocate_memory(int m, int n, int k, T **A, T **B, S **C) {

    cudaMallocManaged(A, m * k * sizeof(T));

    cudaMallocManaged(B, k * n * sizeof(T));

    cudaMallocManaged(C, m * n * sizeof(S));

}

template <typename T, typename S>

void free_memory(T *A, T *B, S *C) {

    cudaFree(A);

    cudaFree(B);

    cudaFree(C);

}

template <typename T, typename S>

int cublas_gemm_ex(cublasHandle_t handle, cublasOperation_t transA, cublasOperation_t transB,

                   int m, int n, int k, T *A, T *B, S *C, int lda, int ldb, int ldc,

                   S *alpha, S *beta, int algo) {

    cudaDataType_t AType, BType, CType, ComputeType;

    if (std::is_same<T, float>::value) {

        AType = BType = CType = ComputeType = CUDA_R_32F;

    } else if (std::is_same<T, __half>::value) {

        AType = BType = CType = ComputeType = CUDA_R_16F;

    } else if (std::is_same<T, int8_t>::value) {

        AType = BType = CUDA_R_8I;

        CType = ComputeType = CUDA_R_32I;

    } else {

        printf("Not supported data type.");

        return -1;

    }

    cublasStatus_t status;

    status = cublasGemmEx(handle,

                          transA,

                          transB,

                          m,

                          n,

                          k,

                          alpha,

                          A,

                          AType,

                          lda,

                          B,

                          BType,

                          ldb,

                          beta,

                          C,

                          CType,

                          ldc,

                          ComputeType,

                          static_cast<cublasGemmAlgo_t>(algo));

    if (status == CUBLAS_STATUS_SUCCESS)

        return 1;

    else

        return -1;

}

template <typename T, typename S>

void test_gemm(cublasHandle_t handle, int m, int n, int k, T *A, T *B, S *C,

               S *alpha, S *beta, int algo, int iteration) {

    float total_time = 0;

    for (int i = 0; i < iteration; ++i) {

        struct timeval start, end;

        cudaDeviceSynchronize();

        cudaProfilerStart();

        gettimeofday(&start, NULL);

        int success = cublas_gemm_ex(handle,

                                     CUBLAS_OP_N,

                                     CUBLAS_OP_N,

                                     n,

                                     m,

                                     k,

                                     B,

                                     A,

                                     C,

                                     n,

                                     k,

                                     n,

                                     alpha,

                                     beta,

                                     static_cast<cublasGemmAlgo_t>(algo));

        cudaDeviceSynchronize();

        gettimeofday(&end, NULL);

        cudaProfilerStop();

        if (success > 0 && i > 0)

            total_time += (end.tv_sec - start.tv_sec) * 1000 + (end.tv_usec - start.tv_usec) * 0.001;

    }

    if (total_time > 0)

        printf("algo %d: %.3f ms\n", algo, total_time / (iteration - 1));

}

int main() {

    int m = 4096, n = 8192, k = 1024;

    printf("shape: (%d, %d) x (%d, %d)\n", m, k, k, n);

    int start_algo = CUBLAS_GEMM_DEFAULT;

    int end_algo = CUBLAS_GEMM_ALGO23;

    int start_algo_t_op = CUBLAS_GEMM_DEFAULT_TENSOR_OP;

    int end_algo_t_op = CUBLAS_GEMM_ALGO15_TENSOR_OP;

    int iteration = 10;

    float *fA, *fB, *fC;

    __half *hA, *hB, *hC;

    int8_t *iA, *iB; int32_t *iC;

    float f_alpha = 1, f_beta = 0;

    __half h_alpha = __float2half_rn(1.0), h_beta = __float2half_rn(0.0);

    int32_t i_alpha = 1, i_beta = 0;

    allocate_memory(m, n, k, &fA, &fB, &fC);

    allocate_memory(m, n, k, &hA, &hB, &hC);

    allocate_memory(m, n, k, &iA, &iB, &iC);

    for (int i = 0; i < m * k; ++i) {

        fA[i] = float(i % 255 - 127) / 127;

        hA[i] = __float2half_rn(fA[i]);

        iA[i] = float2int8(fA[i], 127);

    }

    for (int i = 0; i < k * n; ++i) {

        fB[i] = float(i % 255 - 127) / 127;

        hB[i] = __float2half_rn(fB[i]);

        iB[i] = float2int8(fB[i], 127);

    }

    cublasHandle_t handle;

    cublasCreate(&handle);

    printf(">>>>>>>>>>>>>>>>> test fp32 >>>>>>>>>>>>>>>>>\n");

    for (int algo = start_algo; algo <= end_algo; ++algo)

        test_gemm(handle, m, n, k, fA, fB, fC, &f_alpha, &f_beta, algo, iteration);

    for (int algo = start_algo_t_op; algo <= end_algo_t_op; ++algo)

        test_gemm(handle, m, n, k, fA, fB, fC, &f_alpha, &f_beta, algo, iteration);

    printf(">>>>>>>>>>>>>>>>> test fp16 >>>>>>>>>>>>>>>>>\n");

    for (int algo = start_algo; algo <= end_algo; ++algo)

        test_gemm(handle, m, n, k, hA, hB, hC, &h_alpha, &h_beta, algo, iteration);

    for (int algo = start_algo_t_op; algo <= end_algo_t_op; ++algo)

        test_gemm(handle, m, n, k, hA, hB, hC, &h_alpha, &h_beta, algo, iteration);

    printf(">>>>>>>>>>>>>>>>> test int8 >>>>>>>>>>>>>>>>>\n");

    for (int algo = start_algo; algo <= end_algo; ++algo)

        test_gemm(handle, m, n, k, iA, iB, iC, &i_alpha, &i_beta, algo, iteration);

    for (int algo = start_algo_t_op; algo <= end_algo_t_op; ++algo)

        test_gemm(handle, m, n, k, iA, iB, iC, &i_alpha, &i_beta, algo, iteration);

    printf(">>>>>>>>>>>>>>>>> compare result >>>>>>>>>>>>>>>>>\n");

    printf("fp32: ");

    for (int i = 0; i < 10; ++i)

        printf("%.5f%c", fC[i], " \n"[i==9]);

    printf("fp16: ");

    for (int i = 0; i < 10; ++i)

        printf("%.5f%c", float(hC[i]), " \n"[i==9]);

    printf("int8: ");

    for (int i = 0; i < 10; ++i)

        printf("%.5f%c", float(iC[i])/127/127, " \n"[i==9]);

    free_memory(iA, iB, iC);

    free_memory(fA, fB, fC);

    free_memory(hA, hB, hC);

    return 0;

}

cublas fp16的更多相关文章

在NVIDIA（CUDA，CUBLAS）和Intel MKL上快速实现BERT推理
在NVIDIA(CUDA,CUBLAS)和Intel MKL上快速实现BERT推理直接在NVIDIA(CUDA,CUBLAS)或Intel MKL上进行高度定制和优化的BERT推理,而无需tenso ...
cublas相关的知识
下面链接给出了一个例子,怎么用cublas进行矩阵的运算提速,也说明了cublas的大致的使用方法. http://www.cnblogs.com/scut-fm/p/3756242.html cub ...
使用 CUBLAS 库给矩阵运算提速
前言编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时.那么有没有一些现成的 CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库. 本文将 ...
有关CUBLAS中的矩阵乘法函数
关于cuBLAS库中矩阵乘法相关的函数及其输入输出进行详细讨论. ▶ 涨姿势: ● cuBLAS中能用于运算矩阵乘法的函数有4个,分别是 cublasSgemm(单精度实数).cublasDgemm( ...
Cublas矩阵加速运算
前言编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时.那么有没有一些现成的 CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库. 本文将 ...
CUDA报错： Cannot create Cublas handle. Cublas won't be available. 以及：Check failed: status == CUBLAS_STATUS_SUCCESS (1 vs. 0) CUBLAS_STATUS_NOT_INITIALIZED
Error描述: aita@aita-Alienware-Area-51-R5:~/AITA2/daisida/ssd-github/caffe$ make runtest -j8 .build_re ...
第四篇：使用 CUBLAS 库给矩阵运算提速
前言编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时.那么有没有一些现成的 CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库. 本文将 ...
CUBLAS基础实验
一.概述最近在试图进行cuda并行编程,目标是编写一段矩阵计算代码,将计算结果存储进入GPU的缓冲区当中,并在达到某些要求后强制刷新缓冲区,取得计算结果. 但是考虑时间紧任务重的状况和实际的性能要求 ...
基于深度学习的人脸识别系统系列（Caffe+OpenCV+Dlib）——【四】使用CUBLAS加速计算人脸向量的余弦距离
前言基于深度学习的人脸识别系统,一共用到了5个开源库:OpenCV(计算机视觉库).Caffe(深度学习库).Dlib(机器学习库).libfacedetection(人脸检测库).cudnn(gp ...
使用TensorRT对caffe和pytorch onnx版本的mnist模型进行fp32和fp16 推理 | tensorrt fp32 fp16 tutorial with caffe pytorch minist model
本文首发于个人博客https://kezunlin.me/post/bcdfb73c/,欢迎阅读最新内容! tensorrt fp32 fp16 tutorial with caffe pytorch ...

随机推荐

sql语句顺序/包含执行顺序和书写顺序
分页查询如果一页记录为10条,希望查看第3页记录应该怎么查呢?  第一页记录起始行为0,一共查询10行:  第二页记录起始行为10,一共查询10行:  第三页记录起始行为20,一共查询10行: ...
看了这本基础教程的书籍你还担心你的python学不好吗？
python基础教程(第二版)PDF高清版免费下载地址: 提取码:chcj 值得花时间阅读的一本书内容简介 · · · · · · 本书是经典教程的全新改版,作者根据Python 3.0版本的种种 ...
nginx 更改配置client_max_body_size nginx.conf 修改默认限制上传附件大小
Nginx 上传大文件超时解决办法情况如下:用nginx作代理服务器,上传大文件时(测试上传50m的文件),提示上传超时或文件过大. 原因是nginx对上传文件大小有限制,而且默认是1M.另外,若上 ...
Java实现简单个人所得税计算器相关操作代码
/** * 个税计算器 * 1.通过键盘输入用户的月薪 * 2.百度搜素个税计算方法,计算出应缴纳的税款 * 3.直到键盘输入88,则退出程序(使用break语句退出循环) * 应纳税所得额=工资收入 ...
【Excel】IF条件函数公式怎么用？
版本 Excel 2019 步骤点击插入函数打开文档,点击公式菜单下的插入函数. 双击选择IF函数在函数列表双击选择IF函数. 输入条件测试值在第一个输入框输入条件测试值. 设置输出结果值
hadoop服务异常，磁盘坏道critical medium error,dev sdh,sector xxxx
运行spark之后,部分任务失败,排查查看操作系统日志(/var/log/message),发现磁盘坏道,导致服务异常.异常主要错误"critical medium error,dev sd ...
再识redis-2
Redis初识特点关键字: 高性能Key-Value服务器 ops能达到十万级别每秒能执行约11万集合每秒约81000-条记录主要数据结构列表集合有序集合散列(别名哈希 Redis的哈 ...
Python与CSharp之间内存共享互传信息
C#写入字符串到共享内存 try { long t = 1 << 10 << 10; var mmf = MemoryMappedFile.CreateOrOpen(" ...
「DIARY」NOI2021 小结
这篇就主要说一下个人感悟吧,虽然不是金牌选手,但还是希望多多少少能对后来者提供些帮助 1. 预备省选到 NOI 的准备,就当讲讲故事. 省选考下来好像不是很行,本来退役记都写了一半了,结果发现省队最 ...
jdk 1.8 处理 map和list
1.map 的 key 和 value 反转 2. list<Object> 取两列转成 map<String,String> map 3. list<Object&g ...

cublas fp16

cublas fp16的更多相关文章

随机推荐

热门专题