ICL Auto Vectorization
简介
此文简单介绍如何使用intel c++编译器实现向量化加速。
全文如下安排:
- base : 待优化的源代码。
- vectorization : 第一个向量化版本。
- aligned : 内存对其对向量化的影响。
base
base版本代码:
// filename : main.cpp
#include <iostream>
#include <iomanip>
#include <stdlib.h>
#include <cstdint>
#include <malloc.h>
#include <windows.h>
using namespace std;
int64_t cpu_freq;
int64_t cpu_counter(){
int64_t clock;
QueryPerformanceCounter((LARGE_INTEGER*)&clock);
return clock;
}
// output time
#if 1
int64_t gloabel_timer_begin;
int64_t gloabel_timer_end;
#define TB__ gloabel_timer_begin=cpu_counter()
#define TE__ gloabel_timer_end =cpu_counter(); \
cout << __LINE__ << " : " << double(gloabel_timer_end-gloabel_timer_begin)/double(cpu_freq) << " seconds" << endl
#else
#define TB__
#define TE__
#endif
// repeat times
#define REPEATTIMES 100000
// initialize data
void init(float *data, int rows, int cols, int true_cols){
for (int i = 0; i < rows; i++){
for (int j = 0; j < cols; j++){
data[i*true_cols+j] = float(rand())/float(RAND_MAX);
}
}
}
void multiply(float *C, float *A, float *B, int rows, int cols, int true_cols);
void print_sum(float *data, int rows, int cols, int true_cols){
float total = 0;
for (int i = 0; i < rows; i++){
for (int j = 0; j < cols; j++){
total += data[i*true_cols+j];
}
}
cout << total << endl;
}
int main(){
QueryPerformanceFrequency((LARGE_INTEGER *)&cpu_freq);
int rows = 100;
int cols = 101;
int true_cols = cols;
float *A = (float*)malloc(rows*true_cols*sizeof(float));
float *B = (float*)malloc(rows*sizeof(float));
float *C = (float*)malloc(rows*sizeof(float));
init(A, rows, cols, true_cols);
init(B, rows, 1, 1);
// computing
TB__;
for (int k = 0; k < REPEATTIMES; k++){
multiply(C, A, B, rows, cols, true_cols);
}
TE__;
// print result.
print_sum(C, rows, 1, 1);
free(A); A = NULL;
free(B); B = NULL;
free(C); C = NULL;
return 0;
}
// filename : multiply.cpp
void multiply(float *C, float *A, float *B, int rows, int cols, int true_cols){
for (int i = 0; i < rows; i++){
C[i] = 0;
for (int j = 0; j < cols; j++){
C[i] += A[i*true_cols+j]*B[j];
}
}
}
编译:
user@machine> icl /O1 /Qopt-report:1 /Qopt-report-phase:vec main.cpp multiply.cpp
执行:
user@machine> main.exe
73 : 0.877882 seconds
2483.53
vectorization
源代码保持不变
编译:
user@machine> icl /O2 /Qopt-report:1 /Qopt-report-phase:vec main.cpp multiply.cpp
执行:
user@machine> main.exe
73 : 0.205989 seconds
2483.53
执行速度提升了 4倍左右。
aligned
源代码修改。(注意:下面的代码有问题,结果可能有错误,原因可能是内存的问题。)
// filename : main.cpp
#include <iostream>
#include <iomanip>
#include <stdlib.h>
#include <cstdint>
#include <malloc.h>
#include <windows.h>
using namespace std;
int64_t cpu_freq;
int64_t cpu_counter(){
int64_t clock;
QueryPerformanceCounter((LARGE_INTEGER*)&clock);
return clock;
}
// output time
#if 1
int64_t gloabel_timer_begin;
int64_t gloabel_timer_end;
#define TB__ gloabel_timer_begin=cpu_counter()
#define TE__ gloabel_timer_end =cpu_counter(); \
cout << __LINE__ << " : " << double(gloabel_timer_end-gloabel_timer_begin)/double(cpu_freq) << " seconds" << endl
#else
#define TB__
#define TE__
#endif
// repeat times
#define REPEATTIMES 100000
// initialize data
void init(float *data, int rows, int cols, int true_cols){
for (int i = 0; i < rows; i++){
for (int j = 0; j < cols; j++){
data[i*true_cols+j] = float(rand())/float(RAND_MAX);
}
}
}
void multiply(float *C, float *A, float *B, int rows, int cols, int true_cols);
void print_sum(float *data, int rows, int cols, int true_cols){
float total = 0;
for (int i = 0; i < rows; i++){
for (int j = 0; j < cols; j++){
total += data[i*true_cols+j];
}
}
cout << total << endl;
}
int main(){
QueryPerformanceFrequency((LARGE_INTEGER *)&cpu_freq);
int rows = 100;
int cols = 101;
#ifdef ALIGNED
#define ALLIGNED_LEN 32
int true_cols = ((((cols*sizeof(float))+ALLIGNED_LEN-1)/ALLIGNED_LEN)*ALLIGNED_LEN)/sizeof(float);
//cout << true_cols << endl;
float *A = (float*)_aligned_malloc(rows*true_cols*sizeof(float), ALLIGNED_LEN);
float *B = (float*)_aligned_malloc(rows*sizeof(float), ALLIGNED_LEN);
float *C = (float*)_aligned_malloc(rows*sizeof(float), ALLIGNED_LEN);
#else
int true_cols = cols;
float *A = (float*)malloc(rows*true_cols*sizeof(float));
float *B = (float*)malloc(rows*sizeof(float));
float *C = (float*)malloc(rows*sizeof(float));
#endif
init(A, rows, cols, true_cols);
init(B, rows, 1, 1);
// computing
TB__;
for (int k = 0; k < REPEATTIMES; k++){
multiply(C, A, B, rows, cols, true_cols);
}
TE__;
// print result.
print_sum(C, rows, 1, 1);
#ifdef ALIGNED
_aligned_free(A); A = NULL;
_aligned_free(B); B = NULL;
_aligned_free(C); C = NULL;
#else
free(A); A = NULL;
free(B); B = NULL;
free(C); C = NULL;
#endif
return 0;
}
// filename : multiply.cpp
void multiply(float *C, float *A, float *B, int rows, int cols, int true_cols){
for (int i = 0; i < rows; i++){
C[i] = 0;
#ifdef ALIGNED
#pragma vector aligned
#endif
for (int j = 0; j < cols; j++){
C[i] += A[i*true_cols+j]*B[j];
}
}
}
编译:
user@machine> icl /DALIGNED /O2 /Qopt-report:1 /Qopt-report-phase:vec main.cpp multiply.cpp
执行:
82 : 0.17747 seconds
2483.53
相对第一个优化的版本又提升了一点速度。
结论
vectorization版本:不需要改变源代码,通过修改编译器选项直接实现向量化。
aligned版本:需要修改代码,使得内存对其。可以进一步获得性能。
ICL Auto Vectorization的更多相关文章
- 使用Auto TensorCore CodeGen优化Matmul
使用Auto TensorCore CodeGen优化Matmul 本文将演示如何使用TVM Auto TensorCore CodeGen在Volta / Turing GPU上编写高性能matmu ...
- C++11特性——变量部分(using类型别名、constexpr常量表达式、auto类型推断、nullptr空指针等)
#include <iostream> using namespace std; int main() { using cullptr = const unsigned long long ...
- overflow:hidden与margin:0 auto之间的冲突
相对于父容器水平居中的代码margin:0 auto与overflow:hidden之间存在冲突.当这两个属性同时应用在一个DIV上时,在chrome浏览器中将无法居中.至于为啥我也不明白.
- Android Auto开发之一《开始学习Auto 》
共同学习,共同进步, 转载请注明出处.欢迎微信交流:sfssqs,申请注明"Android Car"字样 ================= =================== ...
- width:100%;与width:auto;的区别
<div> <p>1111</p> </div> div{ width:980px; background-color: #ccc; height:30 ...
- SQl 2005 For XMl 简单查询(Raw,Auto,Path模式)(1)
很多人对Xpath可能比较熟悉,但不知道有没有直接操作过数据库,我们都知道 在Sql2005里公支持的几种查询有Raw,Auto模式,页并没有Path和Elements用法等,如果在2000里使用过 ...
- margin:0 auto;不居中
margin:0 auto:不居中可能有以下两个的原因; 1.没有设置宽度<div style="margin:0 auto;"></div>看看上面的代码 ...
- 初学C++ 之 auto关键字(IDE:VS2013)
/*使用auto关键字,需要先赋初值,auto关键字是会根据初值来判断类型*/ auto i = ; auto j = ; cout << "auto i = 5" & ...
- C++11 - 类型推导auto关键字
在C++11中,auto关键字被作为类型自动类型推导关键字 (1)基本用法 C++98:类型 变量名 = 初值; int i = 10; C++11:auto 变量名 = 初值; auto i ...
随机推荐
- Java学习图形界面+网络编程案例---------网络简易通讯
主要思想: 主类继承JPanel,在构造方法中将JFrame设成空布局:在其中适当位置添加组件:实现事件监听处理 DATE:2015-10-31 服务器端代码: /** * @author Oyc * ...
- ios开发-指纹识别
最近我们使用支付宝怎么软件的时候,发现可以使用指纹了,看起来是否的高大上.当时苹果推出了相关接口,让程序写起来很简单哈. 在iPhone5s的时候,苹果推出了指纹解锁.但是在ios8.0的时候苹果才推 ...
- 实验吧_NSCTF web200&FALSE(代码审计)
挺简单的一个代码审计,这里只要倒序解密就行了,这里给一下python版的wp import codecs import base64 strs = 'a1zLbgQsCESEIqRLwuQAyMwLy ...
- [AtCoder arc090E]Avoiding Collision
Description 题库链接 给出一张 \(N\) 个节点, \(M\) 条边的无向图,给出起点 \(S\) 和终点 \(T\) .询问两个人分别从 \(S\) 和 \(T\) 出发,走最短路不相 ...
- [SDOI2009]虔诚的墓主人
题目描述 小W是一片新造公墓的管理人.公墓可以看成一块N×M的矩形,矩形的每个格点,要么种着一棵常青树,要么是一块还没有归属的墓地. 当地的居民都是非常虔诚的基督徒,他们愿意提前为自己找一块合适墓地. ...
- 【NOIP2013TG】solution
链接:https://www.luogu.org/problem/lists?name=&orderitem=pid&tag=83%2C30 D1T1:转圈游戏(circle) 题意: ...
- bzoj 4518: [Sdoi2016]征途
Description Pine开始了从S地到T地的征途. 从S地到T地的路可以划分成n段,相邻两段路的分界点设有休息站. Pine计划用m天到达T地.除第m天外,每一天晚上Pine都必须在休息站过夜 ...
- ●BZOJ 2251 [2010Beijing Wc]外星联络
题链: http://www.lydsy.com/JudgeOnline/problem.php?id=2251 题解: 后缀数组,倍增,RMQ 题意:把重复次数超过 1次的子串按字典序输出它们重复的 ...
- hdu 5437Alisha’s Party(优先队列)
题意:邀请k个朋友,每个朋友带有礼物价值不一,m次开门,每次开门让一定人数p(如果门外人数少于p,全都进去)进来,当所有人到时会再开一次,每次都是礼物价值高的人先进. /*小伙伴最开始gg了,结果发现 ...
- [Codeforces]849E Goodbye Souvenir
又是一道比较新的模板题吧,即使是在Codeforces上小C还是贴了出来. Description 给定一个长度为n的序列a1~an,每个元素代表一种颜色.m次操作,每次操作为两种中的一种: 1 p ...