clang -O3 for循环的LLVM IR

O3都是怪物，这里分析的是CLANG怪物，示例程序遍历数组每个元素然后放大。

void foreach_scale(int arr[],int elem){

	for(int i=0;i<elem;i++){

		arr[i] += (elem*1024);

	}

}

这里删去了用处不大的内容，只保留了关键的LLVM IR。通过分析可以看到，如果循环小于8 LLVM IR会使用vector，vector使用SIMD指令高效进行计算，如果大于8则是普通的for形式。

; Function Attrs: norecurse nounwind

define void @"\01?foreach_scale@@YAXQAHH@Z"(i32* nocapture %arr, i32 %elem) local_unnamed_addr #0 {

entry:

  ;elem>0则进入循环，否则整个函数结束

  %cmp5 = icmp sgt i32 %elem, 0

  br i1 %cmp5, label %for.body.lr.ph, label %for.cond.cleanup

for.body.lr.ph:

  %mul = shl i32 %elem, 10;

  ; elem和8进行比较（utl表示unsigned less than）

  ; elem<8则跳到正常循环%for.body.preheader,否则跳到%vector.ph

  %min.iters.check = icmp ult i32 %elem, 8

  br i1 %min.iters.check, label %for.body.preheader, label %vector.ph

for.body.preheader:

  ;phi表示SSA里面的φ函数，详细参见LLVM DOC

  %i.06.ph = phi i32 [ 0, %for.body.lr.ph ], [ %n.vec, %middle.block ]

  br label %for.body

vector.ph:

  %n.vec = and i32 %elem, -8

  ;首先构造<%mul val val val>，然后shufflevector构造<%mul %mul %mul %mul>

  %broadcast.splatinsert9 = insertelement <4 x i32> undef, i32 %mul, i32 0

  %broadcast.splat10 = shufflevector <4 x i32> %broadcast.splatinsert9, <4 x i32> undef, <4 x i32> zeroinitializer

  ;ditto， %broadcast.splatinsert9 == <%mul %mul %mul %mul>

  %broadcast.splatinsert11 = insertelement <4 x i32> undef, i32 %mul, i32 0

  %broadcast.splat12 = shufflevector <4 x i32> %broadcast.splatinsert11, <4 x i32> undef, <4 x i32> zeroinitializer

  br label %vector.body

vector.body:

  %index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]

  ;从arr指向的内存加载数据

  ;%0现在表示<arr[0] arr[1] arr[2] arr[3]>

  %0 = getelementoptr inbounds i32, i32* %arr, i32 %index

  %1 = bitcast i32* %0 to <4 x i32>*

  %wide.load = load <4 x i32>, <4 x i32>* %1, align 4, !tbaa !3

  ;%2表示<arr[4] arr[5] arr[6] arr[7]>

  %2 = getelementptr i32, i32* %0, i32 4

  %3 = bitcast i32* %2 to <4 x i32>*

  %wide.load8 = load <4 x i32>, <4 x i32>* %3, align 4, !tbaa !3

  ;<arr[0] arr[1] arr[2] arr[3]>与<%mul %mul %mul %mul>相加，得到vector:%4

  ;<arr[4] arr[5] arr[6] arr[7]>与<%mul %mul %mul %mul>相加，得到vector:%5

  %4 = add nsw <4 x i32> %wide.load, %broadcast.splat10

  %5 = add nsw <4 x i32> %wide.load8, %broadcast.splat12

  ;%4,%5写回内存

  %6 = bitcast i32* %0 to <4 x i32>*

  store <4 x i32> %4, <4 x i32>* %6, align 4, !tbaa !3

  %7 = bitcast i32* %2 to <4 x i32>*

  store <4 x i32> %5, <4 x i32>* %7, align 4, !tbaa !3

  %index.next = add i32 %index, 8

  %8 = icmp eq i32 %index.next, %n.vec

  br i1 %8, label %middle.block, label %vector.body, !llvm.loop !7

middle.block:

  %cmp.n = icmp eq i32 %n.vec, %elem

  br i1 %cmp.n, label %for.cond.cleanup, label %for.body.preheader

;函数返回

for.cond.cleanup:

  ret void

for.body:

  %i.06 = phi i32 [ %inc, %for.body ], [ %i.06.ph, %for.body.preheader ]‘

  ; arr[i] = arr[i]+ (elem*1024)，其中%mul=(elem*1024)

  %arrayidx = getelementptr inbounds i32, i32* %arr, i32 %i.06

  %9 = load i32, i32* %arrayidx, align 4, !tbaa !3

  %add = add nsw i32 %9, %mul

  store i32 %add, i32* %arrayidx, align 4, !tbaa !3

  ; i++

  %inc = add nuw nsw i32 %i.06, 1

  ; 循环条件i<elem判断

  %exitcond = icmp eq i32 %inc, %elem

  br i1 %exitcond, label %for.cond.cleanup, label %for.body, !llvm.loop !10

}

clang -O3 for循环的LLVM IR的更多相关文章

LLVM 笔记（五）—— LLVM IR
ilocker:关注 Android 安全(新手) QQ: 2597294287 LLVM 的 IR (Intermediate Representation) 是其设计中的最重要的部分.优化器在进行 ...
手写token解析器、语法解析器、LLVM IR生成器（GO语言）
最近开始尝试用go写点东西,正好在看LLVM的资料,就写了点相关的内容 - 前端解析器+中间代码生成(本地代码的汇编.执行则靠LLVM工具链完成) https://github.com/daibinh ...
[转帖]什么是 LLVM？Swift, Rust, Clang 等语言背后的支持
要了解用于以编程方式生成机器原生代码的编译器框架是如何让新语言的推出以及对现有的语言进行增强比以往更加容易了. https://www.oschina.net/translate/what-is-ll ...
LLVM,Clang
在使用xcode时常常会遇到这2个概念,今天总结一下. wiki中关于llvm的描述: LLVM提供了完整編譯系統的中間層,它會將中間語言(IF, Intermediate form)從編譯器取出與最 ...
ios llvm and clang build tools
1. 使用 libclan g或 clang 插件包括( libclang 和 Clangkit) 备注: Clangkit,它是基于 clang 提供的功能,用 Objective-C 进行封装 ...
LLVM每日谈之二十 Everything && Clang driver
作者:史宁宁(snsn1984) 近期在读<Getting Started with LLVM Core Libraries>.这是读的第一本LLVM的书.非常多地方尽管讲的是自己知道的东 ...
iOS开发系列-LLVM、Clang
LLVM LLVM计划启动于2000年,最初由University of Illinois at Urbana-Champaign的Chris Lattner主持开展. 我们可以认为LLVM是一个完整 ...
llvm+clang编译安装
最近一段时间在llvm+clang上做一些东西,所以顺便将自己如何编译安装llvm+clang写了篇文章发在这里,希望能帮助刚接触llvm+clang的童鞋少走一些弯路(我刚接触的时候为了编译安装这个 ...
编译器:gcc, clang, llvm
clang Clang是LLVM的前端,可以用来编译C,C++,ObjectiveC等语言.传统的编译器通常分为三个部分,前端(frontEnd),优化器(Optimizer)和后端(backEnd) ...

随机推荐

json例子--bai
<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title&g ...
paramiko远程
安装paramiko后,看下面例子: 复制代码代码如下: import paramiko #设置ssh连接的远程主机地址和端口t=paramiko.Transport((ip,port))#设置登录名 ...
1106SQLserver基础--变量、运算符的使用，if...else，while语句
数据库---变量(对数据库中的数据没有任何影响) 作用:临时存储数据的作用,起一个衔接的作用,为了方便理解存储过程. 例:Declare @hello varchar(20) Set @hello=’ ...
Webrtc服务器搭建<转>
http://blog.csdn.net/zqf_office/article/details/49851209
人工智能二之Sublime Text3环境配置
1.在Ubuntu中按CTRL+ALT+T打开命令窗口,按下面步骤和命令进行安装即可: 添加sublime text 3的仓库: sudo add-apt-repository ppa:webupd8 ...
PL/SQL批处理语句（一）BULK COLLECT
我们知道PL/SQL程序中运行SQL语句是存在开销的,因为SQL语句是要提交给SQL引擎处理,这种在PL/SQL引擎和SQL引擎之间的控制转移叫做上下文却换,每次却换时,都有额外的开销.然而,FORA ...
【总结整理】IFeatureBuffer
IFeatureBuffer pRowBuffer = objTabWYDCQ_Tar.CreateFeatureBuffer(); pRowBuffer.Shape = SourceRow.Shap ...
Java之IO流学习总结
流:可以理解为数据的流动,就是一个数据流,IO流最终要以对象来体现流的分类: 按照流的方向:输入流和输出流 (输入流只能进行读操作,输出流只能进行写操作) 按照处理数据的不同:字节 ...
Entity Framework Tutorial Basics（18）：DBEntityEntry Class
DBEntityEntry Class DBEntityEntry is an important class, which is useful in retrieving various infor ...
SDUT 3341 数据结构实验之二叉树二：遍历二叉树
数据结构实验之二叉树二:遍历二叉树 Time Limit: 1000MS Memory Limit: 65536KB Submit Statistic Problem Description 已知二叉 ...

clang -O3 for循环的LLVM IR

clang -O3 for循环的LLVM IR的更多相关文章

随机推荐

热门专题