TVM图优化（以Op Fusion为例）

首先给出一个TVM 相关的介绍，这个是Tianqi Chen演讲在OSDI18上用的PPThttps://files.cnblogs.com/files/jourluohua/Tianqi-Chen-TVM-Stack-Overview.rar

对于图优化来说，位于整个软件编译栈比较高的层次：

首先给出计算图的定义

Computational graphs: a common way to represent programs in deep learning frameworks

对于图优化来说，有很多种图优化手段：Operator Fusion
Constant Parameter Path Pre-Computation
Static Memory Reuse Analysis
Data Layout Transformation
AlterOpLayout
SimplifyInference

这里仅以Operator Fusion做例子介绍

Operator fusion : combine multiple operators together into a single kernel without saving the intermediate results back into global memory

也就说是说算子融合省掉了中间数据的store过程

在TVM中，有三种融合规则：

其中，算子属于哪一类是算子本身的特性（这个地方不是特别懂，这个属性有非常多的值），但是能融合的规则只有这三种。

但是这种store是如何减少的，在IR上有明确的体现。

下边的例子，我会使用tvm.relay来进行介绍，relay是TVM中实现的一种高级IR，可以简单理解为另一种计算图表示。其在TVM所处的位置如下图所示

比如，我们假设我们要完成一个y = exp(x+1.0)的计算图

给出测试代码(来自于源码中的test_pass_fuse_ops.py，有改动)：

import tvm

from tvm import relay

def test_fuse_simple():

    """Simple testcase."""

    def before():

        x = relay.var("x", shape=(10, 20))

        y = relay.add(x, relay.const(1, "float32"))

        z = relay.exp(y)

        return relay.Function([x], z)

    def expected():

        x = relay.var("p", shape=(10, 20))

        y = relay.add(x, relay.const(1, "float32"))

        z = relay.exp(y)

        f1 = relay.Function([x], z)

        x = relay.var("x", shape=(10, 20))

        y = relay.Call(f1, [x])

        return relay.Function([x], y)

    z = before()

    z = relay.ir_pass.infer_type(z)

    # print(z.astext())

    zz = relay.ir_pass.fuse_ops(z, opt_level=2)

    print(zz.astext())

    zz = relay.ir_pass.infer_type(zz)

    zz = relay.ir_pass.fuse_ops(zz)

    zz = relay.ir_pass.infer_type(zz)

    after = relay.ir_pass.infer_type(expected())

    # print(after.astext())

    assert relay.ir_pass.alpha_equal(zz, after)

在融合前，其IR(方便用户看的一种形式，不是真正的IR)

fn (%x: Tensor[(10, 20), float32])

    -> Tensor[(10, 20), float32] {

  %0 = fn(%p0: Tensor[(10, 20), float32],

          %p1: float32)

          -> Tensor[(10, 20), float32] {

    %1 = add(%p0, %p1)

    %1

  }

  %2 = %0(%x, 1f)

  %3 = fn(%p01: Tensor[(10, 20), float32])

          -> Tensor[(10, 20), float32] {

    %4 = exp(%p01)

    %4

  }

  %5 = %3(%2)

  %5

}

融合后：

fn (%x: Tensor[(10, 20), float32])

    -> Tensor[(10, 20), float32] {

  %0 = fn(%p0: Tensor[(10, 20), float32])

          -> Tensor[(10, 20), float32] {

    %1 = add(%p0, 1f)

    %2 = exp(%1)

    %2

  }

  %3 = %0(%x)

  %3

}

可以很明显的发现，省掉了一次数据store过程

TVM图优化（以Op Fusion为例）的更多相关文章

TVM图优化与算子融合
TVM图优化与算子融合计算图的定义 Computational graphs: a common way to represent programs in deep learning framewo ...
『The Captain 最短路建图优化』
The Captain(BZOJ 4152) Description 给定平面上的n个点,定义(x1,y1)到(x2,y2)的费用为min(|x1-x2|,|y1-y2|),求从1号点走到n号点的最小 ...
BZOJ4383/LuoGuP3588 Pustynia/PUS 线段树建图优化
我会告诉你我看了很久很久才把题目看懂吗???怀疑智商了原来他给的l,r还有k个数字都是下标... 比如给了一个样例 l, r, k, x1,x2,x3...xk,代表的是一个数组num[l]~num ...
MXNet 图优化与算子融合
MXNet 图优化与算子融合Graph Optimization and Quantization based on subgraph and MKL-DNN Purpose MKL-DNN引入了两个 ...
深入理解图优化与g2o：g2o篇
内容提要讲完了优化的基本知识,我们来看一下g2o的结构.本篇将讨论g2o的代码结构,并带着大家一起写一个简单的双视图bundle adjustment:从两张图像中估计相机运动和特征点位置.你可以把 ...
深入理解图优化与g2o：图优化篇
前言本节我们将深入介绍视觉slam中的主流优化方法——图优化(graph-based optimization).下一节中,介绍一下非常流行的图优化库:g2o. 关于g2o,我13年写过一个文档,然 ...
CF 291E. Tree-String Problem [dfs kmp trie图优化]
CF291E 题意:一棵树,每条边上有一些字符,求目标串出现了多少次直接求目标串的fail然后一边dfs一边跑kmp 然后就被特殊数据卡到$O(n^2)$了... 因为这样kmp复杂度分析的基础 ...
从零开始一起学习SLAM | 理解图优化，一步步带你看懂g2o代码
首发于公众号:计算机视觉life 旗下知识星球「从零开始学习SLAM」这可能是最清晰讲解g2o代码框架的文章理解图优化,一步步带你看懂g2o框架小白:师兄师兄,最近我在看SLAM的优化算法,有种 ...
视觉SLAM漫淡（二）：图优化理论与g2o的使用
视觉SLAM漫谈(二):图优化理论与g2o的使用 1 前言以及回顾各位朋友,自从上一篇<视觉SLAM漫谈>写成以来已经有一段时间了.我收到几位热心读者的邮件.有的希望我介绍一下当前 ...

随机推荐

kotlin之null值安全性
var a: String =null // 编译错误 var a: String? =null // 编译通过要允许null值, 需要将变量声明为可为null的字符串类型:String? fun ...
golang web框架设计6：上下文设计
context,翻译为上下文,为什么要设计这个结构?就是把http的请求和响应,以及参数结合在一起,便于集中处理信息,以后框架的扩展等.好多框架比如gin,都是有这个上下文结构. context结构为 ...
ubuntu16.04 下通过rc.d(rc.local)实现开机启动(未登录)anydesk
先编辑anydesk-X.X.X/init/anydesk文件,将"DAEMON=//usr/bin$NAME"改成"DAEMON=/XXX/anydesk-5.1.1/ ...
for 和 while 用于遍历时候的区别
for: 以空格作为间隔符,输出字段. read: 以行作为间隔符,输出字段. 对于文件来说,如果只有一列,for 和 read 无区别, 多列的话, 有区别. read 用法详情: 见如下转 ...
C++通过Swig跨线程回调Python代码
C++ 定义 Callback 类. PyThreadStateLock 保证垮线程调用成功: #include <Python/Python.h> class Callback { pu ...
【转载】恢复误删文件--DOS命令应用实例（一）
<电脑爱好者>报转载第一辑第二篇之恢复误删文件--DOS命令应用实例(一) 恢复误删文件--DOS命令应用实例(一) 上期我们讲述了 ...
Android之makefile
在Android的源代码中,随处可见Makefile,那么Makefile到底是用来干嘛的呢?其实Makefile和Maven.ANT.Gradle一样,属于构建工具,当项目比较庞大的时候,就可以使用 ...
$.ajax 中的contentType类型
参考链接:https://www.jianshu.com/p/f4d92b3d387d
DDE 的知识和使用
在github上下载.net 版本的NDde 开发包或者在此处下载开发包 MSDN 地址创建服务器 class BasicDDE:DdeServer { public BasicDDE(strin ...
idea把maven依赖树输出到控制台
第一步选中红色方框第二步点进去输入命令:mvn dependency:tree 如果要输出到文件,找到pom文件的位置进入命令行输入: mvn dependency:tree >d: ...

TVM图优化（以Op Fusion为例）

TVM图优化（以Op Fusion为例）的更多相关文章

随机推荐

热门专题