TVM将深度学习模型编译为WebGL

使用TVM将深度学习模型编译为WebGL

TVM带有全新的OpenGL / WebGL后端！

OpenGL / WebGL后端

TVM已经瞄准了涵盖各种平台的大量后端：CPU，GPU，移动设备等。这次，添加了另一个后端：OpenGL / WebGL。

OpenGL / WebGL使能够在未安装CUDA的环境中利用GPU。在浏览器中使用GPU的方法。

后端允许以3种不同的方式使用OpenGL / WebGL：

本地OpenGL：可以将深度学习模型编译为OpenGL，完全使用Python在本地计算机上直接运行。
带有RPC的WebGL：可以将深度学习模型编译到WebGL中，通过Emscripten（带有JavaScript主机代码和WebGL设备代码）将其导出为共享库。通过RPC将该库部署到在浏览器中运行的TVM JavaScript运行时系统上。
带有静态库的WebGL：可以将深度学习模型编译到WebGL中，将其与TVM JavaScript运行时系统链接，然后导出整个程序包。在浏览器上的网页中运行该模型，而无需依赖。详细流程如图1所示。

依靠Emscripten及其fastcomp LLVM后端来生成javascript后端。

图1

与X有何不同？

在浏览器上运行神经网络并不是一件新鲜事。例如安德烈·卡帕蒂（Andrej Karpathy）的ConvNetJS 和Google的DeepLearning.JS。

带WebGL的TVM的独特之处是什么？最大的区别是TVM中的op内核是自动编译的，而不是手写的。如图2所示，TVM利用统一的AST定义内核，将其编译为在不同平台上进行编码。

图2

表明：

将现有模型部署到WebGL，无需编写大量其他代码。NNVM / TVM模型定义对于所有目标都是相同的，只需要将其编译为新目标即可。
要添加一个新的op内核，只需要在TVM中定义一次，而不是为每个目标实现一次。无需知道如何编写GLSL代码，即可向WebGL添加新的操作内核！

基准benchmark

为典型的工作负载执行基准测试：使用resnet18进行图像分类。

5岁的笔记本电脑，该笔记本电脑具有8核IntelCorei7-3610QM和GTX650M。

在此基准测试中，从Gluon模型动物园下载了一个resnet18模型，对猫图像进行了端到端分类。仅测量模型执行时间（没有模型/输入/参数加载），每个模型运行100次以获取平均值。结果如图3所示。

图3

基准测试有4种不同的设置：

CPU（LLVM）：将模型编译为LLVM IR和JIT。完全在CPU上运行。
OpenCL：将模型编译到OpenCL中。仍然有一些胶水glue代码已编译到LLVM，负责设置和启动OpenCL内核。在本地计算机上运行。
OpenGL：与OpenCL相同，但编译为OpenGL。
WebGL：粘合代码被编译为LLVM，使用Emscripten的Fastcomp LLVM后端转换为JavaScript。设备代码被编译为WebGL。在Firefox中执行模型。

上面的结果可以看出，TVM OpenGL后端具有与OpenCL相似的性能。更有趣的是，浏览器中的WebGL版本，并不比台式机OpenGL慢得多。考虑到宿主代码是JavaScript，非常令人惊讶。可能是由于Emscripten生成了asm.js，在Firefox中进行重大优化。

这是将深度学习模型自动编译到Web浏览器中的第一步。随着将优化引入TVM堆栈，会有有更多的性能改进。

TVM将深度学习模型编译为WebGL的更多相关文章

用 Java 训练深度学习模型，原来可以这么简单！
本文适合有 Java 基础的人群作者:DJL-Keerthan&Lanking HelloGitHub 推出的<讲解开源项目> 系列.这一期是由亚马逊工程师:Keerthan V ...
CUDA上深度学习模型量化的自动化优化
CUDA上深度学习模型量化的自动化优化深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参数 ...
CUDA上的量化深度学习模型的自动化优化
CUDA上的量化深度学习模型的自动化优化深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...
AI佳作解读系列(一)——深度学习模型训练痛点及解决方法
1 模型训练基本步骤进入了AI领域,学习了手写字识别等几个demo后,就会发现深度学习模型训练是十分关键和有挑战性的.选定了网络结构后,深度学习训练过程基本大同小异,一般分为如下几个步骤定义算法公 ...
『高性能模型』Roofline Model与深度学习模型的性能分析
转载自知乎:Roofline Model与深度学习模型的性能分析在真实世界中,任何模型(例如 VGG / MobileNet 等)都必须依赖于具体的计算平台(例如CPU / GPU / ASIC 等 ...
深度学习模型stacking模型融合python代码，看了你就会使
话不多说,直接上代码 def stacking_first(train, train_y, test): savepath = './stack_op{}_dt{}_tfidf{}/'.format( ...
深度学习模型融合stacking
当你的深度学习模型变得很多时,选一个确定的模型也是一个头痛的问题.或者你可以把他们都用起来,就进行模型融合.我主要使用stacking和blend方法.先把代码贴出来,大家可以看一下. import ...
利用 TFLearn 快速搭建经典深度学习模型
利用 TFLearn 快速搭建经典深度学习模型使用 TensorFlow 一个最大的好处是可以用各种运算符(Ops)灵活构建计算图,同时可以支持自定义运算符(见本公众号早期文章<Tenso ...
Roofline Model与深度学习模型的性能分析
原文链接: https://zhuanlan.zhihu.com/p/34204282 最近在不同的计算平台上验证几种经典深度学习模型的训练和预测性能时,经常遇到模型的实际测试性能表现和自己计算出的复 ...

随机推荐

CSS快速入门基础篇，让你快速上手（附带代码案例）
1.什么是CSS 学习思路 CSS是什么怎么去用CSS(快速上手) CSS选择器(难点也是重点) 网页美化(文字,阴影,超链接,列表,渐变等) 盒子模型浮动定位网页动画(特效效果) 项目格式: ...
php讲转义符号与json文件的趣事情
php中屡试不爽的数组和json json_encode与json_decode urlencode与urldecode addslashes与stripslashes addcslashes与str ...
【MRR】转-MySQL 的 MRR 优化
MRR,全称「Multi-Range Read Optimization」. 简单说:MRR 通过把「随机磁盘读」,转化为「顺序磁盘读」,从而提高了索引查询的性能. 至于: 为什么要把随机读转化为顺序 ...
Thinkphp5助手函数和Thinkphp3的单字母函数对应参照表
hdu5033 最大仰望角
题意: 给你n个楼房排成一条直线,楼房可以看成是宽度为1的线段,然后给你m组询问,每组询问给你一个坐标,输出在当前坐标仰望天空的可视角度. 思路: n比较大,O(n*m)肯定跪 ...
SqlServer数据库主从同步
分发/订阅模式实现SqlServer主从同步在文章开始之前,我们先了解一下几个关键的概念: 分发服务器分发服务器是负责存储在同步过程中所用复制信息的服务器.可以比喻成报刊发行商. 分发数据库分发数据 ...
layui框架下如何给select的option选项赋值
后端返回数据格式 axios方法执行成功后返回的数据格式如下图前端下拉框 <div class="layui-form-item"> <label class= ...
你管这破玩意叫CPU？
每次回家开灯时你有没有想过,用你按的开关实际上能打造出复杂的 CPU来,只不过需要的数量可能比较多,也就几十亿个吧. 伟大的发明过去200年人类最重要的发明是什么?蒸汽机?电灯?火箭?这些可能都不 ...
ColyseusJS 轻量级多人游戏服务器开发框架 - 中文手册（系统保障篇）
快速上手多人游戏服务器开发.后续会基于 Google Agones,更新相关 K8S 运维.大规模快速扩展专用游戏服务器的文章.拥抱️原生 Cloud-Native! 系列 ColyseusJS 轻量 ...
使用C#进行数据库增删改查ADO.NET(一)
这节讲一下如何使用C#进行数据库的增删改查操作,本节以SQL Server数据库为例. .NET 平台,使用ADO.NET 作为与数据库服务器的桥梁,我们通过ADO.NET就可以使用C#语言操作数据库 ...

TVM将深度学习模型编译为WebGL

TVM将深度学习模型编译为WebGL的更多相关文章

随机推荐

热门专题