使用Apache TVM将机器学习编译为WASM和WebGPU

TLDR

在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持。实验表明，在将模型部署到Web时，TVM的WebGPU后端可以接近本机 GPU的性能。

概述

计算是现代机器学习应用程序的支柱之一。GPU的引入加快了深度学习的工作量，极大地提高了运行速度。部署机器学习的需求不断增长，浏览器已成为部署智能应用程序的自然之所。

TensorFlow.js和ONNX.js将机器学习引入浏览器，但Web版本和本机版本之间在性能上仍然存在着不小的差距。许多原因之一是缺乏对Web上GPU的标准访问和高性能访问。WebGL缺少高性能着色学习所需的重要功能，例如计算着色器和通用存储缓冲区。

WebGPU是下一代Web图形标准。与最新一代的图形API（例如Vulkan和Metal）一样，WebGPU提供了一流的计算着色器支持。

为了探索在浏览器中使用WebGPU进行机器学习部署的潜力，增强了深度学习编译器Apache（incubating）TVM，以WASM（用于计算启动参数并调用设备启动的主机代码）和WebGPU（用于设备）为目标。执行初步结果是非常积极的-第一次，可以在Web上部署机器学习应用程序，同时仍能接近GPU的本机性能。

机器学习编译器

试用WebGPU的自然反应是为深度神经网络（矩阵乘法和卷积）中的原始算子编写着色器，然后直接优化性能。这是现有框架（例如TensorFlow.js）使用的传统工作流程。

相反，采用了基于编译的方法。TVM自动从TensorFlow，Keras，PyTorch，MXNet和ONNX等高级框架中提取模型，使用机器学习驱动的方法自动生成低级代码，在这种情况下，将以SPIR-V格式计算着色器。然后可以为可部署模块生成的代码打包。

编译的方法的一个重要优点是基础架构的重用。通过重用基础结构来优化CUDA，Metal和OpenCL等本机平台的GPU内核，能够轻松地（相对于其它方法）以Web为目标。如果WebGPU API到本机API的映射有效，可以通过很少的工作获得类似的性能。更重要的是，AutoTVM基础架构，能够针对特定模型专门化计算着色器，从而能够为感兴趣的特定模型生成最佳的计算着色器。

构建WASM和WebGPU编译器

为了构建可以针对WASM和WebGPU的编译器，需要以下元素：

用于计算着色器的SPIR-V生成器。
主机程序的WASM生成器。
加载和执行生成的程序的runtime。

TVM已经有Vulkan的SPIR-V目标，使用LLVM生成主机代码。可以仅将二者的用途重新生成设备和主机程序。

主要挑战是runtime。需要一个runtime来加载着色器代码，并使主机代码对话能够正确地与着色器通信。TVM具有最低的基于C ++的runtime。构建了一个最小的Web runtime库，生成的着色器和主机驱动代码链接，生成一个WASM文件。但是，此WASM模块仍然包含两个未知的依赖项：

runtime需要调用系统库调用（malloc，stderr）。
wasmruntime需要与WebGPU驱动程序进行交互（在Javascript中，WebGPU API是the first-class citizen）。

WASI是解决第一个问题的标准解决方案。尽管网络上还没有成熟的WASI，使用emscripten生成类似WASI的库，提供这些系统库。

通过在TVM的JS runtime内部构建WebGPU runtime来解决第二个问题，在调用GPU代码时，从WASM模块中回调这些功能。使用TVM runtime系统中的PackedFunc机制，可以通过将JavaScript闭包传递到WASM接口，直接公开高级runtime原语。这种方法将大多数runtime代码保留在JavaScript中，随着WASI和WASM支持的成熟，可以将更多JS代码引入WASM runtime。

性能

进行了一个快速实验，比较了通过TVM的WebGPU后端和使用本地GPU runtime（Metal和OpenCL）的本地目标执行完整计算图的情况。在MobileNet模型上，可以发现WebGPU可以接近Metal的性能。假设Chrome WebGPU的runtime以MacOS上的Metal（而不是OpenCL）为目标，可以放心地假设以GPU为目标时，性能几乎没有损失。

此基准不包括CPU到GPU的数据复制成本，而仅基准GPU的执行。从CPU到GPU的数据复制，仍会占用25％的执行时间。可以通过诸如连续执行设置中的双缓冲之类的方法，进一步摊销这些成本。

报告的mobilenet的端到端runtime，绝不是最佳选择，重复使用了GTX 1080 Ti的优化程序，这与Intel图形GPU截然不同。希望通过在目标平台上使用AutoTVM来进一步提高性能。

展望未来

结果表明，在网络上进行机器学习有许多有趣的机会。值得注意的是，WebGPU是一个仍在不断发展的API，其含义可能会超出Web应用程序。例如，当WebGPU成熟，通过WASI标准化时，可以将其定位为WebGPU的本机API，使用WebGPU的独立WASM应用程序。

TVM社区还积极地在基于Rust的runtime上工作，该runtime将提供更强大的WASM支持，wgpu和Rust WASM生态系统等项目的交互更加轻松。

提出的方法为大多数WASM的应用场景提供了有效的机器学习支持。接近本机的性能，可以释放浏览器上更好的联合学习功能。相同的编译程序包，也应该能够在本机WASM执行程序上运行，为应用程序提供sandbox 。

使用Apache TVM将机器学习编译为WASM和WebGPU的更多相关文章

TVM编译机器学习到 WASM 和 WebGPU
TVM编译机器学习到 WASM 和 WebGPU TLDR TVM 深度学习编译器对 WASM 和 WebGPU 的支持.实验表明,TVM 的 WebGPU 后端在将模型部署到 Web 时可以接近原生 ...
TVM适配NN编译Compiler缺陷
TVM适配NN编译Compiler缺陷内容纲要前言 TVM针对VTA的编译流程自定义VTA架构:TVM的缺陷与性能瓶颈 TVM缺陷与瓶颈缺陷一:SRAM配置灵活性差缺陷二:计算阵列配置僵硬 ...
试试将.NET7编译为WASM并在Docker上运行
之前有听到说Docker支持Wasmtime了,刚好.NET7也支持WASM,就带大家来了解一下这个东西,顺便试试它怎么样. 因为WASM(WebAssembly) 一开始是一个给浏览器的技术,比起J ...
Centos7 Apache 2.4.18编译安装
安装环境:CentOS Linux release 7.0.1406 (Core) 0x01 到官网http://httpd.apache.org/download.cgi#apache24下载apa ...
Apache 流媒体拖动模块编译
Windows使用apxs独立编译 Apache 模块 http://blog.sina.com.cn/s/blog_43b83d340100mdhl.html 安装 apxs 1.解压apxs.zi ...
以Apache模块的方式编译安装php-5.4.27
为什么要安装低版本的php? 由于apc,xcache的更新版本跟不上php版本的速度,所以,我们需要安装比较稳定的php低版本程序,再安装其它与之相匹配的扩展. 开工: 新建用户及用户组 group ...
以Apache模块的方式编译安装php-5.5.4
新建用户及用户组 groupadd webuser useradd -g webuser webuser 下载php-5.5 下载地址:http://pan.baidu.com/s/1o6I6Lnk ...
apache ranger源码编译
官方文档 http://ranger.apache.org/quick_start_guide.html Quick Start Guide Build Process 1. Check out th ...
apache atlas源码编译打包 centos
参考:https://atlas.apache.org/InstallationSteps.html https://blog.csdn.net/lingbo229/article/details/8 ...

随机推荐

1.7.6- 浏览器审查HTML标签元素
或者F12
1. APP移动端性能测试基础知识入门
本博客要点生命周期堆和栈垃圾回收 adb命令 Activity的生命周期
hdu4791水题
题意: 打印东西,给你区间和每个区间的价格,然后输入任务张数,输出最少花费.. 题解: 昨晚的小测试就有这个题目,当时蒙B了,怎么也读不懂题目,一直纠结怎么把150拆成1 ...
RING3级下枚举用户进程的基本姿势
简述 Ring3用户态下查看进程信息的基本方法代码样例 #include <cstdio> #include <iostream> #include <cstdlib& ...
Android Hook框架adbi的分析(3)---编译和inline Hook实践
本文博客地址:http://blog.csdn.net/qq1084283172/article/details/75200800 一.序言在前面的博客中,已经分析过了Android Hook框架a ...
【ECharts】报表联动，动态数据设计
说明: 数据没有拉取后台数据,仅仅前端模拟数据,Copy即可有效果.联动后台时,使用异步获取数据即可.鼠标点击,动态展示点击项的数据.有关更多实例,请移步到echarts官网查看. 成果展示: 相关代 ...
SpringBoot学习笔记：Spring Data Jpa的使用
更多请关注公众号 Spring Data Jpa 简介 JPA JPA(Java Persistence API)意即Java持久化API,是Sun官方在JDK5.0后提出的Java持久化规范(JSR ...
C#中的委托(Update)
什么是委托? 委托(delegate)是一种托管方法的数据结构,它是一种引用类型,是对方法的引用.如果说int,string等是对数据类型的定义,那么委托就类似于对"方法类型"的定 ...
使用C#进行数据库增删改查ADO.NET(二)
这节接着讲用C#进行数据库CRUD,高级部分. 事务: 事务是执行一批sql语句,如果中途失败,全部回滚,数据不会受影响,中途没有出错则会提交事务,真正对数据进行修改.C#提供了SqlTransac ...
OO_Unit4_UML模型化设计
CSDN博客传送门 @ 目录一.架构设计 (一)第一次作业作业需求分析建立类图 bug修复 (二)第二次作业作业需求分析建立类图 checkForUml002实现方式 checkForUml ...

使用Apache TVM将机器学习编译为WASM和WebGPU

使用Apache TVM将机器学习编译为WASM和WebGPU的更多相关文章

随机推荐

热门专题