TVM交叉编译和远程RPC
TVM交叉编译和远程RPC
本文介绍了TVM中使用RPC的交叉编译和远程设备执行。
使用交叉编译和RPC,可以在本地计算机上编译程序,然后在远程设备上运行它。当远程设备资源受到限制时(如Raspberry Pi和移动平台),此功能很有用。本文将使用Raspberry Pi作为CPU示例,并使用Firefly-RK3399作为OpenCL示例。
在设备上构建TVM运行时
第一步是在远程设备上构建TVM运行时。
本文所有指令都应在目标设备(例如Raspberry Pi)上执行。假设目标正在运行Linux。
由于在本地计算机上进行编译,因此远程设备仅用于运行生成的代码。只需要在远程设备上构建TVM运行时。
git clone --recursive https://github.com/apache/tvm tvm
cd tvm
make runtime -j2
成功构建运行时后,需要在~/.bashrc文件中设置环境变量。可以~/.bashrc 使用进行编辑并添加以下行(假设TVM目录位于):vi ~/.bashrc~/tvm
export PYTHONPATH=$PYTHONPATH:~/tvm/python
要更新环境变量,执行。source ~/.bashrc
在设备上设置RPC服务器
要启动RPC服务器,在远程设备上运行以下命令(在本示例中为Raspberry Pi)。
python -m tvm.exec.rpc_server --host 0.0.0.0 --port=9090
如果看到下面的行,则表明RPC服务器已在设备上成功启动。
INFO:root:RPCServer: bind to 0.0.0.0:9090
在本地计算机上声明并交叉编译内核
现在,返回安装了完整TVM(带有LLVM)的本地计算机。
将在本地计算机上声明一个简单的内核:
import numpy as np
import tvm
from tvm import te
from tvm import rpc
from tvm.contrib import utils
n = tvm.runtime.convert(1024)
A = te.placeholder((n,), name="A")
B = te.compute((n,), lambda i: A[i] + 1.0, name="B")
s = te.create_schedule(B.op)
然后交叉编译内核。对于Raspberry Pi 3B,目标应该是'llvm -mtriple = armv7l-linux-gnueabihf',在这里使用'llvm'来使本文可在网页构建服务器上运行。参见以下块中的详细说明。
local_demo = True
if local_demo:
target = "llvm"
else:
target = "llvm -mtriple=armv7l-linux-gnueabihf"
func = tvm.build(s, [A, B], target=target, name="add_one")
# save the lib at a local temp folder
temp = utils.tempdir()
path = temp.relpath("lib.tar")
func.export_library(path)
Readme
要运行这个教程与真正的远程设备,更改local_demo 为False,并取代target在build与三联供设备适当的目标。目标三元组对于不同的设备可能有所不同。例如,它适用 于Raspberry Pi 3B和 RK3399。'llvm -mtriple=armv7l-linux-gnueabihf''llvm -mtriple=aarch64-linux-gnu'
可以通过在设备上运行并查询以 ()开头的行)来查询目标(尽管可能仍然是宽松的配置。)gcc -vTarget:
此外-mtriple,还可以设置别的编译选项,例如:
- -mcpu = <cpuname>
在当前架构中指定要为其生成代码的特定芯片。默认情况下,这是从目标三元组推断出来的,并自动检测到当前体系结构。
- -mattr = a1,+ a2,-a3,...
覆盖或控制目标的特定属性,例如是否启用SIMD操作。默认属性集由当前CPU设置。要获取可用属性的列表,可以执行以下操作:
llc -mtriple=<your device target triple> -mattr=help
这些选项与llc一致。建议设置目标三元组和功能集以包含可用的特定功能,充分利用开发板的功能。可以从《交叉编译的LLVM指南》中找到有关交叉编译属性的更多详细信息 。
通过RPC远程运行CPU内核
展示了如何在远程设备上运行生成的CPU内核。首先,从远程设备获取RPC会话。
if local_demo:
remote = rpc.LocalSession()
else:
# The following is my environment, change this to the IP address of your target device
host = "10.77.1.162"
port = 9090
remote = rpc.connect(host, port)
将库上传到远程设备,然后调用设备本地编译器以重新链接。现在func是一个远程模块对象。
remote.upload(path)
func = remote.load_module("lib.tar")
# create arrays on the remote device
ctx = remote.cpu()
a = tvm.nd.array(np.random.uniform(size=1024).astype(A.dtype), ctx)
b = tvm.nd.array(np.zeros(1024, dtype=A.dtype), ctx)
# the function will run on the remote device
func(a, b)
np.testing.assert_equal(b.asnumpy(), a.asnumpy() + 1)
当要评估远程设备上内核的性能时,避免网络开销很重要。 time_evaluator将返回一个远程函数,该函数多次运行该函数,测量该远程设备上的每次运行成本,并返回测得的成本。排除网络开销。
time_f = func.time_evaluator(func.entry_name, ctx, number=10)
cost = time_f(a, b).mean
print("%g secs/op" % cost)
输出:
1.161e-07 secs/op
通过RPC远程运行OpenCL内核
对于远程OpenCL设备,工作流程与上面的工作流程几乎相同。可以定义内核,上传文件并通过RPC运行。
Raspberry Pi不支持OpenCL,以下代码在Firefly-RK3399上进行了测试。可以按照本文 为RK3399设置操作系统和OpenCL驱动程序。
另外,需要在rk3399板上启用OpenCL来构建运行时。在TVM根目录中,执行
cp cmake/config.cmake .
sed -i "s/USE_OPENCL OFF/USE_OPENCL ON/" config.cmake
make runtime -j4
以下函数显示了如何远程运行OpenCL内核
def run_opencl():
# NOTE: This is the setting for my rk3399 board. You need to modify
# them according to your environment.
target_host = "llvm -mtriple=aarch64-linux-gnu"
opencl_device_host = "10.77.1.145"
opencl_device_port = 9090
# create schedule for the above "add one" compute declaration
s = te.create_schedule(B.op)
xo, xi = s[B].split(B.op.axis[0], factor=32)
s[B].bind(xo, te.thread_axis("blockIdx.x"))
s[B].bind(xi, te.thread_axis("threadIdx.x"))
func = tvm.build(s, [A, B], "opencl", target_host=target_host)
remote = rpc.connect(opencl_device_host, opencl_device_port)
# export and upload
path = temp.relpath("lib_cl.tar")
func.export_library(path)
remote.upload(path)
func = remote.load_module("lib_cl.tar")
# run
ctx = remote.cl()
a = tvm.nd.array(np.random.uniform(size=1024).astype(A.dtype), ctx)
b = tvm.nd.array(np.zeros(1024, dtype=A.dtype), ctx)
func(a, b)
np.testing.assert_equal(b.asnumpy(), a.asnumpy() + 1)
print("OpenCL test passed!")
概括
本文提供了TVM中的交叉编译和RPC功能的演练。
- 在远程设备上设置RPC服务器。
- 设置目标设备配置以交叉编译本地计算机上的内核。
- 通过RPC API远程上载和运行内核。
TVM交叉编译和远程RPC的更多相关文章
- rabbitmq学习(四):利用rabbitmq实现远程rpc调用
一.rabbitmq实现rpc调用的原理 ·rabbitmq实现rpc的原理是:客户端向一个队列中发送消息,并注册一个回调的队列用于接收服务端返回的消息,该消息需要声明一个叫做correaltionI ...
- go语言net包rpc远程调用的使用
一.基于http的RPC 服务端: package main; import ( "net/rpc" "net/http" "log" ) ...
- 用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈
用TVM在硬件平台上部署深度学习工作负载的端到端 IR 堆栈 深度学习已变得无处不在,不可或缺.这场革命的一部分是由可扩展的深度学习系统推动的,如滕索弗洛.MXNet.咖啡和皮托奇.大多数现有系统针对 ...
- TVM:一个端到端的用于开发深度学习负载以适应多种硬件平台的IR栈
TVM:一个端到端的用于开发深度学习负载以适应多种硬件平台的IR栈 本文对TVM的论文进行了翻译整理 深度学习如今无处不在且必不可少.这次创新部分得益于可扩展的深度学习系统,比如 TensorFlo ...
- 游戏编程系列[1]--游戏编程中RPC协议的使用[3]--体验
运行环境,客户端一般编译为.Net 3.5 Unity兼容,服务端因为用了一些库,所以一般为4.0 或往上.同一份代码,建立拥有2个项目.客户端引用: WindNet.Client服务端引用: OpL ...
- 基于Netty打造RPC服务器设计经验谈
自从在园子里,发表了两篇如何基于Netty构建RPC服务器的文章:谈谈如何使用Netty开发实现高性能的RPC服务器.Netty实现高性能RPC服务器优化篇之消息序列化 之后,收到了很多同行.园友们热 ...
- RPC框架性能基本比较测试
RPC框架:gRPC.Thrift.Wildfly.Dubbo 原文链接:http://www.open-open.com/lib/view/open1426302068107.html gRPC是G ...
- RabbitMQ 原文译06--Remote procedure call(RPC)
在第三篇文章中, 我们学习了怎么使用队列在多了消息消费者当中进行耗时任务轮询. 但是如果我们想要在远程电脑上运行一个方法,然后等待其执行结果,这就是一个不同的场景,这种就是我们一般讲的RPC(远程过程 ...
- man statd(rpc.statd中文手册)
本人译作集合:http://www.cnblogs.com/f-ck-need-u/p/7048359.html rpc.statd程序主要实现NFS锁相关内容,如普通的文件锁(NLM.NSM).文件 ...
随机推荐
- boltdb的实现和改进
整个代码不是很复杂,可以从代码中理解如何实现. 特点:btree,很小巧,但实现了完整事务机制,稳定,即使丢电也不会导致数据库错误. 整个结构如下: meta page (前两页) --- > ...
- Linux中Tomcat和Jboss的安装和部署
目录 JDK环境 yum源安装JDK 源码包安装JDK Tomcat的安装 yum源安装 目录结构: 源码包安装 目录结构: 目录中主要的文件: JBoss的安装 目录结构: Tomcat是Apach ...
- Linux提权
讲Linux提权之前,我们先看看与Linux有关的一些知识: 我们常说的Linux系统,指的是Linux内核与各种常用软件的集合产品,全球大约有数百款的Linux系统版本,每个系统版本都有自己的特性和 ...
- 使用navicat连接阿里云上mysql
使用宝塔面板安装mysql Linux基本内容,里面有涉及到安装Mysql 修改密码 而且也要在数据库的菜单中设置root密码 修改后密码后进行登录,就不会出现下面的报错了 [root@centos7 ...
- Pytest自动化测试-简易入门教程(03)
今天分享内容的重点,和大家来讲一下我们的测试框架--Pytest 讲到这个框架的话呢,可能有伙伴就会问老师,我在学习自动化测试过程中,我们要去学一些什么东西? 第一个肯定要学会的是一门编程语言,比如说 ...
- Windows反调试技术(下)
OD的DBGHELP模块 检测DBGHELP模块,此模块是用来加载调试符号的,所以一般加载此模块的进程的进程就是调试器.绕过方法也很简单,将DBGHELP.DLL改名. #include <Wi ...
- 使用alpine为基础镜像Q&A
作为go应用存在二进制文件却不能执行 明明镜像中有对应的二进制文件,但是执行时却提示 not found 或 no such file 或 standard_init_linux.go:211: ex ...
- Linux 目录管理
tree命令的基本使用 tree 查看当前目录的树状结构 -a 查看所有包含隐藏文件 -L 1 查看目录层级 tree /root 指定目录 根目录下的主要文件 /bin 普通用户可以执行的二进制文件 ...
- shell进阶之tree、pstree、lsof命令详解
一.tree命令详解: 主要功能是创建文件列表,将所有文件以树的形式列出来 -a 显示所有文件和目录. -A 使用ASNI绘图字符显示树状图而非以ASCII字符组合. -C 在文件和目录清单加上色彩, ...
- 11.11 ntsysv:管理开机服务
ntsysv命令提供了一种基于文本界面的菜单操作方式,以设置不同运行级别下的系统服务启动状态. -back 在交互界面里,显示Back按钮,而非Cancel按钮 -level 指定运行 ...