转载:https://www.cnblogs.com/wanger-sjtu/p/15063948.html

为实现多种语言支持,需要满足以下几点:

  • 部署:编译结果可以从python/javascript/c++调用。
  • Debug: 在python中定义一个函数,在编译函数中调用。
  • 链接:编写驱动程序以调用设备特定代码(如CUDA),可以在编译的host侧调用
  • 原型:python侧定义IR PASS,并从C++后端调用该代码‎
  • 接口暴露:c++后端代码暴露到python侧
  • 实验:将编译的函数运送到嵌入式设备,可以直接在嵌入式设备上运行

tvm希望在任何一个语言中定义的函数,可以在其他的语言中都可以调用。同样希望runtime尽可能的轻量化,以方便在嵌入式设备上部署。

PackedFunc

PackedFunc是解决上述问题的一个优雅的方案。一个PackedFunc对象对应着一个函数调用,即使定义与调用分散在不同语言之间也可以满足。下面展示一个C++的例子。

#include <tvm/runtime/packed_func.h>

void MyAdd(TVMArgs args, TVMRetValue* rv) {
// automatically convert arguments to desired type.
int a = args[0];
int b = args[1];
// automatically assign value return to rv
*rv = a + b;
} void CallPacked() {
PackedFunc myadd = PackedFunc(MyAdd);
// get back 3
int c = myadd(1, 2);
}

上面的例子中,定义了一个MyAddPackedFunc,接受两个参数,args表示输入参数, rv表示返回值。这个参数是类型无关的(type-erased),这意味着函数签名中对输入输出参数的类型没有限制。这样,当调用这个函数的时候, 从栈上获取输入参数(TVMArgs),通过TVMRetValue返回函数返回值

通过C++的模板技巧,可以像正常函数一样调用PackedFunc。由于类型无关的特性,可以在像python这样的动态类型的语言中调用PackedFunc,而无需插入额外其他的胶水代码。下面展示了PackedFunc 的注册及其在python端的调用。

// register a global packed function in c++
TVM_REGISTER_GLOBAL("myadd")
.set_body(MyAdd);
import tvm

myadd = tvm.get_global_func("myadd")
# prints 3
print(myadd(1, 2))

多数的PackedFunc技巧依赖于TVMArgsTVMRetValue,我们限制其中的参数类型,下面是主要用的类型:

  • int, float and string
  • PackedFunc itself
  • Module for compiled modules
  • DLTensor* for tensor object exchange
  • TVM Object to represent any object in IR

    这个限制,使得实现及其简单而且无需序列化操作。虽然增加了限制,但对于DL开发来说,大多数场景下仅仅需要传递DLTensor和数字就够了。

既然PackedFunc可以将另外的PackedFunc作为函数参数,那就可以在python与c++之间传递函数。

TVM_REGISTER_GLOBAL("callhello")
.set_body([](TVMArgs args, TVMRetValue* rv) {
PackedFunc f = args[0];
f("hello world");
});
import tvm

def callback(msg):
print(msg) # convert to PackedFunc
f = tvm.convert(callback)
callhello = tvm.get_global_func("callhello")
# prints hello world
callhello(f)

TVM 提供了极简的C API,使得将PackedFunc可以方便地嵌入到其他的语言中。除python外,还支持java、JavaScript。

PackFunction不仅用于tvm编译器中,同样也用于开发的技术栈中。在tvm中所有的PASS函数都通过PackedFunc暴露给前端的。编译结果同样是通过PackedFunc打包的。

为了保证runtime尽可能的小,runtime中隔离了IR对象的支持。这使得runtime大小只有200~600k,具体的大小取决于平台驱动部分。

PackedFunc带来的调用开销很小,仅仅是通过栈传递了一些参数对象,只要不通过它包装较小的函数,就是OK的。总之,PackedFunc是tvm中通用的胶水代码,支持了tvm的编译部署。

额外的部分:

c++ 注册,python调用

上文中介绍注册时,使用到了一个C++宏TVM_REGISTER_GLOBAL,这里介绍中间是如何链接起来的。

TVM_REGISTER_GLOBAL("callhello")
.set_body([](TVMArgs args, TVMRetValue* rv) {
PackedFunc f = args[0];
f("hello world");
}); //展开就是
TVM_STR_CONCAT(TVM_FUNC_REG_VAR_DEF, __COUNTER__) = ::tvm::runtime::Registry::Register("callhello").set_body([](TVMArgs args, TVMRetValue* rv) {
PackedFunc f = args[0];
f("hello world");
});

这里的::tvm::runtime::Registry::Register

Registry& Registry::Register(const std::string& name, bool can_override) {  // NOLINT(*)
Manager* m = Manager::Global();//这是个静态对象,Manager持有一个map来记录注册对象
std::lock_guard<std::mutex> lock(m->mutex);
if (m->fmap.count(name)) {
ICHECK(can_override) << "Global PackedFunc " << name << " is already registered";
} Registry* r = new Registry();
r->name_ = name;
m->fmap[name] = r;
return *r;
}

下面看下Registry的实现。

/*! \brief Registry for global function */
class Registry {
public:
//设置函数体
TVM_DLL Registry& set_body(PackedFunc f); // NOLINT(*)
Registry& set_body(PackedFunc::FType f) { // NOLINT(*)
return set_body(PackedFunc(f));
} //给一个任意函数,萃取函数签名
template <typename FLambda>
Registry& set_body_typed(FLambda f) {
using FType = typename detail::function_signature<FLambda>::FType;
return set_body(TypedPackedFunc<FType>(std::move(f), name_).packed());
}
//给一个类成员函数、返回值、参数,使用lambda包装
template <typename T, typename R, typename... Args>
Registry& set_body_method(R (T::*f)(Args...)) {
auto fwrap = [f](T target, Args... params) -> R {
// call method pointer
return (target.*f)(params...);
};
return set_body(TypedPackedFunc<R(T, Args...)>(fwrap, name_));
} template <typename T, typename R, typename... Args>
Registry& set_body_method(R (T::*f)(Args...) const) {
auto fwrap = [f](const T target, Args... params) -> R {
// call method pointer
return (target.*f)(params...);
};
return set_body(TypedPackedFunc<R(const T, Args...)>(fwrap, name_));
}
//
template <typename TObjectRef, typename TNode, typename R, typename... Args,
typename = typename std::enable_if<std::is_base_of<ObjectRef, TObjectRef>::value>::type>
Registry& set_body_method(R (TNode::*f)(Args...)) {
auto fwrap = [f](TObjectRef ref, Args... params) {
TNode* target = ref.operator->();
// call method pointer
return (target->*f)(params...);
};
return set_body(TypedPackedFunc<R(TObjectRef, Args...)>(fwrap, name_));
} template <typename TObjectRef, typename TNode, typename R, typename... Args,
typename = typename std::enable_if<std::is_base_of<ObjectRef, TObjectRef>::value>::type>
Registry& set_body_method(R (TNode::*f)(Args...) const) {
auto fwrap = [f](TObjectRef ref, Args... params) {
const TNode* target = ref.operator->();
// call method pointer
return (target->*f)(params...);
};
return set_body(TypedPackedFunc<R(TObjectRef, Args...)>(fwrap, name_));
} TVM_DLL static Registry& Register(const std::string& name, bool override = false); // NOLINT(*) TVM_DLL static bool Remove(const std::string& name); TVM_DLL static const PackedFunc* Get(const std::string& name);
TVM_DLL static std::vector<std::string> ListNames(); struct Manager; protected:
std::string name_;
PackedFunc func_;
friend struct Manager;
};

上面注册以后是在一个全局对象中,下一部就看python侧如何调用的。

python端最终会调用到 _get_global_func函数,具体实现如下。

def _get_global_func(name, allow_missing=False):
handle = PackedFuncHandle()
check_call(_LIB.TVMFuncGetGlobal(c_str(name), ctypes.byref(handle))) if handle.value:
return _make_packed_func(handle, False) if allow_missing:
return None raise ValueError("Cannot find global function %s" % name)

进而会调用到TVMFuncGetGlobal

int TVMFuncGetGlobal(const char* name, TVMFunctionHandle* out) {
API_BEGIN();
const tvm::runtime::PackedFunc* fp = tvm::runtime::Registry::Get(name);
if (fp != nullptr) {
*out = new tvm::runtime::PackedFunc(*fp); // NOLINT(*)
} else {
*out = nullptr;
}
API_END();
}

这里既可以发现tvm::runtime::Registry::Get(name)来查找相关注册函数的。

python注册,c++ 调用

如下面的函数,通过装饰器注册。

@tvm._ffi.register_func("relay.backend.lower_call")

在c++中调用

static auto flower_call = tvm::runtime::Registry::Get("relay.backend.lower_call");

下面介绍以下python的注册。

def register_func(func_name, f=None, override=False):
if callable(func_name):
f = func_name
func_name = f.__name__ if not isinstance(func_name, str):
raise ValueError("expect string function name") ioverride = ctypes.c_int(override) def register(myf):
"""internal register function"""
if not isinstance(myf, PackedFuncBase):
myf = convert_to_tvm_func(myf) #转化为packfunc
#注册
check_call(_LIB.TVMFuncRegisterGlobal(c_str(func_name), myf.handle, ioverride))
return myf if f:
return register(f)
return register
def convert_to_tvm_func(pyfunc):
local_pyfunc = pyfunc def cfun(args, type_codes, num_args, ret, _):
""" ctypes function """
num_args = num_args.value if isinstance(num_args, ctypes.c_int) else num_args
pyargs = (C_TO_PY_ARG_SWITCH[type_codes[i]](args[i]) for i in range(num_args))
# pylint: disable=broad-except
try:
rv = local_pyfunc(*pyargs)
except Exception:
msg = traceback.format_exc()
msg = py2cerror(msg)
_LIB.TVMAPISetLastError(c_str(msg))
return -1 if rv is not None:
if isinstance(rv, tuple):
raise ValueError("PackedFunction can only support one return value")
temp_args = []
values, tcodes, _ = _make_tvm_args((rv,), temp_args)
if not isinstance(ret, TVMRetValueHandle):
ret = TVMRetValueHandle(ret)
if _LIB.TVMCFuncSetReturn(ret, values, tcodes, ctypes.c_int(1)) != 0:
raise get_last_ffi_error()
_ = temp_args
_ = rv
return 0 handle = PackedFuncHandle()
f = TVMPackedCFunc(cfun)
# NOTE: We will need to use python-api to increase ref count of the f
# TVM_FREE_PYOBJ will be called after it is no longer needed.
pyobj = ctypes.py_object(f)
ctypes.pythonapi.Py_IncRef(pyobj)
if _LIB.TVMFuncCreateFromCFunc(f, pyobj, TVM_FREE_PYOBJ, ctypes.byref(handle)) != 0:
raise get_last_ffi_error()
return _make_packed_func(handle, False)
int TVMFuncRegisterGlobal(const char* name, TVMFunctionHandle f, int override) {
API_BEGIN();
tvm::runtime::Registry::Register(name, override != 0)
.set_body(*static_cast<tvm::runtime::PackedFunc*>(f));
API_END();
}

TVM:PACKFUNC机制的更多相关文章

  1. 【翻译】借助 NeoCPU 在 CPU 上进行 CNN 模型推理优化

    本文翻译自 Yizhi Liu, Yao Wang, Ruofei Yu.. 的  "Optimizing CNN Model Inference on CPUs" 原文链接: h ...

  2. Windows消息机制(转)1

    Windows的应用程序一般包含窗口(Window),它主要为用户提供一种可视化的交互方式,窗口是总是在某个线程(Thread)内创建的.Windows系统通过消息机制来管理交互,消息(Message ...

  3. TVM:

    Hello TVM  发表于 2019-06-29 TVM 是什么?A compiler stack,graph level / operator level optimization,目的是(不同框 ...

  4. TVM设备添加以及代码生成

    因为要添加的设备是一种类似于GPU的加速卡,TVM中提供了对GPU编译器的各种支持,有openCl,OpenGL和CUDA等,这里我们选取比较熟悉的CUDA进行模仿生成.从总体上来看,TVM是一个多层 ...

  5. 使用Apache TVM将机器学习编译为WASM和WebGPU

    使用Apache TVM将机器学习编译为WASM和WebGPU TLDR 在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持.实验表明,在将模型部署到Web时,TVM的WebG ...

  6. TVM如何训练TinyML

    TVM如何训练TinyML 机器学习研究人员和从业人员对"裸机"(低功耗,通常没有操作系统)设备产生了广泛的兴趣.尽管专家已经有可能在某些裸机设备上运行某些模型,但是为各种设备优化 ...

  7. 桥接PyTorch和TVM

    桥接PyTorch和TVM 人工智能最引人入胜的一些应用是自然语言处理.像BERT或GPT-2之类的模型及其变体,可以获住足够多的文本信息. 这些模型属于称为Transformers的神经网络类体系结 ...

  8. TVM优化GPU机器翻译

    TVM优化GPU机器翻译 背景 神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力.最近,阿里巴巴集团正在为全球电子商务部署NMT服务. 将Transform ...

  9. TVM 优化 ARM GPU 上的移动深度学习

    TVM 优化 ARM GPU 上的移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长.与桌面平台上所做的类似,在移动设备中使用 GPU 既有利于推理速度,也有利于能源 ...

  10. TVM 高效保护隐私 ML

    TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速.关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻 ...

随机推荐

  1. 《基于NLP内容理解》出书

    <基于NLP内容理解>出书初心: 1)情怀&梦想:记得自己高中的时候每次冲进我们县城的书店,都能看到书店中央摆放着白岩松老师的一本自传,当时的那种崇拜一直萦绕在自己的心里,想着自己 ...

  2. 火爆的 幻兽帕鲁/Palworld 单机➕联机 电脑游戏 免费畅游

    在广阔的世界中收集神奇的生物"帕鲁",派他们进行战斗.建造.做农活,工业生产等,这是一款支持多人游戏模式的全新开放世界生存制作游戏. ▼补丁主要内容 ・修复加载世界数据时,加载画面 ...

  3. maven - [02] settings.xml配置

    maven处理配置的优先级顺序 (1)全局settings.xml(优先级★☆☆☆☆) 位于Maven安装目录的conf/settings.xml,提供系统级的默认配置,比如本地仓库位置.远程仓库列表 ...

  4. Kali Linux(202104)重置root账户密码

    1.前言 如果忘记了Kali Linux系统的登录密码,最关键的需求就是重置root用户的登录密码, 之后使用root账户可以修改其他账户的密码. 因此, 本文就介绍一下在不知道root用户登录密码的 ...

  5. Python 潮流周刊#91:Python 在浏览器中的未来(摘要)

    本周刊由 Python猫 出品,精心筛选国内外的 250+ 信息源,为你挑选最值得分享的文章.教程.开源项目.软件工具.播客和视频.热门话题等内容.愿景:帮助所有读者精进 Python 技术,并增长职 ...

  6. Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露

    一:背景 1. 讲故事 前面跟大家分享过一篇 C# 调用 C代码引发非托管内存泄露 的文章,这是一个故意引发的正向泄露,这一篇我们从逆向的角度去洞察引发泄露的祸根代码,这东西如果在 windows 上 ...

  7. AI 智能体引爆开源社区「GitHub 热点速览」

    最近很火的 Manus 智能体是一款将你的想法转化为行动的工具,能够处理生活中的各种任务.一经发布便迅速走红,并间接引爆了开源社区. 这也导致上榜的全是 AI 智能体开源项目,比如无需邀请码的开源版 ...

  8. https证书中的subject alternative name字段作用及如何生成含该字段的证书

    背景 最近,某个运维同事找到我,说测试环境的某个域名(他也在负责维护),假设域名为test.baidu.com,以前呢,证书都是用的生产的证书,最近不让用了.问为啥呢,说不安全,现在在整改了,因为证书 ...

  9. ajax 多次请求相同链接 相同参数,缓存问题

    经常会发现,ajax 多次调用同一个接口时(get),参数不变. 为了提升性能,浏览器就不会和服务器进行交互,获取到的数据 就不会发生变化 解决方案:添加随机参数.或者时间戳 类似在接口后面 添加 D ...

  10. 【Java】基本语法

    一.语言概述 整体语言概述 (一)Java语言概述 1.基础常识 软件:即一系列按照特定顺序组织的计算机数据和指令的集合.分为:系统软件 和 应用软件 系统软件:windows , mac os , ...