TensorFlow XLA加速编译器

吴建明wujianming 2024-10-19 09:00:39 原文

TensorFlow XLA加速编译器

加速线性代数器（Accelerated linear algebra，XLA）是线性代数领域的专用编译器。根据 https://www.tensorflow.org/performance/xla/，它仍处于实验阶段，用于优化 TensorFlow 计算。

XLA 可以提高服务器和移动平台的执行速度、内存使用率和可移植性。提供了双向 JIT（Just In Time）编译或 AoT（Ahead of Time）编译。使用 XLA，可以生成平台相关的二进制文件（针对大量平台，如 x64、ARM等），可以针对内存和速度进行优化。

准备工作

目前，XLA 并不包含在 TensorFlow 的二进制版本中。用时需要从源代码构建它。

从源代码构建 TensorFlow，需要 TensorFlow 版的 LLVM 和 Bazel。TensorFlow.org 仅支持从 macOS 和 Ubuntu 的源代码构建。从源代码构建 TensorFlow 所需的步骤如下（参见https://www.tensorflow.org/install/install_sources）：

确定要安装哪个版本的 TensorFlow——仅支持 CPU 的 TensorFlow 或支持 GPU 的 TensorFlow。
复制 TensorFlow 存储库：
安装以下依赖：

Bazel
TensorFlow 的 Python 依赖项
对GPU版本，需要NVIDIA软件包以支持TensorFlow

配置安装。需要选择不同的选项，如 XLA、Cuda 支持、Verbs 等：

./configure

使用 bazel-build。
对于仅使用 CPU 的版本：
如果有兼容的 GPU 设备，并且需要 GPU 支持，请使用：
成功运行后，获得一个脚本：build_pip_package。按如下所示运行这个脚本来构建 whl 文件：
安装 pip 包：

现在你已经准备好了。

具体做法

TensorFlow 生成 TensorFlow 图表。在
XLA 的帮助下，可以在任何新类型的设备上运行 TensorFlow 图表。

JIT 编译：在会话级别中打开JIT编译：

这是手动打开 JIT 编译：
还可以通过将操作指定在特定的
XLA 设备（XLA_CPU 或 XLA_GPU）上，通过 XLA 来运行计算：

AoT编译：独立使用
tfcompile 将 TensorFlow 图转换为不同设备（手机）的可执行代码。

TensorFlow.org
中关于 tfcompile 的论述：tfcompile 采用一个由 TensorFlow 的 feed 和
fetch 概念所标识的子图，并生成一个实现该子图的函数。feed 是函数的输入参数，fetch 是函数的输出参数。所有的输入必须完全由 feed 指定；生成的剪枝子图不能包含占位符或变量节点。通常将所有占位符和变量指定值，这可确保生成的子图不再包含这些节点。生成的函数打包为一个 cc_library，带有导出函数签名的头文件和一个包含实现的对象文件。用户编写代码以适当地调用生成的函数。

TensorFlow XLA加速编译器的更多相关文章

用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割
用NVIDIA Tensor Cores和TensorFlow 2加速医学图像分割 Accelerating Medical Image Segmentation with NVIDIA Tensor ...
TensorFlow从0到1之XLA加速线性代数编译器（9）
加速线性代数器(Accelerated linear algebra,XLA)是线性代数领域的专用编译器.根据 https://www.tensorflow.org/performance/xla/, ...
ubuntu16.04下安装TensorFlow(GPU加速)----详细图文教程【转】
本文转载自:https://blog.csdn.net/zhaoyu106/article/details/52793183 le/details/52793183 写在前面一些废话接触深度学习已 ...
Tensorflow计算加速
在tensorflow里可以通过tf.device函数来指定每个运行的设备,可以是GPU也可以是CPU,比如CPU在tensorflow里的名称为/cpu:0,即便电脑里有多个CPU,tensorfl ...
TensorFlow API 汉化
TensorFlow API 汉化模块:tf 定义于tensorflow/__init__.py. 将所有公共TensorFlow接口引入此模块. 模块 app module:通用入口点脚本. ...
学习笔记TF067:TensorFlow Serving、Flod、计算加速，机器学习评测体系，公开数据集
TensorFlow Serving https://tensorflow.github.io/serving/ . 生产环境灵活.高性能机器学习模型服务系统.适合基于实际数据大规模运行,产生多个模型 ...
【转载】史上最全：TensorFlow 好玩的技术、应用和你不知道的黑科技
[导读]TensorFlow 在 2015 年年底一出现就受到了极大的关注,经过一年多的发展,已经成为了在机器学习.深度学习项目中最受欢迎的框架之一.自发布以来,TensorFlow 不断在完善并增加 ...
XLA
原 TensorFlow技术内幕(七):模型优化之XLA(上) 2018年06月13日 14:53:49 jony0917 阅读数 5513 版权声明:本文为博主原创文章,遵循CC 4.0 by- ...
端到端TVM编译器（下）
端到端TVM编译器(下) 4.3 Tensorization DL工作负载具有很高的运算强度,通常可以分解为张量运算符,如矩阵乘法或一维卷积.这些自然分解导致了最近的添加张量计算原语.这些新的原语带来 ...

随机推荐

chrom里面的performance 颜色
在network里面,在network里面,在network里面(重要事件说三遍) : 1. HTML 文件为蓝色. 2. 脚本为黄色. 3. 样式表为紫色. 4. 媒体文件为绿色. 5. 其他资源为 ...
windows内核开发环境的简易搭建
一.windows内核开发需要的软件 1.WDK 2.WinDbg 3.virtualKD 4.DebugView 5.Visual C++ 6.0 6.VMware Workstation 二.wi ...
markdown 实现代码折叠效果
展开:我是一个挑山工,仙人跳 #include int main() { printf("挑山工,快乐加倍"); } 展开:我是一个挑山工,仙人跳 #include int mai ...
SecureCRT 基本设置
1:字体与大小 Lucida Console 四号 2:声音关闭 Terminal-->Audio bell不勾选默认网络工程师常用: Terminal-->Emulation--& ...
ElasticSearch第三弹之存储原理
我们上文中介绍的ES内部索引的写处理流程是在ES的内存中执行的,而数据被分配到特定的主.副分片上之后,最终是存储到磁盘上的,这样在断电的时候就不会丢失数据.具体的存储路径可在配置文件 ../confi ...
巧用SQL拼接语句
前言: 在日常数据库运维过程中,可能经常会用到各种拼接语句,巧用拼接SQL可以让我们的工作方便很多,达到事半功倍的效果.本篇文章将会分享几个日常会用到的SQL拼接案例,类似的SQL还可以举一反三,探索 ...
ALPHA任务拆解
项目内容这个作业属于哪个课程 BUAA2020软件工程这个作业的要求在哪里作业要求我们在这个课程的目标是学会团队合作,共同开发一个完整的项目这个作业在哪个具体方面帮助我们实现目标团队任 ...
str.isdigit()可以判断变量是否为数字
字符串.isdigit()可以判断变量是否为数字是则输出True 不是则输出False 好像只能字符串
80行代码教你写一个Webpack插件并发布到npm
1. 前言最近在学习 Webpack 相关的原理,以前只知道 Webpack 的配置方法,但并不知道其内部流程,经过一轮的学习,感觉获益良多,为了巩固学习的内容,我决定尝试自己动手写一个插件. 这个 ...
[设计模式] 设计模式课程（十六）-- 备忘录模式（Memento）
概述也叫快照(SnapShot) 属于行为类设计模式允许在不暴露对象实现细节的情况下保存和恢复对象之前的状态软件构建过程中,某些对象的状态在转换过程中,可能由于某种需要,要求程序能回溯到对象之前 ...