TensorFlow从0到1之XLA加速线性代数编译器（9）

大码王 2024-11-10 12:03:32 原文

加速线性代数器（Accelerated linear algebra，XLA）是线性代数领域的专用编译器。根据 https://www.tensorflow.org/performance/xla/，它仍处于实验阶段，用于优化 TensorFlow 计算。

XLA 可以提高服务器和移动平台的执行速度、内存使用率和可移植性。它提供了双向 JIT（Just In Time）编译或 AoT（Ahead of Time）编译。使用 XLA，你可以生成平台相关的二进制文件（针对大量平台，如 x64、ARM等），可以针对内存和速度进行优化。

准备工作

目前，XLA 并不包含在 TensorFlow 的二进制版本中。用时需要从源代码构建它。

从源代码构建 TensorFlow，需要 TensorFlow 版的 LLVM 和 Bazel。TensorFlow.org 仅支持从 macOS 和 Ubuntu 的源代码构建。从源代码构建 TensorFlow 所需的步骤如下（参见https://www.tensorflow.org/install/install_sources）：

确定要安装哪个版本的 TensorFlow——仅支持 CPU 的 TensorFlow 或支持 GPU 的 TensorFlow。
复制 TensorFlow 存储库：
安装以下依赖：
- Bazel
- TensorFlow 的 Python 依赖项
- 对GPU版本，需要NVIDIA软件包以支持TensorFlow
配置安装。在这一步中，需要选择不同的选项，如 XLA、Cuda 支持、Verbs 等：
./configure
使用 bazel-build。
对于仅使用 CPU 的版本：
如果有兼容的 GPU 设备，并且需要 GPU 支持，请使用：
成功运行后，将获得一个脚本：build_pip_package。按如下所示运行这个脚本来构建 whl 文件：
安装 pip 包：

现在你已经准备好了。

具体做法

TensorFlow 生成 TensorFlow 图表。在 XLA 的帮助下，可以在任何新类型的设备上运行 TensorFlow 图表。

JIT 编译：在会话级别中打开JIT编译：
这是手动打开 JIT 编译：
还可以通过将操作指定在特定的 XLA 设备（XLA_CPU 或 XLA_GPU）上，通过 XLA 来运行计算：

AoT编译：独立使用 tfcompile 将 TensorFlow 图转换为不同设备（手机）的可执行代码。

TensorFlow.org 中关于 tfcompile 的论述：tfcompile 采用一个由 TensorFlow 的 feed 和 fetch 概念所标识的子图，并生成一个实现该子图的函数。feed 是函数的输入参数，fetch 是函数的输出参数。所有的输入必须完全由 feed 指定；生成的剪枝子图不能包含占位符或变量节点。通常将所有占位符和变量指定值，这可确保生成的子图不再包含这些节点。生成的函数打包为一个 cc_library，带有导出函数签名的头文件和一个包含实现的对象文件。用户编写代码以适当地调用生成的函数。

TensorFlow从0到1之XLA加速线性代数编译器（9）的更多相关文章

三分钟快速上手TensorFlow 2.0 （下）——模型的部署、大规模训练、加速
前文:三分钟快速上手TensorFlow 2.0 (中)——常用模块和模型的部署 TensorFlow 模型导出使用 SavedModel 完整导出模型不仅包含参数的权值,还包含计算的流程(即计算 ...
TensorFlow XLA加速编译器
TensorFlow XLA加速编译器加速线性代数器(Accelerated linear algebra,XLA)是线性代数领域的专用编译器.根据 https://www.tensorflow.o ...
tensorflow 源码编译tensorflow 1.1.0到 tensorflow 2.0，ver:1.1.0rc1、1.4.0rc1、1.14.0-rc1、2.0.0b1
目录 tensorflow-build table 更多详细过程信息及下载: tensorflow-build tensorflow 源码编译,提升硬件加速,支持cpu加速指令,suport SSE4 ...
三分钟快速上手TensorFlow 2.0 （后续）——扩展和附录
TensorFlow Hub 模型复用 TF Hub 网站打开主页 https://tfhub.dev/ ,在左侧有 Text.Image.Video 和 Publishers 等选项,可以选取关注 ...
三分钟快速上手TensorFlow 2.0 （中）——常用模块和模型的部署
本文学习笔记参照来源:https://tf.wiki/zh/basic/basic.html 前文:三分钟快速上手TensorFlow 2.0 (上)——前置基础.模型建立与可视化 tf.train. ...
Tensorflow 2.0 深度学习实战 —— 详细介绍损失函数、优化器、激活函数、多层感知机的实现原理
前言 AI 人工智能包含了机器学习与深度学习,在前几篇文章曾经介绍过机器学习的基础知识,包括了监督学习和无监督学习,有兴趣的朋友可以阅读< Python 机器学习实战 >.而深度学习开始只 ...
TensorFlow 2.0 Alpha pip安装指令
TensorFlow 2.0 Alpha目前已经可以通过pip安装,亲测有效,安装指令为: # 普通版本 pip install tensorflow==2.0.0-alpha0 # GPU版本 pi ...
tensorflow 1.0 学习：用CNN进行图像分类
tensorflow升级到1.0之后,增加了一些高级模块: 如tf.layers, tf.metrics, 和tf.losses,使得代码稍微有些简化. 任务:花卉分类版本:tensorflow 1 ...
『TensorFlow』0.x_&_1.x版本框架改动汇总
基本数值运算除法和模运算符(/,//,%)现在匹配 Python(flooring)语义.这也适用于 [tf.div] 和 [tf.mod].要获取基于强制整数截断的行为,可以使用 [tf.trun ...

随机推荐

poj2125最小点权覆盖+找一个割集
Destroying The Graph Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 8503 Accepted: 2 ...
【Redis】Hash常见应用场景 - 电商购物车
电商购物车以用户id为key 商品id为field 商品数量为value 购物车操作 [key(用户id),field(商品id),value(数量)] 添加商品 -> hset cart: ...
centos 删除文件提示 Operation not permitted
如果文件上存在 i 标记,那肯定是删不掉的,同样这个文件也不能被编辑.可以进入 root 模式,去除这个标记: root@ubuntu:/home/barret/work# chattr -i 1.m ...
C#日志记录类
public class WriteLog { /// <summary> /// 将错误写入文件中 /// </summary> /// <param name=&qu ...
面试中很值得聊的二叉树遍历方法——Morris遍历
Morri遍历通过利用空闲指针的方式,来节省空间.时间复杂度O(N),额外空间复杂度O(1).普通的非递归和递归方法的额外空间和树的高度有关,递归的过程涉及到系统压栈,非递归需要自己申请栈空间,都具 ...
G1 垃圾回收器简单调优
G1: Garbage First 低延迟.服务侧分代垃圾回收器. 详细介绍参见:JVM之G1收集器,这里不再赘述. 关于调优目标:延迟.吞吐量一.延迟,单次的延迟单次的延迟关系到服务的响应时延, ...
Java中方法的重载与重写
1.方法的名字和参数列表称为方法的签名:每个方法具有唯一与其对应的签名: 2.方法的重载:在某个类中,存在具有多个相同名字不同参数列表的方法,称之为重载: 被重载的方法必须改变参数列表(参数个数或类型 ...
windows核心编程课程实践---多线程文件搜索器（MFC界面）
课上完了连老师见都没见一面QAQ....记录一下该小项目效果如下: 1.实现文件搜索功能,并封装为类 1)首先是文件搜索类Rapidfinder的构造函数和析构函数和文件信息初始化函数和文件路径规格 ...
循序渐进VUE+Element 前端应用开发(6）--- 常规Element 界面组件的使用
在我们开发BS页面的时候,往往需要了解常规界面组件的使用,小到最普通的单文本输入框.多文本框.下拉列表,以及按钮.图片展示.弹出对话框.表单处理.条码二维码等等,本篇随笔基于普通表格业务的展示录入的场 ...
Rocket - debug - Example: Quick Access
https://mp.weixin.qq.com/s/SxmX-CY2tqvEqZuAg-EXiQ 介绍riscv-debug的使用实例:配置Quick Access功能. 1. Quick Acce ...