TensorFlow 模型优化工具包 — 训练后整型量化

模型优化工具包是一套先进的技术工具包，可协助新手和高级开发者优化待部署和执行的机器学习模型。自推出该工具包以来，我们一直努力降低机器学习模型量化的复杂性

(https://www.tensorflow.org/lite/performance/post_training_quantization)。

最初，我们通过“混合运算”为训练后量化提供支持，该方法可量化模型参数（例如权重），但以浮点方式执行部分计算。今天，我们很高兴宣布推出一款新工具：训练后整型量化。整型量化是一种通用技术，可降低模型权重和激活函数的数值精度，从而减少内存并缩短延迟时间。

优化模型以缩减尺寸、延时和功耗，使准确率损失不明显

为何应使用训练后整型量化

我们之前发布的“混合”训练后量化方法可在许多情况下减少模型大小和延迟时间，但却必须进行浮点计算，这可能不适用于所有硬件加速器（如 Edge TPU， https://cloud.google.com/edge-tpu/），而只适用于 CPU。

注：“混合”训练后量化链接

https://www.tensorflow.org/lite/performance/post_training_quantization

我们已推出全新的训练后整型量化方法，可让用户使用已经过训练的浮点模型，并对其进行充分量化，仅使用 8 位带符号整数（即“int8”）。凭借这一量化方案，我们可以在许多模型中获得合理的量化模型准确率，而不必重新训练依靠量化感知 (quantization-aware) 训练的模型。借助这一新工具，模型大小将缩小为原来的 1/4，却能得到更大的 CPU 速度提升。此外，Edge TPU 等固定点硬件 (fixed point hardware) 加速器也将能运行这些模型。

与量化感知训练相比，此工具更易于使用，并可在大多数模型中实现出色的准确率。目前可能仍存在需要进行量化感知训练的用例，但我们希望随着训练后工具的不断改进，这种情况会越来越少。

注：量化感知训练链接https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/quantize

总之，如果用户希望减少 CPU 大小和延迟时间，即应使用“混合”训练后量化工具。如果旨在大幅改进 CPU 或兼容固定点加速器，则应使用此训练后整型量化工具；若会影响模型准确率，则可能还需使用量化感知训练。

如何启用训练后整型量化

我们的整型量化工具需要使用一个小型代表性数据校正集。只需为转换器提供 representative_dataset 生成器，优化参数便会对输入模型执行整型量化。

 1def representative_dataset_gen(): 2  data = tfds.load(...) 3 4  for _ in range(num_calibration_steps): 5    image, = data.take(1) 6    yield [image] 7 8converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir) 9converter.optimizations = [tf.lite.Optimize.DEFAULT]10converter.representative_dataset = tf.lite.RepresentativeDataset(11    representative_dataset_gen)def representative_dataset_gen():

 2  data = tfds.load(...)

 3

 4  for _ in range(num_calibration_steps):

 5    image, = data.take(1)

 6    yield [image]

 7

 8converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)

 9converter.optimizations = [tf.lite.Optimize.DEFAULT]

10converter.representative_dataset = tf.lite.RepresentativeDataset(

11    representative_dataset_gen)

模型是否经过完全量化？

与现有的训练后量化功能类似，默认情况下，未进行量化操作的算子将自动以浮点方式执行。这样可使转换过程顺利进行，并会生成始终在常规移动 CPU 上执行的模型，鉴于 TensorFlow Lite 将在只使用整型的加速器中执行整型运算，并在执行浮点运算时回退到 CPU。若要在完全不支持浮点运算的专用硬件（如某些机器学习加速器，包括 Edge TPU）上完整执行运算，您可以指定标记以仅输出整型运算：

1converter.target_ops = [tf.lite.OpSet.TFLITE_BUILTINS_INT8]converter.target_ops = [tf.lite.OpSet.TFLITE_BUILTINS_INT8]

当使用此标记且运算没有可量化的整型对应项时，TensorFlow Lite 转换器将报错。

模型仅需少量数据

实验中发现，使用数十个可表明模型在执行期间所见内容的代表性示例，足以获得最佳准确率。例如，我们仅使用 ImageNet 数据集中的 100 张图像对模型进行校准后，即得出了以下准确率。

结果

延时

与浮点模型相比，量化模型在 CPU 上的运行速度提升了2到4倍，模型压缩提升4倍。我们还希望通过硬件加速器（如 Edge TPU）进一步提速。

准确率

仅使用 ImageNet 数据集中的 100 张校准图像，完全量化的整型模型便获得了与浮点模型相当的准确率（MobileNet v1 损失了 1% 的准确率）。

整型模型的工作原理

记录动态范围

以上新工具的工作原理是：记录动态范围，在浮点 TensorFlow Lite 模型上运行多个推理，并将用户提供的代表性数据集用作输入。我们会使用所记录的推理值，以确定在整型算法中执行模型全部张量所需的缩放比例参数。

Int8 量化方案

需要注意的是，我们的全新量化规范已实现这一训练后用例，且该用例可针对某些运算使用每轴量化。在我们新增每轴量化之前，由于准确率下降，训练后整型量化并不实用；但每轴量化却具有准确率优势，能够为许多模型实现更接近于浮动模型的准确率。

8 位量化使用以下公式得出的值近似于浮点值：

real_value = (sint8_value — zero_point) * scale.

每轴（也称为“每通道”）或每层权重以 int8 二进制补码表示，数值范围为 [-127, 127]，零点时则等于 0。

每层激活函数/输入以 int8 二进制补码表示，数值范围为 [-128, 127]，零点范围为 [-128, 127]。如需了解更多详情，请参阅完整量化规范(https://www.tensorflow.org/lite/performance/quantization_spec)。

量化感知训练方面有何打算？

我们希望尽可能简化量化方法。因此，我们很期待能够通过某种方法在训练后实现模型的量化！但是，我们也明白，某些模型在通过量化进行训练时已经拥有最佳质量。所以，我们也在致力开发量化感知训练 API。同时，我们也鼓励您尝试使用训练后量化法，因为它也许能满足模型的所有需求！

文档和教程

您可以在 TensorFlow 网站上找到关于训练后整型量化、新量化规范以及训练后整型量化教程的详细信息。我们非常乐于了解您对此工具的使用情况 — 欢迎您分享自己的案例！

训练后整型量化

(https://www.tensorflow.org/model_optimization/guide/quantization)
新量化规范

(https://www.tensorflow.org/lite/performance/quantization_spec)
训练后整型量化教程

(https://github.com/tensorflow/tensorflow/blob/master/tensorflow/lite/tutorials/post_training_integer_quant.ipynb)
案例分享

(https://services.google.com/fb/forms/tensorflowcasestudy/)

致谢

感谢 TensorFlow 模型优化团队： Suharsh Sivakumar、Jian Li、Shashi Shekhar、Yunlu Li、Alan Chiao、Raziel Alvarez、Lawrence Chan、Daniel Situnayake、Tim Davis、Sarah Sirajuddin

Reviewed by：linsong

欢迎关注磐创博客资源汇总站：

http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站：

http://pytorch.panchuang.net/

TensorFlow 模型优化工具包 — 训练后整型量化的更多相关文章

用C++调用tensorflow在python下训练好的模型(centos7)
本文主要参考博客https://blog.csdn.net/luoyexuge/article/details/80399265 [1] bazel安装参考:https://blog.csdn.net ...
[翻译] Tensorflow模型的保存与恢复
翻译自:http://cv-tricks.com/tensorflow-tutorial/save-restore-tensorflow-models-quick-complete-tutorial/ ...
tflearn 中文汉字识别，训练后模型存为pb给TensorFlow使用——模型层次太深，或者太复杂训练时候都不会收敛
tflearn 中文汉字识别,训练后模型存为pb给TensorFlow使用. 数据目录在data,data下放了汉字识别图片: data$ ls0 1 10 11 12 13 14 15 ...
使用GPU训练TensorFlow模型
查看GPU-ID CMD输入: nvidia-smi 观察到存在序号为0的GPU ID 观察到存在序号为0.1.2.3的GPU ID 在终端运行代码时指定GPU 如果电脑有多个GPU,Tensorfl ...
搭建 MobileNet-SSD 开发环境并使用 VOC 数据集训练 TensorFlow 模型
原文地址:搭建 MobileNet-SSD 开发环境并使用 VOC 数据集训练 TensorFlow 模型 0x00 环境 OS: Ubuntu 1810 x64 Anaconda: 4.6.12 P ...
编译器是如何实现32位整型的常量整数除法优化的？[C/C++]
引子在我之前的一篇文章[ ThoughtWorks代码挑战——FizzBuzzWhizz游戏通用高速版(C/C++ & C#) ]里曾经提到过编译器在处理除数为常数的除法时,是有优化的,今 ...
使用TensorFlow Serving优化TensorFlow模型
使用TensorFlow Serving优化TensorFlow模型 https://www.tensorflowers.cn/t/7464 https://mp.weixin.qq.com/s/qO ...
整型转字符串(convert int to char)优化实践——一个意外的BUG
convert_int_to_char函数在使用时出现过一个BUG. 当使用值是13200020099时,返回的字符串是"13200020111",结果是错误的. 在gcc编译器里 ...
移动端目标识别(1)——使用TensorFlow Lite将tensorflow模型部署到移动端(ssd)之TensorFlow Lite简介
平时工作就是做深度学习,但是深度学习没有落地就是比较虚,目前在移动端或嵌入式端应用的比较实际,也了解到目前主要有 caffe2,腾讯ncnn,tensorflow,因为工作用tensorflow比较多 ...

随机推荐

APPium+Python+iOS屏幕滑动方法对比
最近在学习appium自动化,对iOS手机进行滑动操作进行总结: 1.mobile:scroll;该方法在实际使用调用时,会滚动2次.执行时间很长. 向下滚动整个屏幕driver.execute_sc ...
Mysql或者SQL Server数据库的运行机制和体系架构
一.MySQL主要分为以下几个组件: 连接池组件管理服务和工具组件 SQL接口组件分析器组件优化器组件缓冲组件插件式存储引擎物理文件二.MySql的组成:Mysql是由SQL接口,解析器 ...
PHP网络爬虫实践：抓取百度搜索结果，并分析数据结构
百度的搜索引擎有反爬虫机制,我先直接用guzzle试试水.代码如下: <?php /** * Created by Benjiemin * Date: 2020/3/5 * Time: 14:5 ...
SpringBoot 全局异常处理 @RestControllerAdvice +@ExceptionHandler 请求参数校验
ControllerAdvice 指示带注释的类辅助“控制器”. 作为的特殊化@Component,允许通过类路径扫描自动检测实现类. 通常用于定义@ExceptionHandler, @InitBi ...
常用css3选择器
<div class="wrapper"> <p class="test1">1</p> <p class=" ...
微信小程序开发，如何优雅地兼容
小程序的功能不断的增加,但是旧版本的微信客户端并不支持新功能,所以在使用这些新能力的时候需要做兼容. 关于单个 API 如何兼容,微信官方提供了兼容文档,因此我们这里不再赘述.下面主要讨论在整个项目如 ...
vue+element tree(树形控件)组件(2)
今天记录组件的代码和一个调用它的父组件的代码,接口接收数据直接传element直接能用的,也就是经过上一章函数处理过的数据以下是代码父组件 <template> <commonfi ...
[LeetCode] 207. Course Schedule 课程表
题目: 分析: 这是一道典型的拓扑排序问题.那么何为拓扑排序? 拓扑排序: 有三件事情A,B,C要完成,A随时可以完成,但B和C只有A完成之后才可完成,那么拓扑排序可以为A>B>C或A&g ...
【一统江湖的大前端（8）】matter.js 经典物理
目录 [一统江湖的大前端(8)]matter.js 经典物理一.经典力学回顾二. 仿真的实现原理 2.1 基本动力学模拟 2.2 碰撞模拟三. 物理引擎matter.js 3.1 <愤怒的 ...
Distance function for sqlite
Distance function for sqlite Posted on October 25, 2008 by Dave As part of an iPhone SDK project, I ...

TensorFlow 模型优化工具包 — 训练后整型量化

TensorFlow 模型优化工具包 — 训练后整型量化的更多相关文章

随机推荐

热门专题