NVIDIA TensorRT 让您的人工智能更快!

英伟达TensorRT™是一种高性能深度学习推理优化器和运行时提供低延迟和高通量的深度学习推理的应用程序。使用TensorRT,您可以优化神经网络模型,精确地校准低精度,并最终将模型部署到超大规模的数据中心、嵌入式或汽车产品平台。在对所有主要框架进行培训的模型的推理过程中,基于TensorRT的gpu应用程序的执行速度比CPU快100倍。

TensorRT提供INT8和FP16的优化,用于深度学习推理应用程序的生产部署,如视频流、语音识别、推送和自然语言处理。减少推断精度可以大大降低了应用程序的延迟,这是许多实时服务以及自动和嵌入式应用程序的需求。

您可以从每一个深度学习框架中导入经过训练的模型到TensorRT。在应用优化后,TensorRT选择了平台特定的内核,并在数据中心、Jetson嵌入式平台和NVIDIA驱动自动驾驶平台上实现Tesla GPU的性能最大化。

使用TensorRT开发人员可以专注于创建新的基于ai的应用程序,而不是用于推理部署的性能调优。

TensorRT下载地址:https://www.boshenyl.cn.nvidia.com/nvidia-tensorrt-download 
TesnsoRT的介绍文档:https://www.365soke.cn .nvidia.com/tensorrt-3-faster-tensorflow-inference/ 
TensorRT的开发者指南:http://www.wanmeiyuele.cn /deeplearning/sdk/tensorrt-developer-guide/index.html 
TensorRT的样例代码:http://www.taohuayuan178.com/  /deeplearning/sdk/tensorrt-developer-guide/index.html#samples

TensorRT的优化: 

• 权重和激活精度校准 
将模型量化到INT8,同时保持准确性,从而最大化吞吐量 
• 层和张量的融合 
通过在内核中融合节点来优化GPU内存和带宽的使用 
• 内核自动调整 
基于目标GPU平台选择最佳数据层和算法 
• 动态张量内存 
最大限度地减少内存占用并有效地重新使用内存来提高张量使用效率 
• Multi-Stream执行 
可扩展的设计可并行处理多个输入流

框架集成: 

NVIDIA与深度学习框架的开发人员紧密合作,通过TensorRT实现对AI平台的优化性能。如果您的训练模型是ONNX格式或其他流行的框架,如TensorFlow和MATLAB,那么您可以通过简单的方法将模型导入到TensorRT中进行推理。下面是关于如何开始的信息的集成。

TensorRT和TensorFlow是紧密集成的,因此您可以通过TensorRT强大的优化获得TensorFlow的灵活性。您可以在这里了解更多的TensorRT与TensorFlow博客文章。 

TensorRT 4提供了一个ONNX解析器,因此您可以轻松地从诸如Caffe 2、Chainer、Microsoft Cognitive Toolkit、MxNet和PyTorch等框架中导入ONNX模型到TensorRT。您可以在这里了解更多关于tensort4的可用性。 

MATLAB与TensorRT通过GPU编码器集成,使工程师和科学家使用MATLAB可以自动为Jetson、DRIVE和Tesla平台生成高性能的推理机。在这里了解更多。

如果您正在使用专有或自定义框架进行深度学习培训,请使用TensorRT c++ API来导入和加速您的模型。在TensorRT文档中可以阅读更多内容。

TensorRT 4 :What’s New

TensoRT 4现在提供了加速语音识别、神经机器翻译和推荐系统的功能。TensorRT 4中的本地ONNX解析器提供了一种简单的方法,可以从诸如PyTorch、Caffe、MxNet、CNTK和Chainer等框架导入模型: 

• 与多层感知器(MLP)和递归神经网络(RNN)的新层相比,CPU的吞吐量提高了45倍 
• V100上的推理性能提高50倍。而在TensorRT中使用ONNX解析器导入的ONNX模型可以支持CPU了 
• 支持NVIDIA DRIVE™Xavier - 用于自动驾驶汽车的AI计算机 
• 利用运行在Volta Tensor Cores上的API,FPX自定义图层可以3倍加速推理

NVIDIA开发者计划的成员可以很快从这里下载TensorRT 4 Release Candidate。

NVIDIA TensorRT 让您的人工智能更快!的更多相关文章

  1. TensorRT 3:更快的TensorFlow推理和Volta支持

    TensorRT 3:更快的TensorFlow推理和Volta支持 TensorRT 3: Faster TensorFlow Inference and Volta Support 英伟达Tens ...

  2. Nvidia发布更快、功耗更低的新一代图形加速卡

    导读 不出意外的,Nvidia在其举行的Supercomputing 19大会上公布了很多新闻,这些我们将稍后提到.但被忽略的一条或许是其中最有趣的:一张更快.功耗更低的新一代图形加速卡. 多名与会者 ...

  3. NVIDIA TensorRT:可编程推理加速器

    NVIDIA TensorRT:可编程推理加速器 一.概述 NVIDIA TensorRT是一个用于高性能深度学习推理的SDK.它包括一个深度学习推理优化器和运行时间,为深度学习推理应用程序提供低延迟 ...

  4. NVIDIA® TensorRT™ supports different data formats

    NVIDIA TensorRT supports different data formats NVIDIATensorRT公司 支持不同的数据格式.需要考虑两个方面:数据类型和布局.         ...

  5. NVIDIA TensorRT高性能深度学习推理

    NVIDIA TensorRT高性能深度学习推理 NVIDIA TensorRT 是用于高性能深度学习推理的 SDK.此 SDK 包含深度学习推理优化器和运行时环境,可为深度学习推理应用提供低延迟和高 ...

  6. 精通Web Analytics 2.0 (9) 第七章:失败更快:爆发测试与实验的能量

    精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第七章:失败更快:爆发测试与实验的能量 欢迎来到实验和测试这个棒极了的世界! 如果Web拥有一个超越所有其他渠道的巨大优势,它就 ...

  7. 利用更快的r-cnn深度学习进行目标检测

    此示例演示如何使用名为“更快r-cnn(具有卷积神经网络的区域)”的深度学习技术来训练对象探测器. 概述 此示例演示如何训练用于检测车辆的更快r-cnn对象探测器.更快的r-nnn [1]是r-cnn ...

  8. [译] 优化 WEBPACK 以更快地构建 REACT

    原文地址:OPTIMIZING WEBPACK FOR FASTER REACT BUILDS 原文作者:Jonathan Rowny 译文出自:掘金翻译计划 本文永久链接:https://githu ...

  9. 利用共享内存实现比NCCL更快的集合通信

    作者:曹彬 | 旷视 MegEngine 架构师 简介 从 2080Ti 这一代显卡开始,所有的民用游戏卡都取消了 P2P copy,导致训练速度显著的变慢.针对这种情况下的单机多卡训练,MegEng ...

随机推荐

  1. 4、Java并发编程:synchronized

    Java并发编程:synchronized 虽然多线程编程极大地提高了效率,但是也会带来一定的隐患.比如说两个线程同时往一个数据库表中插入不重复的数据,就可能会导致数据库中插入了相同的数据.今天我们就 ...

  2. Windows Server 2008 R2 安装域

    在Windows Server 2008 R2里面安装域. 1.首先在"服务"里面添加"角色": 2.选择对应的域角色 3.安装完成后要启动配置向导 4.选择新 ...

  3. 开胃小菜——impress.js代码详解

    README 友情提醒,下面有大量代码,由于网页上代码显示都是同一个颜色,所以推荐大家复制到自己的代码编辑器中看. 今天闲来无事,研究了一番impress.js的源码.由于之前研究过jQuery,看i ...

  4. Matlab2018年最新视频教程视频讲义(包含代码)

    2018年Matlab最新视频教程视频讲义(包含代码),适合初学者入门进阶学习,下载地址:百度网盘, https://pan.baidu.com/s/1w4h297ua6ctzfturQ1791g 内 ...

  5. PLSQL集合类型

    PLSQL集合类型   --联合数组(索引表) /* 用于存储某个数据类型的数据集合类型 .通过索引获得联合数组中得值 如下例子: */ DECLARE CURSOR cur_chars IS SEL ...

  6. Qt 报错onecoreuap\inetcore\urlmon\zones\zoneidentifier.cxx(359)\urlmon.dll!00007FF9D9FA5B50:

    具体报错内容 onecoreuap\inetcore\urlmon\zones\zoneidentifier.cxx(359)\urlmon.dll!00007FF9D9FA5B50: (caller ...

  7. ReadyAPI创建功能测试的方法

    声明:如果你想转载,请标明本篇博客的链接,请多多尊重原创,谢谢! 本篇使用的 ReadyAPI版本是2.5.0 在ReadyAPI中有多种方法可以创建功能测试,本篇将分步操作创建功能测试. 1.从So ...

  8. Linux命令应用大词典-第6章 文件处理

    6.1 sort:对文件中的数据进行排序 6.2 uniq:将重复行从输出文件中删除 6.3 cut:从文件每行中输出选定的字节.字符或字段 6.4 comm:逐行比较两个已经排序的文件 6.5 di ...

  9. JavaScript 数组操作方法 和 ES5数组拓展

    JavaScript中数组有各种操作方法,以下通过举例来说明各种方法的使用: 数组操作方法 push 在数组最后添加一个元素 var arr=[3,4,5,6] console.log(arr) // ...

  10. 【第五章】MySQL数据库的安全机制

    MySQL权限表MySQL用户管理MySQL权限管理SSL加密连接