1.2毫秒！-英伟达TensorRT-8运行BERT-Large推理创纪录

2021-07-21

自今年5月份TensorRT 8-EA版(Early Access，尝鲜版)发布之后，英伟达终于在本周二发布了TensorRT 8的正式版。

作为支持英伟达GPU平台的深度学习推理框架，TensorRT 8正式版与以往的版本相比，能够在在1.2毫秒内运行全球最广为采用的基于transforemer模型之一——BERT-Large，即将语言查询推理时间缩短至上一个版本的一半，创下最新记录，为搜索引擎、广告推荐和聊天机器人的AI模型提供支持。

英伟达官方声称，TensorRT8不仅针对transformer作出突破性优化，还新增其他两项关键特性，实现AI推理方面的突破。

推理时间缩短至1.2毫秒，速度提升1倍

“AI模型以指数级的速度增长，很多公司不得不缩减模型大小以追求响应速度。英伟达2016年推出的TensorRT可以帮助这些企业扩大规模，提升精度。” 英伟达AI软件部的产品管理总监Kari Briski回顾TensorRT推出的背景时说道。

TensorRT是英伟达自家的深度学习推理框架，在模型推理的过程中，可以将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式，再使用TensorRT推理引擎运行，从而提升这一模型在GPU上的运行速度。

因此，支持更多的模型和进一步缩短推理时间，提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。

2019年，黄仁勋在GTC China上发布TensorRT 7。相比于只支持30多种模型的TensorRT 5，TensorRT 7能够支持各种类型的RNN、Transformer和CNN，支持多达1000多种不同类型的计算变换和优化，还能让推理时间缩短至0.3秒，为此黄仁勋将其称之为“我们实现的最大飞跃”。

这次更新的TensorRT 8版本，虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级，但也有一定程度的更新。

英伟达宣称，TensorRT 8的各项优化为语言带来了创纪录的速度，能够在1.2毫秒内运行全球最广为采用的基于transforemer模型之一——BERT-Large，帮助企业将模型扩大一倍或两倍，从而提高精度。

落实到具体的应用上，这种推理速度的提升能够让对话式AI更加智能，交互应用程序的性能也能够得以提升。

新增两项核心技术，是推理速度提升的关键

在此之前，之所以能够凭借TensorRT提升模型在英伟达GPU上的运行速度，主要得益于TensorRT的一系列优化，这些优化包括：

权重与激活精度校准：通过将模型量化为INT8 来更大限度提升吞吐量，同时保持高精度，力求精度和吞吐量的最大平衡；

层与张量融合：通过融合内核中的节点，优化GPU显存和带宽的使用；

内核自动调整：基于目标GPU选择最佳的数据层和算法；

动态张量显存：更大限度减少显存占用，并高效地为张量重复利用内存；

多流执行：并行处理多个输入流的可扩展设计；

简单而言，就是在力求以低混合精度提升吞吐量的同时，减少计算和内存访问，合并网络层。

而在TensorRT 8版本中，英伟达又新加入两个关键特性，以实现AI推理方面的突破。

其一是稀疏性。TensorRT 8中使用稀疏性技术，在保证精度推理的同时，降低深度学习模型中的部分权重，减小模型所需要的带宽和内存，在提升效率的同时使开发者能够通过减少计算操作来加速神经网络。

这项技术能够帮助NVIDIA Ampere架构GPU得到性能上的提升。

其二是量化感知训练。开发者能够使用训练好的模型，以 INT8 精度运行推理，且不会造成精度损失，大大减少计算和存储成本，在Tensor Core核心上实现高效推理。

TensorRT诞生第五年，下载次数近250万次

推理模型上的速度优势让TensorRT广受欢迎。五年来，已有来自医疗、汽车、金融和零售等各个领域的27500家企业，超过25万名开发者下载使用TensorRT，累计次数近250万次。

GE医疗是TensorRT的使用者之一，他们用TensorRT助力加速早期检测疾病的关键工具——超声波计算机视觉创新，使临床医生能够通过其职能医疗解决方案提供方最高质量的护理。

GE医疗心血管超声首席工程师Erik Steen表示：“临床医生需要花费宝贵的时间来选择和评估超声图像。在Vivid Patient Care Elevated Release项目的研发过程中，我们希望通过在Vivid E95扫描仪上实施自动心脏视图检测，使这一过程变得更加高效。心脏视图识别算法将选择合适的图像来分析心壁运动。TensorRT凭借其实时推理能力，提高了视图检测算法的性能，同时缩短了我们研发项目的产品上市时间。”

开源AI技术的领导者Hugging Face也在同英伟达展开密切合作，其产品总监Jeff Boudier表示，通过TensorRT 8，Hugging Face在BERT上实现了1毫秒的推理延迟，十分期待能在今年晚些时候为客户提供这一性能。

目前，TensorRT 8已经全面上市，且面向英伟达计划开发者成员免费提供，用户能够从TensoRT GitHub库中获得最新版本插件、解析器和样本开放源代码。

资讯来源：美股投资网 TradesMax

« 《消费者报告》：特斯拉的全自动驾驶软件缺乏安全保障措施慧择亮相国际金融科技论坛：数字化对企业而言是手段而非目的 »

返回顶部

欢迎交流美股分析师微信号

FIVE