
NVIDIA AI推理平台技术白皮书.pdf
23页技术概述 NVIDIA AI 推理平台 从数据中心到网络终端,实现 AI 服务性能和效率的巨大飞跃 简介 人工智能革命如火如荼,为企业带来新的机遇,使他们能够另辟蹊径来 解决客户面临的挑战我们正在奔向一个 AI 遍地开花的未来,届时每次 客户互动、每件产品和每项服务都将融入 AI 并借助 AI 实现改进若要 实现这一梦想,我们需要能够加速各种现代 AI 应用的计算平台,使企业 能够创造新的客户体验,重新审视他们如何满足和超越客户需求,以及 以经济高效的方式扩展其基于 AI 的产品和服务 虽然机器学习领域已历经数十年进步,但深度学习 (DL) 在最近六年才开始 蓬勃发展2012 年,多伦多大学的 Alex Krizhevsky 凭借使用 NVIDIA GPU 训练的深度神经网络在 ImageNet 图像识别大赛中一举夺魁,战胜了所有 人类专家呕心沥血数十载研究出的算法同年,斯坦福大学的吴恩达在 认识到“网络越大,认知越广”后,与 NVIDIA Research 团队合作开发出 一种使用大型 GPU 计算系统训练网络的方法这些开创性论文迅速点燃 现代 AI 的爆发式发展,进而引发一系列“超人”般的成就。
2015 年, Google 和 Microsoft 在 ImageNet 挑战赛中均超越了人类的最高得分 2016 年,DeepMind 的 AlphaGo 打破历史纪录,战胜了围棋冠军李世石, 同时 Microsoft 的语音识别能力已达到人类水准 GPU 已经证明它们能够极有效地解决某些最复杂的深度学习问题,虽然 NVIDIA 深度学习平台是业界标准的训练解决方案,但其推理能力并非 广为人知从数据中心到终端,部分全球领先企业已使用 NVIDIA GPU 构建其推理解决方案 其中包括以下实例 : SAP 的品牌影响力服务已实现 40 倍的增长,同时其成本降低到 原来的 1/32 Bing 视觉搜索已将延迟时间缩短到原来的 1/60,并将自身成本 降低到 1/10 思科的 Spark Board 和 Spark Room Kit 采用 NVIDIA Jetson GPU, 已实现无线 4K 视频共享,同时运用深度学习提供语音和面部识别 功能 深度学习工作流程 通过深度学习获得见解的两个主要过程是训练和推理这两个过程虽然 相似,但也有显著差异在训练过程中,你需要向神经网络提供诸如动物、 交通标志等需要检测或识别的对象示例,让网络预测这些对象的内容。
训练过程可强化正确的预测,并更正错误的预测经过训练后,所得神经 网络的预测结果正确率最高可达 90% 到 98% “推理”是指通过部署经过 训练的网络来评估新对象,并按相似的预测准确度作出预测 训练 数据集 新数据 “cat” “ ? ” “cat” 未经训练的 神经网络模型 深度学习 框架 应用或服务 运用该能力 经训练模型 性能得到优化 训练 根据现有数据学习新能力 推理 将此能力应用于新数据 “cat”“dog” 经训练模型 新能力 图 1 训练和推理都是先从前向传播计算开始,只是训练要完成更多步骤 训练时,在完成前向传播计算之后,还要将结果与正确答案( “真值” ) 进行比较,以计算误差值反向传播阶段需将误差发送到网络的各层中, 并使用梯度下降法更新各层的权重,以改善网络在尝试学习的任务中的 表现通常,在深度神经网络 (DNN) 训练过程中会将数百个训练输入 (例如,图像分类网络中的图像或者用于语音识别的声谱图)分作一批并 同时处理,以期在大量输入之间摊销 GPU 显存的负载权重,从而大幅 提高计算效率 推理过程也会批量处理数百个样本,让数据中心彻夜运行的作业吞吐量 达到最高水平,以便处理大量存储数据。
这些作业的吞吐量往往比延迟 更重要但是,在实时使用情况下,批量大小较高也会增加延迟对于 这些使用情况,需要降低批量大小(最低一个样本) ,牺牲吞吐量以换取 最低延迟另外还有一种混合方法,有时被称为“自动批处理” 使用 此方法要设置一个时间阈值(比如 10 毫秒) ,系统会在这 10 毫秒内批量 处理尽可能多的样本,然后再发送这些样本以供推理此方法在保持设定 延迟量的同时可提供更高的吞吐量 TensorRT 超大规模推理平台 NVIDIA TensorRT 超大规模推理平台旨在让世界各地的每一位开发者和 数据科学家都能运用深度学习 该平台率先采用世界精尖的 AI 推理加速器: 配备 NVIDIA Turing Tensor 核心的 NVIDA Tesla T4 GPUTesla T4 依托 NVIDIA 的全新 Turing 架构,能够加速适用于图像、语音、翻译和推荐 系统等各种领域的神经网络Tesla T4 支持各种精度,并能加速各大 DL 框架,包括 TensorFlow、PyTorch、MXNet、Chainer 和 Caffe2 强大的硬件需要精尖软件的加持,作为高性能深度学习推理平台,NVIDIA TensorRT 能为图像分类、分割、物体检测、机器语言翻译、语音和推荐 引擎等应用程序提供低延迟、高吞吐量推理。
它可以快速优化、验证和 部署经过训练的神经网络,从而在超大型数据中心、嵌入式 GPU 或 车用 GPU 平台上开展推理工作TensorRT 优化程序和运行时支持 Turing GPU 在各类精度水平下发挥出色性能,从 FP32 到 INT8 无一不及此外, TensorRT 还集成有 TensorFlow,能够支持各类采用 ONNX 格式的主要 框架 NVIDIA TensorRT 推理服务是 NVIDIA GPU Cloud 免费提供的即用型容器, 也是一款适用于数据中心部署的生产就绪型深度学习推理服务它能极大 提高 GPU 服务器的利用率以降低成本,同时还可无缝集成到生产架构, 从而节省时间NVIDIA TensorRT 推理服务能够精简工作流程,同时还可 简化向 GPU 加速推理架构的转换过程 对于大规模、多节点部署,企业还可通过 NVIDIA GPU 上的 Kubernetes, 将训练和推理部署无缝扩展到多云 GPU 集群它能支持软件开发者及 开发与运维 (DevOps) 工程师在节点集群之间自动部署、维护、调度和操作 多个 GPU 加速应用容器借助 NVIDIA GPU 上的 Kubernetes,开发者和 工程师们能够大规模无缝构建 GPU 加速深度学习训练或推理应用程序, 并将其部署到异构 GPU 集群。
基于 NVIDIA Turing 架构的 Tesla T4 Tensor 核心 GPU NVIDIA Tesla T4 GPU 是全球顶级加速器,适用于所有 AI 推理工作负载 T4 搭载 NVIDIA Turing Tensor 核心,能够提供革命性的多精度推理性能 以加速各种的现代 AI 应用程序T4 是 NVIDIA AI 推理平台的组成部分, 能够支持各类 AI 框架并提供全面的工具和集成功能,从而大幅简化高级 AI 的开发和部署工作 Turing Tensor 核心专为加速 AI 推理而构建,并且 Turing GPU 还继承了 NVIDIA Volta 架构为 NVIDIA CUDA 平台引入的所有增强功能,从而提升 计算应用程序的能力、灵活度、效率和可移植性Turing GPU 架构拥有 诸多特性,包括独立线程调度、具有多应用程序地址空间隔离的硬件加速 多进程服务 (MPS)、统一内存寻址和地址转换服务以及协作组等 NVIDIA Turing 创新技术 图 2 : NVIDIA TURING TU102 GPU Turing 的主要特性 具有 Turing Tensor 核心的新型流式多元处理器 (SM) Turing SM 基于 Volta GV100 架构上经过重大改进的 SM 而构建, 与上一代 NVIDIA Pascal GPU 相比,能够大幅提升性能和能效。
Turing Tensor 核心不仅能像 Volta Tensor 核心一样提供 FP16 和 FP32 混合精度矩阵数学,而且新增了 INT8 和 INT4 精度模式, 由此能大规模加速广泛的深度学习推理应用 与 Volta 类似,Turing SM 也提供独立的浮点型和整型数据通路, 能够通过混合计算和地址运算更有效地执行常见工作负载此外, 独立线程调度功能还可程之间实现细粒度同步与合作最后, 组合共享内存和 L1 缓存能够显著提高性能,同时简化编程 用于推理的深度学习功能 Turing GPU 能够提供出色的推理性能、通用性和高效率Turing Tensor 核心以及 TensorRT、CUDA 和 CuDNN 库的持续改进,共同 助力 Turing GPU 为推理应用程序提供出色的性能Turing 还包括 实验特性,如支持 INT4 和 INT1 格式,能够进一步推动深度学习 领域的研究和开发进程 GDDR6 高性能显存子系统 Turing 是首款利用 GDDR6 显存的 GPU 架构,该显存系统代表了 高带宽 GDDR DRAM 显存设计的下一个重大进步,即最高可提供 320GB/ 秒的显存带宽。
Turing GPU 中的 GDDR6 存储器接口电路 经过全面重新设计,在速度、能效和降噪方面均实现了提升与 Pascal GPU 中所用的 GDDR5X 显存相比,Turing 的 GDDR6 显存 子系统分别在速度和能效方面实现了 40% 和 20% 的提升 将视频解码性能提升一倍 视频持续呈爆炸式增长,已占据互联网全部流量的三分之二以上 借助 AI 进行的精确视频解释正在助力实现最相关的内容推荐,挖掘 体育赛事中品牌植入的影响,向自动驾驶汽车提供感知能力,同时 还可扩展至更多其他用途Tesla T4 凭借专用的硬件转码引擎将解码 性能提升至上一代 GPU 的两倍,从而为 AI 视频应用程序实现了性能 突破T4 可以解码多达 38 路全高清视频流,能够轻松将可扩展深度 学习集成到视频流水线中,从而提供创新的智能视频服务T4 具有 性能和效率模式,能够在不损失视频画质的前提下实现快速编码或 最低比特率编码 TensorRT 5 特性 NVIDIA TensorRT 超大规模推理平台是一款完整的推理解决方案,包括 前沿的 Tesla T4 推理加速器、TensorRT 5 高性能深度学习推理优化器和 运行时以及 TensorRT 推理服务。
此款强大的三合一解决方案能够为深度 学习推理应用程序提供低延迟和高吞吐量,并能支持它们进行快速部署 该平台还可利用 Kubernetes 等工具,在多个主机上快速扩展容器化应用 程序借助 TensorRT 5,我们能够优化且精确校准低精度神经网络模型的 准确度,并最终将模型部署到超大规模数据中心、嵌入式或汽车产品平台 在对各大框架中训练的模型进行推理时,GPU 上基于 TensorRT 的应用 程序推理性能最高可达 CPU 的 50 倍 TensorRT 优化 多流执行 用于并行处理多个输入流的可扩展设计 张量内存 更大限度减少显存占用, 并以高效方式重复利用张量内存 层与张量融合 通过融合内核中的节点, 优化 GPU 显存和带宽的使用 权重与激活精度校准 将模型量化为 INT8 以更大限度提高吞吐量, 同时保持高准确度 内核自动调整 基于目标 GPU 平台选择最佳数据层和算法 图 3 TensorRT 针对多种深度学习推理应用程序的生产部署提供了 INT8 和 FP16 优化,例如视频流式传输、语音识别、推荐和自然语言处理降精度的 推理可以显著减少应用程序延迟,同时还可维持模型的准确度,恰巧满足 了许多实时服务以及自动和嵌入式应用程序的要求。
TensorRT 和 TensorFlow 现已紧。
