您所在位置：网站首页 > 办公文档 > 教学/培训 > 深度学习芯片(共17页)

深度学习芯片(共17页).docx

17页

卖家[上传人]：des****85

文档编号：215312173

上传时间：2021-11-25

文档格式：DOCX

文档大小：1.54MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 17 举报版权申诉马上下载

文本预览

下载提示

常见问题

精选优质文档-----倾情为你奉上AI芯片分类：功能： 1.Training(训练) 2. Inference(推理)两个环节；应用场景: 1. Cloud/DataCenter(云端)2. Device/Embedded(设备端)技术架构发展类型：1、通用类芯片，代表如GPU、FPGA；2、基于FPGA的半定制化芯片，代表如深鉴科技DPU、百度XPU等；3、全定制化ASIC芯片，代表如谷歌TPU、寒武纪 Cambricon-1A等；4、类脑计算芯片，代表如IBM TrueNorth、westwell、高通Zeroth等类型比对1、 GPU 优点：具有数以千计的计算核心可实现 10-100倍应用吞吐量支持对深度学习至关重要的并行计算能力比传统处理器更加快速加快了训练过程目前最普遍采用的深度学习运算单元之一局限性：1. 应用过程中无法充分发挥并行计算优势深度学习包含训练和应用两个计算环节，GPU在深度学习算法训练上非常高效，但在应用时一次性只能对于一张输入图像进行处理，并行度的优势不能完全发挥2. 硬件结构固定不具备可编程性深度学习算法还未完全稳定，若深度学习算法发生大的变化，GPU无法灵活的配置硬件结构。

能耗虽然 GPU要好于 CPU，但其能耗仍旧很大2、 FPGAFPGA，即现场可编辑门阵列，是一种新型的可编程逻辑器件，由于其具有静态可重复编程和动态在系统重构的特性，使得硬件的功能可以像软件一样通过编程来修改FPGA作为人工智能深度学习方面的计算工具，主要原因就在于其本身特性：可编程专用性，高性能，低功耗北京大学与加州大学的一个关于FPGA 加速深度学习算法的合作研究展示了 FPGA 与 CPU 在执行深度学习算法时的耗时对比在运行一次迭代时，使用 CPU耗时 375 毫秒，而使用 FPGA 只耗时 21 毫秒，取得了 18 倍左右的加速比根据瑞士苏黎世联邦理工学院（ETHZurich）研究发现，基于FPGA的应用加速比CPU/GPU方案，单位功耗性能可提升25倍，而时延则缩短了50到75倍，与此同时还能实现出色的I/O集成而微软的研究也表明，FPGA的单位功耗性能是 GPU 的 10倍以上，由多个 FPGA 组成的集群能达到 GPU 的图像处理能力并保持低功耗的特点根据英特尔预计，到 2020年，将有 1/3 的云数据中心节点采用 FPGA 技术3、不可估量的 ASICASIC（Application Specific Integrated Circuits，专用集成电路），是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。

ASIC用于专门的任务，比如去除噪声的电路，播放视频的电路，但是 ASIC明显的短板是不可更改任务但与通用集成电路相比，具有以下几个方面的优越性：体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低从算力上来说，ASIC产品的计算能力是 GK210 的 2.5 倍功耗上，ASIC 功耗做到了 GK210（NVIDIA）的 1/15当然ASIC是能效最高的，但目前，都在早期阶段，算法变化各异想搞一款通用的ASIC适配多种场景，还是有很多路需要走的但从比特币挖矿机经历的从CPU、GPU、FPGA到最后 ASIC 的四个阶段来推论，ASIC将是人工智能发展的重要趋势之一另外，在通信领域，FPGA曾经也是风靡一时，但是随着 ASIC 的不断发展和蚕食，FPGA的份额和市场空间已经岌岌可危4、 NPU：为深度学习而生的专业芯片从技术角度看，深度学习实际上是一类多层大规模人工神经网络它模仿生物神经网络而构建，由若干人工神经元结点互联而成神经元之间通过突触两两连接，突触记录了神经元间联系的权值强弱每个神经元可抽象为一个激励函数，该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定。

为了表达特定的知识，使用者通常需要（通过某些特定的算法）调整人工神经网络中突触的取值、网络的拓扑结构等该过程称为“学习”在学习之后，人工神经网络可通过习得的知识来解决特定的问题由于深度学习的基本操作是神经元和突触的处理，而传统的处理器指令集（包括x86和ARM等）是为了进行通用计算发展起来的，其基本操作为算术操作（加减乘除）和逻辑操作（与或非），往往需要数百甚至上千条指令才能完成一个神经元的处理，深度学习的处理效率不高因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络因此，传统的处理器（包括x86和ARM芯片等）用于深度学习的处理效率不高，这时就必须另辟蹊径——突破经典的冯诺伊曼结构以中国的寒武纪为例，DianNaoYu指令直接面对大规模神经元和突触的处理，一条指令即可完成一组神经元的处理，并对神经元和突触数据在芯片上的传输提供了一系列专门的支持另外，神经网络中存储和处理是一体化的，都是通过突触权重来体现而冯诺伊曼结构中，存储和处理是分离的，分别由存储器和运算器来实现，二者之间存在巨大的差异当用现有的基于冯诺伊曼结构的经典计算机（如X86处理器和英伟达GPU）来跑神经网络应用时，就不可避免地受到存储和处理分离式结构的制约，因而影响效率。

这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一用数字来说话，CPU、GPU与NPU相比，会有百倍以上的性能或能耗比差距——以寒武纪团队过去和Inria联合发表的DianNao论文为例——DianNao为单核处理器，主频为0.98GHz，峰值性能达每秒4520亿次神经网络基本运算，65nm工艺下功耗为0.485W，面积3.02平方毫米mm在若干代表性神经网络上的实验结果表明——DianNao的平均性能超过主流CPU核的100倍，但是面积和功耗仅为1/10，效能提升可达三个数量级；DianNao的平均性能与主流GPU相当，但面积和功耗仅为主流GPU百分之一量级AI芯片产业生态：全球AI芯公司：国内AI芯片公司已成熟、权威的芯片厂商（1）英伟达JetsonTX1芯片方案 (GPU)2015年相继为Parrot及其竞争对手大疆提供芯片，针对无人机市场，英伟达开发了Jetson TX1芯片方案，可以胜任各类图像图形识别和高级人工智能任务，使用它的无人机可以在空中停留更长时间2）英特尔处理器英特尔把无人机作为其处理器产品的一大新兴应用加以推广，而且更愿意看到其这两年主打的RealSense实感技术即3D摄像头的无人机应用有所突破。

采用英特尔实感技术的Yuneec Typhoon H，具有防撞功能，具有方便起飞、配备4K摄像头和360度万向接头，以及遥控器内置显示屏等特点，内置了高达6个英特尔的“Real Sense”3D摄像头，采用了四核的英特尔凌动（Atom）处理器的PCI-express定制卡，来处理距离远近与传感器的实时信息，以及如何避免近距离的障碍物在无人机视觉方面英特尔最大的优势在于其RealSense技术采用的红外激光，相较起高通的双目视觉技术，规避了计算机视觉识别物体的大量计算，并有效提高了精度3）三星Artik5芯片三星Artik芯片有三个型号，其中应用于无人机的主要是Artik5，Artik5尺寸为29x25mm，搭载1GHz ARM双核处理器（Mali 400 MP2 GPU），搭配的是512MB LPDDR3内存以及4GB eMMc闪存支持Wi-Fi、低功耗蓝牙，支持802.11 b/g/n此外，该芯片还能对解码H.264等格式720p 30fps的视频进行解码，并提供了TrustZone4）高通骁龙Flight平台　　骁龙Flight是一块高度优化的58x40mm开发板，专门针对消费级无人机和机器人应用而设计。

骁龙Flight包含一颗骁龙801SoC（由四颗主频为2.26GHz的核心组成），支持GPS、4K视频拍摄、强劲的连接性以及先进的无人机软件和开发工具，双通道Wi-Fi和蓝牙模块，支持实时飞行控制系统，拥有全球导航卫星系统（GNSS）接收器，支持4K视频处理，支持快速充电技术腾讯的Ying、零零无限的小型无人机产品 hover camera 及零度智控的自拍无人机dobby的样机都用的是snapdragon flight无人机设计平台 Snapdragon Flight 无人机芯片具有和智能相同的处理器对比目前主要的无人机芯片解决方案，高通snapdragon flight 的CPU 尺寸最小、主频最高目前已应用于国内厂商零零无限的小型无人机产品hover camera 及零度智控的自拍无人机dobby 的样机5） Ambarella（安霸公司）位于加利福尼亚的视频压缩和图像处理芯片厂商，在今年的CES上发布了三款全新的芯片，计划将新一代影像带到汽车、无人机、VR以及运动相机中去安霸公司高性能的压缩处理器芯片获得了全球厂商的高度认可很多世界知名的公司都采用了该公司的方案，包括GoPro运动摄影机、大疆无人机、Google最新二四镜头VR相机。

6）大疆Manifold (GPU) 价格4699Manifold 妙算专为飞行平台设计的嵌入式机载电脑, 拥有PC独立显卡级别的绘图能力，支持DirectX 11、OpenGL 4.4，可让机器人实时进行复杂的图像处理Manifold还支持NVIDIA CUDA，用于开发最前沿的 GPU 加速应用，可将程序性能提升数倍Manifold能广泛应用于计算机视觉、深度学习等人工智能领域，让你的设备具备环境感知、物体辨识和实时反应能力便捷的开发环境强大的移动计算机 Manifold采用NVIDIA Tegra K1处理器，内含4+1 四核ARM - Cortex A15核心和192个GPU CUDA核心，最高主频达2.2GHzNVIDIA 4-Plus-1 (4-Plus-1™) 四核 ARM Cortex-A15低功耗 NVIDIA Kepler™ Geforce 图像处理器 GPU核心不仅能实现强大的图像处理能力，而且能高效地处理并行任务，浮点运算能力达326GFLOPSManifold能让你发挥创意，设计更智能的程序，把机器人应用在更广阔的领域Manifold 妙算为开发者设计，它搭载了Ubuntu操作系统*，可便捷安装运行Linux软件，支持CUDA、OpenCV及ROS等，非常适合用在专业应用的研究和开发中。

Manifold全面支持DJI Onboard SDK，可轻松获取飞行数据，并进行控制和数据分析，把你的创意和DJI飞行平台优秀的性能轻松结合低功耗Manifold 妙算采用低功耗设计方案，可为你的机器人提供长久续航其峰值功耗约15W，仅为普通笔记本电脑的四分之一，配备的TegraK1 CPU共有4个A15核心，可从容应对复杂的计算任务， 1个附属核心负责简单任务的处理其中，4个A15核心中的每一个核心均可根据工作负荷的繁重程度，独立而自动地启用和关闭，从而降低整体功耗耗电量MAX ≈ 15W新型芯片厂商（7）寒武纪（国产 ASIC）寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司，拥有终端AI处理器IP和云端高性能AI芯片两条产品线2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用。

点击阅读更多内容