好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

深度学习芯片.pdf

16页
  • 卖家[上传人]:M****1
  • 文档编号:572900858
  • 上传时间:2024-08-13
  • 文档格式:PDF
  • 文档大小:1.80MB
  • / 16 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • AI 芯片分类: 功能: 1.Training(训练) 2. Inference(推理)两个环节; 应用场景: 1 Cloud/DataCenter(云端) 2. Device/Embedded(设备端) 技术架构发展类型: 1、通用类芯片,代表如 GPU、FPGA; 2、基于 FPGA 的半定制化芯片,代表如深鉴科技 DPU、百度 XPU 等; 3、全定制化 ASIC 芯片,代表如谷歌 TPU、寒武纪 Cambricon—1A 等; 4、类脑计算芯片,代表如 IBM TrueNorth、westwell、高通 Zeroth 等 类型比对 一、GPU 优点:具有数以千计的计算核心可实现 10—100 倍应用吞吐量 支持对深度学习至关重要的并行计算能力 比传统处理器更加快速 加快了训练过程 目前最普遍采用的深度学习运算单元之一 局限性: 1. 应用过程中无法充分发挥并行计算优势深度学习包含训练和应用两个计算环节,GPU 在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理, 并行度的优势不能完全发挥 2 硬件结构固定不具备可编程性。

      深度学习算法还未完全稳定,若深度学习算法发生大的变化,GPU 无法灵活的配置硬件结构. 能耗 虽然 GPU 要好于 CPU,但其能耗仍旧很大 二、FPGA FPGA,即现场可编辑门阵列,是一种新型的可编程逻辑器件,由于其具有静态可重复编程和动态在系统重构的特性,使得硬件的功能可以像软件一样通过编程来修改 FPGA 作为人工智能深度学习方面的计算工具,主要原因就在于其本身特性: 可编程专用性,高性能,低功耗北京大学与加州大学的一个关于 FPGA 加速深度学习算法的合作研究展示了 FPGA 与 CPU 在执行深度学习算法时的耗时对比在运行一次迭代时,使用 CPU 耗时 375 毫秒,而使用 FPGA 只耗时 21 毫秒,取得了 18 倍左右的加速比 根据瑞士苏黎世联邦理工学院(ETHZurich)研究发现,基于 FPGA 的应用加速比CPU/GPU 方案,单位功耗性能可提升 25 倍,而时延则缩短了 50 到 75 倍,与此同时还能实现出色的 I/O 集成.而微软的研究也表明,FPGA 的单位功耗性能是 GPU 的 10 倍以上,由多个 FPGA 组成的集群能达到 GPU 的图像处理能力并保持低功耗的特点。

      根据英特尔预计,到 2020 年,将有 1/3 的云数据中心节点采用 FPGA 技术 三、不可估量的 ASIC ASIC(Application Specific Integrated Circuits,专用集成电路),是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路ASIC 用于专门的任务,比如去除噪声的电路,播放视频的电路,但是 ASIC 明显的短板是不可更改任务但与通用集成电路相比,具有以下几个方面的优越性:体积更小、功耗更低、可靠性提高、性能提高、保密性增强、成本降低 从算力上来说,ASIC 产品的计算能力是 GK210 的 2.5 倍功耗上,ASIC 功耗做到了 GK210(NVIDIA) 的 1/15 当然 ASIC 是能效最高的, 但目前,都在早期阶段, 算法变化各异 想搞一款通用的 ASIC适配多种场景,还是有很多路需要走的.但从比特币挖矿机经历的从 CPU、GPU、FPGA到最后 ASIC 的四个阶段来推论,ASIC 将是人工智能发展的重要趋势之一另外,在通信领域,FPGA 曾经也是风靡一时, 但是随着 ASIC 的不断发展和蚕食,FPGA 的份额和市场空间已经岌岌可危。

      四、NPU:为深度学习而生的专业芯片 从技术角度看,深度学习实际上是一类多层大规模人工神经网络它模仿生物神经网络而构建,由若干人工神经元结点互联而成神经元之间通过突触两两连接,突触记录了神经元间联系的权值强弱. 每个神经元可抽象为一个激励函数, 该函数的输入由与其相连的神经元的输出以及连接神经元的突触共同决定 为了表达特定的知识, 使用者通常需要 (通过某些特定的算法)调整人工神经网络中突触的取值、网络的拓扑结构等该过程称为“学习" 在学习之后,人工神经网络可通过习得的知识来解决特定的问题 由于深度学习的基本操作是神经元和突触的处理,而传统的处理器指令集(包括 x86 和ARM 等)是为了进行通用计算发展起来的,其基本操作为算术操作(加减乘除)和逻辑操作(与或非),往往需要数百甚至上千条指令才能完成一个神经元的处理,深度学习的处理效率不高 因此谷歌甚至需要使用上万个 x86 CPU 核运行 7 天来训练一个识别猫脸 的深度学习神经网络因此,传统的处理器(包括 x86 和 ARM 芯片等)用于深度学习的处理效率不高,这时就必须另辟蹊径——突破经典的冯·诺伊曼结构. 以中国的寒武纪为例,DianNaoYu 指令直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理, 并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。

      另外,神经网络中存储和处理是一体化的,都是通过突触权重来体现 而冯·诺伊曼结构中,存储和处理是分离的,分别由存储器和运算器来实现,二者之间存在巨大的差异当用现有的基于冯·诺伊曼结构的经典计算机(如 X86 处理器和英伟达 GPU)来跑神经网络应用时,就不可避免地受到存储和处理分离式结构的制约,因而影响效率这也就是专门针对人工智能的专业芯片能够对传统芯片有一定先天优势的原因之一. 用数字来说话,CPU、 GPU 与 NPU 相比,会有百倍以上的性能或能耗比差距——以寒武纪团队过去和 Inria 联合发表的 DianNao 论文为例-—DianNao 为单核处理器,主频为 098GHz,峰值性能达每秒 4520 亿次神经网络基本运算,65nm 工艺下功耗为 0.485W,面积 3.02 平方毫米 mm 在若干代表性神经网络上的实验结果表明—-DianNao 的平均性能超过主流 CPU 核的100 倍, 但是面积和功耗仅为 1/10,效能提升可达三个数量级;DianNao 的平均性能与主流GPU 相当,但面积和功耗仅为主流 GPU 百分之一量级 AI 芯片产业生态: 全球 AI 芯公司: 国内 AI 芯片公司 已成熟、权威的芯片厂商 (一)英伟达 JetsonTX1 芯片方案 (GPU) 2015 年相继为 Parrot 及其竞争对手大疆提供芯片,针对无人机市场,英伟达开发了Jetson TX1 芯片方案,可以胜任各类图像图形识别和高级人工智能任务, 使用它的无人机可以在空中停留更长时间。

      (二)英特尔处理器 英特尔把无人机作为其处理器产品的一大新兴应用加以推广, 而且更愿意看到其这两年主打的 RealSense 实感技术即 3D 摄像头的无人机应用有所突破.采用英特尔实感技术的 Yuneec Typhoon H, 具有防撞功能, 具有方便起飞、 配备 4K 摄像头和 360度万向接头, 以及遥控器内置显示屏等特点, 内置了高达 6 个英特尔的 “Real Sense”3D 摄像头,采用了四核的英特尔凌动(Atom)处理器的 PCI—express 定制卡,来处理距离远近与传感器的实时信息,以及如何避免近距离的障碍物 在无人机视觉方面.英特尔最大的优势在于其 RealSense 技术采用的红外激光,相较起高通的双目视觉技术,规避了计算机视觉识别物体的大量计算,并有效提高了精度 (三)三星 Artik5 芯片 三星 Artik 芯片有三个型号,其中应用于无人机的主要是 Artik5,Artik5 尺寸为29x25mm,搭载 1GHz ARM 双核处理器(Mali 400 MP2 GPU),搭配的是 512MB LPDDR3 内存以及 4GB eMMc 闪存 支持 Wi—Fi、 低功耗蓝牙, 支持 802。

      11 b/g/n此外,该芯片还能对解码 H.264 等格式 720p 30fps 的视频进行解码,并提供了TrustZone (四)高通骁龙 Flight 平台 骁龙 Flight 是一块高度优化的 58x40mm 开发板, 专门针对消费级无人机和机器人应用而设计骁龙 Flight 包含一颗骁龙 801SoC(由四颗主频为 226GHz 的核心组成),支持 GPS、4K 视频拍摄、强劲的连接性以及先进的无人机软件和开发工具,双通道 Wi—Fi 和蓝牙模块,支持实时飞行控制系统,拥有全球导航卫星系统(GNSS)接收器,支持 4K 视频处理,支持快速充电技术腾讯的 Ying、零零无限的小型无人机产品 hover camera 及零度智控的自拍无人机 dobby 的样机都用的是 snapdragon flight 无人机设计平台 Snapdragon Flight 无人机芯片具有和智能相同的处理器 对比目前主要的无人机芯片解决方案,高通 snapdragon flight 的 CPU 尺寸最小、主频最高目前已应用于国内厂商零零无限的小型无人机产品 hover camera 及零度智控的自拍无人机 dobby 的样机。

      (五)Ambarella(安霸公司) 位于加利福尼亚的视频压缩和图像处理芯片厂商,在今年的 CES 上发布了三款全新的芯片,计划将新一代影像带到汽车、无人机、VR 以及运动相机中去安霸公司高性能的压缩处理器芯片获得了全球厂商的高度认可 很多世界知名的公司都采用了该公司的方案,包括 GoPro 运动摄影机、大疆无人机、Google 最新二四镜头VR 相机 (六)大疆 Manifold (GPU) 价格 4699 Manifold 妙算 专为飞行平台设计的嵌入式机载电脑, 拥有 PC 独立显卡级别的绘图能力,支持 DirectX 11、 OpenGL 44,可让机器人实时进行复杂的图像处理Manifold 还 支持 NVIDIA CUDA,用于开发最前沿的 GPU 加速应用,可将程序性 能提升数倍Manifold 能广泛应用于计算机视觉、深度学习等人工 智能领域,让你的设备具备环境感知、物体辨识和实时反应能力. 便捷的开发环境 强大的移动计算机 Manifold 采用 NVIDIA Tegra K1 处理器,内含 4+1 四核 ARM - Cortex A15 核心和 192个 GPU CUDA 核心,最高主频达 2.2GHz。

      NVIDIA 4—Plus—1 (4-Plus—1™) 四核 ARM® Cortex—A15 低功耗 NVIDIA Kepler™ Geforce® 图像处理器 GPU 核心不仅能实现强大的图像处理能力,而且能高效地处理并行任务,浮点运算能力达 326GFLOPS.Manifold 能让你发挥创意,设计更智能的程序,把机器人应用在更广阔的领域 Manifold 妙算为开发者设计,它搭载了 Ubuntu 操作系统*, 可便捷安装运行 Linux 软件,支持 CUDA、OpenCV 及 ROS 等, 非常适合用在专业应用的研究和开发中.Manifold 全面支持 DJI Onboard SDK,可轻松获取飞行数据,并进行控制和数据 分析,把你的创意和 DJI 飞行平台优秀的性能轻松结合 低功耗 Manifold 妙算采用低功耗设计方案,可为你的机器人提供长久续航 其峰值功耗约 15W,仅为普通笔记本电脑的四分之一,配备的 Tegra K1 CPU 共有 4 个 A15 核心,可从容应对复杂的计算任务, 1 个附属核 心负责简单任务的处理.其中,4 个 A15 核心中的每一个核心均可根 据工作负荷的繁重程度,独立而自动地启用和关闭,从而降低整体 功耗。

      耗电量 MAX ≈ 15W 新型芯片厂商 (七) 寒武纪(国产 ASIC) 寒武纪是全球第一个成功流片并拥有成熟产品的 AI 芯片公司,拥有终端 AI 处理器 IP 和云端高性能 AI 芯片两条产品线2016 年发布的寒武纪 1A 处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器. 智能处理器 IP (今年五月) MLU100 采用寒武纪最新的 MLUv01 架构和 TSMC 16nm 的先进工艺,可工作在平衡模式(1GHz 主频)和高性能模式(1.3GHz 主频)下,平衡模式下的等效理论峰值速度达每秒 128 万亿次定点运算,高性能模式下的等效理论峰值速度更可达每秒 1664 万亿次定点运算,但典型板级功耗仅为 80 瓦,峰值功耗不超过 110 瓦与寒武纪系列终端处理器一样,MLU100 云端芯片仍然延续了寒武纪产品一贯出色的通用性,可支持各类深度学习和经典机器学习算法,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。

      (八)华为海思 于 2016 年 7 月推出了华为海思无人机平台,即联手深圳本土初创公司宙心科技,在华为海思芯片的基础上推出了一系列无人机解决方案. SOC 基于 SOC 芯片组 17 年的成功研发经验,海思半导体能够提供最先进的 SOC 架构设计和实施我们的 SOC 芯片组可以以最低的成本内存带宽和功耗实现最高性能特别是对于智能相机产品,我们可以提供高性能和可销售的异构计算多核处理器架构,具有先进的 CPU,视觉 DSP,专用深度学习引擎和嵌入式 GPU 在无人机领域, 华为旗下全资子公司海思原先在安防摄像头市场有 70%的市场份额, 随后为了给这安防摄像头插上翅膀,于 2016 年 7 月推出了华为无人机平台,即联手深圳本土初创公司宙心科技,在华为海思芯片的基础上推出了一系列无人机解决方案 麒麟 970 概述: 麒麟 970 采用最先进的 TSMC 10 纳米工艺技术制造,该技术在大约指甲大小的区域内集成了 55 亿个晶体管麒麟 970 结合了八核 CPU,12 核 GPU,双 ISP,12 Gbps 高速Cat18 LTE 调制解调器和创新的 HiAI 移动计算架构麒麟 970 具有超快速连接,智能计算能力,高清视听效果和超长电池寿命。

      主要规格: HiAI 架构:CPU / GPU / NPU / ISP / DSP CPU:4x A73 + 4x A53 GPU:Mali—G72 MP12 专用的 NPU 协处理器:i7 传感器协处理器 ISP:具有面部和运动检测功能的双 ISP,4—Hybrid Focus 弱光和动态拍摄 内存:LPDDR 4X 调制解调器:LTE Cat18 / 13 1.2Gbps DL / 150 Mbps UL 语音解决方案:双卡双待 VoLTE 音频:32bit @ 384 KHz 高清音频,降低 AI 噪音 视频:4K 视频,HDR 10 安全解决方案:inSE 2.0 工艺:10nm 强调: 麒麟 970 是华为首款移动 AI 计算平台凭借集成了专用神经网络处理单元(NPU)的新 HiAI 移动计算架构,麒麟 970 的性能提高了约 25 倍,效率提高了 50 倍,大大提高了图像识别,语音交互和智能摄影的功能 (九)深鉴科技 DPU (FPGA) 深鉴科技已经设计出一套基于 DPU 的一整套深度学习硬件解决方案, 包括 DPU 的芯片架构、DPU 编译器、硬件模块(订制的 PCB 板)三部分.直接呈现的产品就是硬件模块,共有嵌入式端和服务器端两款,在性能超过同类产品的同时,功耗、售价都大幅下降. 从官方提供的数据来看,嵌入式端的产品在性能超过 Nvidia TK1ჼ 的同时,功耗、售价仅为后者的 1/4 左右。

      服务器端的产品,性能接近 Nvidia K40 GPU ,但功耗只有 35 瓦左右,售价 300 美元以下,不足后者的 1/10 产品功耗的降低和性能的提升主要依赖于算法上的创新和芯片结构的创新.深鉴科技的首席科学家韩松一直在研究“深度压缩”(Deep Compression) 技术,可以将神经网络压缩数十倍而不影响准确度,可以使用片上存储来存储深度学习算法模型,减少内存读取,从而大幅度减少功耗这一研究也得到了学界的认可,已经被选为 2016 年 ICLR 两篇最佳论文之一(另一篇来自 AlphaGo 开发者谷 DeepMind) 在芯片结构上,深鉴科技重新设计了产品的架构(见下图).针对深度学习计算中的大规模频繁复用, 设计了专门的 DPU 架构及编译器.用户可以正常通过 GPU 训练深度学习模型,并直接将模型编译到 DPU 指令集,指令直接下载到 DPU 上,使得深度学习算法的运行效率提高 (十)Google 谷歌 TPU2.0 (ASIC) TPU(Tensor Processing Unit)即张量处理单元,是一款为机器学习而定制的芯片,经过了专门深度机器学习方面的训练,它有更高效能(每瓦计算能力)。

      去年四月份, 谷歌公布 TPU 相关论文, 称 “TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍" 新的 TPU 包括了四个芯片,每秒可处理 180 万亿次浮点运算.Google 还找到一种方法,使用新的计算机网络将 64 个 TPU 组合到一起,升级为所谓的 TPU Pods,可提供大约 11500 万亿次浮点运算能力.除了速度,第二代 TPU 最大的特色,是相比初代 TPU 它既可以用于训练神经网络,又可以用于推理. 弊端: 首先开发出新的芯片并不能保证 Google 成功,要使用 TPU 2.0,开发者要学习一种构建和运行神经网络的新方法.它不仅仅是一个新的芯片,TPU 2.0 也是专门为 TensorFlow 设计 不同的是,谷歌不会将 TPU 直接出售,而是通过其新的云服务提供,这个新的 TPU价格为每小时每单元 6.50 美元,而通过 Kubernetes Engine 租赁的 GPU 将按谷歌现有的每种支持芯片型号收费 (十一)全志 R16 平台 小米去年发布的无人机采用的主控方案正是全志科技的 R16 平台.此前 R16 处理器曾被用在京东智能音箱、小鱼在家等产品上。

      这款产品,内置了双星 GPS 定位接收器,能够接收并解析 GPS、GLONASS 两个卫星定位系统的信号,以提高无人机收星定位能力,保障无人机的工作安全. (十二)联芯 LC860 模组 走的是低价位的性价比路线, CPU 采用 6 核 CortexA7,GPU 采用 2GHz 双核 Mali T628 GPU 大疆精灵 Phantom 4 就采用过联芯方案 LC1860,零度智控还推出基于联芯 LC1860的双目视觉整体解决方案据悉,联芯还与小米合资成立松果电子,专注智能硬件领域 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.