您所在位置：网站首页 > 大杂烩/其它 > 2023新型智算中心算力池化技术

2023新型智算中心算力池化技术.docx

30页

卖家[上传人]：周哈****孩子

文档编号：595467631

上传时间：2024-11-20

文档格式：DOCX

文档大小：781.13KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

5金贝

下载

/ 30 举报版权申诉马上下载

文本预览

下载提示

常见问题

I新型智算中心算力池化技术白皮书（2023 年）新型智算中心算力池化技术白皮书（2023）目录1. 算力池化技术背景 11.1 传统智算中心存在资源效率问题 21.1.1 GPU 资源利用率不足 30% 21.1.2 资源碎片化导致分配率低 31.2 池化技术是提高资源效率的关键 42. 算力池化定义与目标 62.1 算力池化的定义 62.2 算力池化的目标 63. 算力池化架构与关键技术 83.1 算力池化平台技术架构 83.2 算力池化技术能力层级 103.3 算力池化关键技术 123.3.1 软件定义的资源分配方式 123.3.2 算力资源高质量管理技术 143.3.3 泛在化碎片的池化整合技术 164. 算力池化产业实践 194.1 业界厂商池化技术实践 194.2 中国移动池化技术实践 245. 展望与倡议 26参考文献 27缩略语列表 28II新型智算中心算力池化技术白皮书（2023）1. 算力池化技术背景数字经济时代，随着智慧城市、智慧交通、智慧家庭等智能场景的逐步落地，人工智能正深刻地改变我们的生产、生活方式同时随着 5G、边缘计算等支撑技术的持续发展，数智业务转型过程中所产生的数据量正在以更加难以计量的速度爆发，据 IDC 公布的《数据时代 2025》显示，从 2016 年到 2025 年全球总数据量将会增长 10 倍，达到 163ZB,其中非结构化数据占 70%以上，计算模式将变得更加复杂，对智能算力的需求也在不断提高，智能计算将成为主流的计算形态。

随着智能计算广泛融合到生产、生活的各个方面,以 GPU、AI 芯片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发展的主流形态在此背景下，各国政府已开始布局 AI 领域全栈能力，并出资引导智能算力基础设施建设；我国也已进入智能化时代，“十四五”期间，相关部委积极推动智算中心建设发展，旨在面向人工智能场景提供公共算力服务同时，随着 ChatGPT 等基础通用大模型业务引爆了对 GPU 的市场需求，产业各方纷纷加入对基础大模型的训练和培育，导致“一芯难求”，GPU 价格也随之暴涨以英伟达 A800 为例，据市场数据统计，近半年来的价格增幅高达 30%以上如何在有限的资源供应内尽可能提高利用率，充分发挥算力效率的同时降低智算中心TCO，目前已成为智算中心建设待解决的关键命题之一91.1 传统智算中心存在资源效率问题1.1.1 GPU 资源利用率不足 30%当前智算中心主要以国家或当地政府总体牵头建设为主，此外， AI 应用服务企业也在布局自有智算基础设施建设然而，据公开数据统计，传统模式下的智算中心 GPU 利用率较低，平均数值低于 30%：− AWS re:Invent 2018 公布数据：平均 GPU 利用率为 20%− Facebook 2021 年机器学习负载分析报告：平均 GPU 利用率不足 30%− 英伟达 GTC2022 公布数据：Google 云平均GPU 利用率为 25% 传统智算中心的 GPU 资源利用率过低，主要来源于以下多个方面的原因：（一）资源分配较为粗放：资源分配以整卡分配为主，辅以一虚多的虚拟化分配方式，颗粒度较粗，无法适配不同 AI 任务对资源的差异化需求，导致部分资源闲置，影响算力资源的利用率；（二）算力没有被充分激活：AI 任务模型设计缺陷、算力优化程度不足、模型框架与底层芯片适配不充分等原因，均可能导致算力资源的性能无法充分发挥，导致额外的资源损耗；（三）网络带宽瓶颈制约：智算中心设备和服务器之间的通信需要消耗网络带宽，网络瓶颈会影响影响整体性能，算力资源空闲度高、利用率低。

传统智算中心的 GPU 资源利用率问题是一个综合性的问题，需要从资源管理策略、硬件架构设计、应用软件算法优化等多方面共同优化解决，其中尤以资源管理策略方面的优化可控性强、生效快、投入产出比高，是新型智算中心算力池化的重要研究方向之一1.1.2 资源碎片化导致分配率低资源碎片指体量较小，低于应用的需求而无法被分配出去的闲置资源，通常来说，应用所需资源的规格越高、种类越多，导致资源碎片的概率则越大近几年来，AI 业务迅速发展，从训练到推动，从小模型到大模型，AI 任务的种类越来越多，对算力的需求越来越高，算力资源碎片化趋势较为明显碎片化的原因包括任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素一）任务类型差异：智算中心提供的算力资源可以用于不同种类的任务，包括机器学习、深度学习、图像处理等也包括大模型、小模型、分布式推理、集中式推动，由于不同类型的任务对硬件配置的要求不同，因此会导致不同类型的任务需要不同的算力资源，难以充分适配；（二）任务规模差异：任务规模不同，所需求的算力资源不同，并且不同任务规模对算力资源的分配也无实际标准，小规模任务可申请大规模的算力，虽然存在资源浪费，但却可加速任务完成，相反，在资源总数限制下，大规模任务也可根据相对较少的算力资源，虽然影响计算效率，但却节约了投资。

以上多方面的因素，导致任务需求规格与硬件配置无法对齐，从而导致算力资源碎片化；（三）任务优先级差异：不同的任务可能有不同的优先级，一些高优先级的任务可能会占用大量的计算资源，导致其他任务无法及时得到满足，影响整体资源布局；（四）任务调度能力：任务调度也是影响计算资源碎片化的重要因素如果任务调度不当，可能会导致计算资源得不到充分分配，从而造成资源浪费综上所述，根据多样化 AI 任务对算力资源的差异化需求，灵活地调度、分配资源，是降低智算中心算力资源碎片的关键1.2 池化技术是提高资源效率的关键如何对稀缺、昂贵的算力资源充分利用，降低其不可分配的碎片概率，可以考虑借鉴云计算的思路，对 GPU、AI 芯片等进行聚合池化，再利用先进的资源管理技术进行切分、调度、分配，使能资源可按任务的实际需求进行有序供给一）物理成池：通过高性能智算中心网络打通服务器间通路，使得分散在各服务器中的CPU、GPU、AI 芯片等算力资源可以互联互通、透明共享这项技术允许跨用户、用例、时间尺度共享物理算力资源，还可以为在集群的一个节点中执行的单个AI 任务任意调用集群中算力，使 AI 任务获得进一步加速二）逻辑成池：利用池化软件对 CPU、GPU、AI 芯片等资源在逻辑上聚合，AI 任务在创建时，不再是将零散的、孤岛式的资源进行裸分配，而是根据调度流程，从聚合的池化资源中切分出所需数量进行分配。

一方面，分配的资源数量可按AI 任务实际所需执行，当 AI 任务所需资源不明确，或因负载变化导致资源数量变动时，可实现动态供给、回收，实现多 AI 任务的峰谷互补，降低资源闲置率；另一方面，切分后的零散资源可以再度聚合、调度、分配，降低碎片率2. 算力池化定义与目标2.1 算力池化的定义智能算力池化指依托云计算技术，整合 GPU/AI 芯片等异构算力资源，构建集中管理的资源池，并按上层智算业务的需求，对池化的资源进行统一调度、分配，实现智算业务生命周期管理的全套技术为解决智算中心所面临的资源利用率问题，算力池化基于传统云计算技术（如 Kubernetes、OpenStack，智算中心以 Kubernetes 为主）有针对性地增强 GPU/AI 芯片池化能力，采用软件定义的方式，对 GPU/AI 芯片进行分时调度管理，实现按 GPU/AI 芯片的细粒度分配资源，并采用 GPU/AI 芯片 Runtime API 劫持、应用程序监视器等技术，实现资源跨节点远程调用、零散资源整合等，从而达到算力资源充分利用、碎片最小化效果，可有效提升资源效率，降低智算中心整体建设成本2.2 算力池化的目标智能算力池化的目标是利用软件定义技术，对通过高速无损网络互连互通的CPU、GPU、AI 芯片等算力资源进行池化整合，实现资源的集中调度、按需分配，使能资源可被充分利用，降低碎片概率，提高总体有效算力、降低智算中心购置成本。

化整为零革新传统的整卡分配、一虚多虚拟化分配的粗放式分配方式，使能精细化分配能力，根据 AI 任务的资源需求进行按需供给，契合多样化业务的差异需求隔空取物基于高速无损网络，跨节点调取 GPU、AI 芯片等智能算力资源，使能 CPU 传统算力及GPU、AI 芯片智能算力高度解耦，进一步降低碎片化比例化零为整整合分布在多机上的零散资源，汇聚碎片为可再分配的资源、汇聚小规格资源为更大模型业务可使用的资源，使能资源可高效分配变静为动革新传统的资源静态分配、本地绑定的机制，使能资源可以根据负载变化动态分配、回收，多任务间可以峰谷互补，全局资源可以适度超分，促进资源效率提升3. 算力池化架构与关键技术3.1 算力池化平台技术架构新型智算中心算力池化平台依托云计算技术扩展池化能力，根据AI 任务特点，一般基于 K8S(Kubernetes)定制化实现算力池化平台的技术架构参考如下：图 1 算力池化平台技术架构算力池化平台逻辑上可分为池化资源管理、资源服务代理、池化运行时三类模块组成：(1) 池化资源管理− Kubernetes 管理组件：基于 Kubernetes 原生管理服务组件定制化增强，如支持分布式文件存储、支持 POD 多网络平面、支持RoCEv2/Infiniband 网络等；− Kubernetes 调度扩展：关联 Kubernetes 调度服务扩展专用的池化资源类型，对该类资源的请求转递智算资源池化控制器进行调度、分配，需配合Kubernetes 设备插件使用；− 智算资源池化控制器：对 GPU、AI 芯片等智算进行统一管理、调度、分配；(2) 资源服务代理− 池化服务代理：根据智算资源池化控制器的调度结果，将池化运行时对资源的访问请求重定向到实际物理位置执行，如涉及跨机访问智算资源，则需相关服务器上的池化服务代理多次重定向，跨机重定向的流量需经由高速无损网络（如参数面网络）；− Kubernetes 服务代理：基于 Kubernetes 原生服务代理组件定制化增强；− Kubernetes 设备插件：配合 Kubernetes 调度扩展，为Kubernetes 服务代理注册专用的池化资源类型；− 容器运行时：基于原生容器运行时（如 Dockerd、Containerd 等）定制化增强；(3) 池化运行时− 池化运行时：依托GPU、AI 芯片的原生运行时（如CUDA Runtime）进行二次封装，采用 API 劫持、应用程序监视等技术，将 AI 应用软件/AI 开发框架对算力资源的访问转递至池化服务代理执行。

池化运行时位于容器 POD 内，在容器运行时由自动注入根据上述技术架构，当AI 应用编排器通过调用 Kubernetes API 创建应用时，可按新增的池化资源类型指定申请的资源数量（如pool.kubernetes.io/gpu: 1）,对该类型资源的申请会被 Kubernetes 调度扩展拦截、转递至智算资源池化控制器进行调度，智算资源池化控制器按申请的资源数量、资源池内空闲资源分布情况进行调度后，新型智算中心算力池化技术白皮书（2023）将调度结果响应给Kubernetes 管理组件，然后 Kubernetes 管理组件正常执行AI 应用的创建流程，由 Kubernetes 服务代理创建最终 POD 作为。

点击阅读更多内容