好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

2024高质量大模型基础设施研究报告.docx

46页
  • 卖家[上传人]:职**
  • 文档编号:597862295
  • 上传时间:2025-02-09
  • 文档格式:DOCX
  • 文档大小:2.93MB
  • / 46 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 高质量大模型基础设施研究报告(2024 年)2025年1月前 言随着大模型技术的飞速发展,模型参数量急剧增长,模型能力持续增强,智能应用百花齐放基础设施的可用性决定了大模型研发及服务的效率,大模型服务的可用性又决定了智能应用的服务质量在此背景下,高质量大模型基础设施成为推动大模型应用落地的关键要素目前,大模型基础设施普遍面临可用性低、稳定性差等问题,亟需从计算、网络、存储、软件和运维等多层面协同优化在同等计算资源条件下,通过多系统协同优化提升基础设施可用性,不仅可以提高大模型开发效率和服务能力,还能有效降低应用成本,加速大模型规模化落地本报告聚焦大模型基础设施的五大核心能力领域:计算、存储、网络、开发工具链和运维管理,系统梳理了大模型发展对基础设施提出的新需求,剖析基础设施发展的关键技术,并提出体系化评价指标同时,通过分析业界典型实践案例,为企业建设高质量大模型基础设施提供参考展望未来,大模型基础设施将与大模型一起迭代升级,并为大模型的规模化应用提供有力支撑本报告力求为相关领域的研究与实践提供参考,但难免有不足之处,恳请各位专家和读者不吝指正高质量大模型基础设施研究报告(2024 年)目 录一、 大模型基础设施概述 1(一) 大模型基础设施概念与特性 1(二) 大模型基础设施现状 4二、 大模型基础设施挑战 6(一) 计算资源分配粗放,利用率低成为新难题 7(二) 海量数据处理低效,数据存储成为新瓶颈 8(三) 并行计算规模攀升,网络通信成为新阻碍 10(四) 模型参数急剧增长,开发效率成为新约束 11(五) 基础设施故障率高,运维能力成为新挑战 14三、 大模型基础设施关键技术 15(一) 高效算力管理调度技术 15(二) 高性能大模型存储技术 16(三) 高通量大规模网络技术 18(四) 高效能大模型开发技术 20(五) 高容错大模型运维技术 22四、 高质量大模型基础设施评价指标 23(一) 指标体系 23(二) 指标定义 25五、 高质量大模型基础设施典型实践 27(一) 案例一:Meta 大模型基础设施实践 27(二) 案例二:蚂蚁集团大模型基础设施实践 29(三) 案例三:某科技公司大模型基础设施实践 31六、 总结与展望 33附录 高质量大模型基础设施规划建议 35图 目 录图 1 大模型基础设施架构图 1图 2 大模型基础设施能力矩阵 2图 3 大模型全生命周期对大模型基础设施的关键需求 7图 4 大模型基础设施网络互联 20图 5 高质量大模型基础设施评价体系 24图 6 Meta AI 集群系统框架图 28图 7 蚂蚁大模型基础设施架构 30表 目 录表 1 大模型基础设施技术能力评价指标 25表 2 大模型基础设施性能评价指标 26高质量大模型基础设施研究报告(2024 年)一、大模型基础设施概述大模型技术作为人工智能领域的突破性进展,正迅速推动各行各业的智能化转型。

      随着参数量的增长,大模型展现出强大的理解能力和复杂数据处理能力,在金融、医疗、政务等行业的应用日益广泛然而,参数量的增加也给大模型落地带来了巨大的挑战,提高大模型基础设施能力,满足大模型全生命周期对基础设施的新需求成为首要任务一)大模型基础设施概念与特性大模型基础设施是指支持大规模人工智能模型(如大语言模型、多模态大模型等)训练、部署和应用的硬件和软件资源的集,它包括高性能计算、海量数据存储、高速网络连接资源,以及相应的软件框架和工具链,旨在为大模型的开发、训练和推理提供高效、可靠和可扩展的支撑环境大模型基础设施整体架构如图 1 所示来源:中国信息通信研究院图 1 大模型基础设施架构图34大模型全生命周期要求大模型基础设施具备高可用、高性能、可扩展、可评价等特性大模型基础设施能力如图 2 所示来源:中国信息通信研究院图 2 大模型基础设施能力矩阵(1) 高可用:稳定的大模型业务支撑能力高可用是指在提高大模型基础设施平均无故障运行时间(Mean Time Between Failures,MTBF)的同时考虑更短的平均故障定位时间(Mean Time to Identify,MTTD)和平均故障恢复时间(Mean Time To Recovery,MTTR),综考虑存储、运维、开发软件等维度。

      可用度是指大模型基础设施集群在一定时间内提供正常服务的时间占总时间的比例,通常用百分比表示数据显示,当前集群可用度普遍低于 50%Meta 50000+卡训练任务1和 OpenAI GPT-4 25000卡训练任务集群算力可用度在 30%~40%之间,英伟达 Megatron-LM和微软 MT-NLG 10000+卡训练任务的集群算力可用度在 40%~50%之间,字节跳动万卡集群 MegaScale 集群算力可用度仅达 55.2%2大模型基础设施的可用度仍有较大提升空间平均无故障运行时间是全系统维度的考量,指大模型基础设施运 行时相邻两次故障之间的平均工作时间,也称为平均故障间隔平均故障定位时间是运维维度上的考量,指大模型作业运行时,基础设施集群出现故障到故障首次被发现的平均时间,关注的是故障定位效率平均故障恢复时间是存储、开发软件、运维等维度的考量,指大模型基础设施发生故障后修复所需的平均时间,关注故障恢复效率2) 高性能:高效的大模型业务运行能力高性能是指提高大模型基础设施的算力供给能力算力供给能力即“大模型基础设施算力规模”乘以“算力利用率”,综考虑计算与开发软件等维度算力规模和硬件算力利用率是计算维度的考量,算力规模指大模型基础设施理论计算规模,计算方式为“单节点算力规模”乘以“节点数”,理论算力规模数值越大,代表潜在的计算能力越大。

      硬件算力利用率(Hardware FLOPs Utilization,HFU)是指考虑重计算后,模型一次前反向计算消耗的矩阵算力与机器算力的比值硬件算力利用率越高,代表资源利用越充分3) 可扩展:资源需求与技术发展的共同选择可扩展指的是大模型基础设施在负载增加时,通过增加资源维持或提高性能的能力,在具备扩建能力的同时,兼具技术兼容的特性在资源需求上,可扩展性体现在既有基础设施的扩建和有效利用上随着企业大模型业务需求的不断增长,在成本控制的背景下,企业希望充分利用既有基础设施,对现有基础设施升级改造同时预留二次升级改造的接口,以适应不断发展的大模型业务需求在技术发展上,可扩展性体现在对计算、网络、存储、开发、运维等技术的“前”向接口兼容和“后”向更新迭代上计算软件、网络协议、存储软件、开发平和运维平等应支持不同品类、不同协议、不同技术路线的硬件产品,以实现大模型基础设施的可扩展4) 可评价:多角度反映大模型基础设施应用成效的多元评价可评价是指面向大模型应用场景,大模型基础设施可通过完整、有效的评价体系反映其赋能成效当前大模型基础设施评价体系存在评价维度单一等问题,亟需扩充评价维度,以便更系统、更全面、更深入地反映大模型基础设施赋能效果。

      一是明确大模型基础设施的评价指标,确定需要评估的特性或参数,如计算能力、存储性能、网络带宽、可靠性、可扩展性等二是建立评价方法,采用适当的工具和技术,收集和分析相关数据,以评估大模型基础设施的整体能力三是确定用于评价的数据采集与分析方法,通过检测、测试或模型模拟的方式,获取大模型基础设施运行过程中的数据,分析得出评价结果二)大模型基础设施现状技术方面,AI 存储能力提升,进一步提高基础设施可用度橡树岭实验室应用戴尔、DNN 公司等的新一代AI 存储,显著提升了数据存取速度,华为、清华大学 MADSys 实验室联开发的高密高性能AI 存储获得 MLPerf Storage 基准评测第一 ,为大模型基础设施 的存储优化提供技术支撑网络技术不断涌现,大模型基础设施通信效率提升中国电信提出了新的 RDMA 端到端拥塞控制机制3,该技术不仅可以有效提升智算中心网络通信效率,提高整体系统训练效率,同时还能够降低训练成本,有效提升国产化网络技术竞争力产业方面,科技大厂已形成完整的大模型基础设施生态亚马逊、微软、谷歌等厂商在大模型基础设施领域占据领先地位,已形成较为完整的生态系统如亚马逊、微软等已实现算力、平、模型、软件的垂直整,统一对外提供服务。

      百度、阿里、腾讯、华为等科技巨头纷纷加大在大模型基础设施方面的投入,均已形成涵盖“AI 计算平+AI 开发平+大模型”的全产业生态如百度智能云提出“打造大模型的新质基础设施”、商汤提出“AI 基础设施新范式-商汤大装置”等政策方面,各国家加大资金投入力度促进大模型基础设施发展 2024 年 9 月,拜登政府宣布将启动“AI 数据中心基础设施工作组”,旨在协调政府各部门,加速 AI 数据中心建设,以满足 AI 日益增长的电力和算力需求同时美国能源部将策划一套资源包(包括贷款、赠款、税收抵免和技术援助),帮助AI 数据中心所有者和运营商获得清洁、可靠的能源解决方案2024 年 6 月德国发布《人工智能计算基础设施行动计划》,目的是为工业界的人工智能开发人员提供具有国际竞争力的计算能力2024 年 9 月韩国发布《国家 AI 战略政策方向》,提出要扩大建设国家 AI 计算基础设施,计划以公私资方式建设“国家人工智能计算中心”我国相继出《算力基础设施高质量发展行动计划》《关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见》等文件,将算力基础设施及公共数据资源纳入国家创新要素供给,指导智能基础设施有序布局,避免重复建设。

      二、大模型基础设施挑战当前,大模型基础设施集群可用度低,可利用算力难以随集群部署规模线性增长英伟达、斯坦福大学和微软研究中心联发表的论文4显示,算力规模增加的同时,集群可用度明显下降大模型全生命周期对大模型基础设施提出新需求,如图 3 所示大模型基础设施亟须通过算、存、网、软件、运维协同优化提升可用度技术上,要求大模型基础设施具备高密度算存硬件、高性能无阻塞网络以及高并行度的通信和计算范式4D.Narayanan,et al, "Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM"SC21: International Conference for High Performance Computing,Networking, Storage and Analysis,St. Louis,MO,USA,2021,pp.1-14.来源:中国信息通信研究院图 3 大模型全生命周期对大模型基础设施的关键需求(一)计算资源分配粗放,利用率低成为新难题大模型参数由千亿向万亿发展,算力需求骤增。

      以GPT-4 为例,其具有 1.8 万亿参数,训练数据约 13 万亿个Token,训练算力约 2.15 × 1025FLOPS,相当于在 2.5 万张A100 加速卡上运行 90~100 天5大模型对计算资源的需求日益扩增,要求计算资源分配高效理训练任务排布不合理,资源碎片化严重一是多用户环境中,不 同用户的资源需求和使用模式互不相同,部分用户侧重大规模训练任务,部分用户仅运行小规模微调、推理任务不同用户的任务只通过可用资源总量进行限制,极易导致资源。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.