
工业大模型技术应用与发展报告1.0.ppt
25页工业大模型技术应用与发展报告1.02023.12编写单位(排名不分先后)牵头编写单位:中国信息通信研究院参与编写单位:百度网络技术(北京)有限公司羚羊工业互联网股份有限公司创新奇智科技集团股份有限公司智昌科技集团股份有限公司中国科学院自动化研究所中科云谷科技有限公司浪潮集团有限公司中科视语科技有限公司苏州海赛人工智能有限公司北京通用AI研究院中工互联北京科技集团有限公司西门子股份公司树根互联股份有限公司华为技术有限公司航天云网科技发展有限责任公司威派格智慧水务股份有限公司卡奥斯COSMOPlatIBM(国际商业机器(中国)有限公司)美云智数科技有限公司中科斯欧(合肥)科技股份有限公司阿里云计算有限公司腾讯计算机系统有限公司人工智能的几个相关概念型,在海量数据和计算资源的基础上通过具有大参数规模的深度学习模型型,广义还包括CV、多模态等各种模型类型练模型,大模型的一种类型,可生成内容一个典型产品大规模预训练模型生成式AI:能够生成文本、图片、视频等内容的智能技术,人工智能 机器学习深度学习GPT生成式AI(AIGC)成理、知能力通用人工智能(AGI)1.1 大模型成为通用AI新范式,引发工业应用变革讨论大模型+大数据发展主旋律(引发产业领域应用的热烈讨论与憧憬干亿参数产业应用场景成为大模型最佳“练兵场”科技日报GPT-1:1.1GPT-2:15亿GPT-3:1750GPT=4:1.4AI大模型落地背后,正带来一场智能制造的系统重构百度应用程序商店TB级数据1.2年工域超3000亿单词830GB代码数据1000个外包团队标注即时通讯E级智能超算总算力,未App Store 超195PFlops我国最快超算“神威太湖之光”1.7倍1.2 工业大模型与专用小模型成为工业AI发展的两条协同路径工业工业专用小模型传统模型结构1 满足大成、用 特定任务:点状场景应用效果更好 Tran 在大层面练,以实现良好的通用性 模型参数一般达十亿以上(最大 泛化性强:单模型应对多任务,更适合长尾落地模型参数已达万亿级)2具备在工业各环节进行应用的能力,或与工业装备软件等融合赋能工程层面 模型更新快:参数量少,可进行快速迭代 轻量化部署:所需存储空间和算力更小 低成本运维:低成本开发+维护1.3 大模型初步形成赋能工业的核心方式与产品形态3类主要4类模型产品形态大模型API调用或软件方案基于ChatGPT直接开展智能客服等应用基于通用能行业成熟工业产品叠加基础模型能力倍福将大模型融入 TwinCAT XAE客户端,实现基于对话辅助编程制造、矿山等行业大模型基于通用底座进行场景化适配调优或形成外挂插件工具航Ei3,用AlE面向工业或具体任务针对性开发Uni-Mol 科大讯飞推出星火一体机科学大模型2.1 大模型赋能工业领域的适用边界与核心能力适用问题:大工业领域应用变革 大场景 工业场景具备与设备/工业系统的自然交互与推理 涉及关联复杂 数据边界对决策效果有直接影响 生成创作规则式生成 工业代码/图文内容的”涌现式”生成 大语料 工业场景的基础数据/语料/规则 识优化分析约束充足预 问题边界清晰 结果存在于封闭信息环境,不 多依赖语料外的信息2.2 应用总体视图:4类核心模型、15+应用场景,目前处于初步探索阶段应用模式75%*信通院统计的全球79个大模型工业应用案例四类大:75%、,问答率先切入最具变革潜力交互为主要应用模式2.2(1)大语言模型:主要应用于工业问答交互、内容生成,以提升任务处理效率为主,暂未触及工业核心环节有望形成具有认知、自动化执行及结果交付的全链条能力工业相关性3%74%68%高2%21%问答交互:应用相对广泛,行业与设备的(半)开放数据是主要语料工业管理助手:实现BI设备控制与维保助手:从基于对话实现设备指令识别与维保知识获取罗克韦尔:将数字孪生与AIGC相结合,数据查询与图表询工业文档外挂与快索:实现设备诊断识查询、员工培训计合规检查统计行业、通用文档生成:基输入文本实现设计案、报告与邮件编低发代码生成工具,可通过NLP输入生成PLC代码生产设备管理研发BACANCY:基于RPA+GPT实现自动邮通用内容内容生成问答交互件回复等功能2.2(2)专业任务大模型:围绕研发形成辅助设计、药物研发两个重点方向,进一步增强研发模式的创新能力面向工界、降低创新成本与时间工业相关性需求导向77%高13%智能生成设计71%10%药物/材料研发智能辅助设计:基于图像或文本进行2D-CAD草图构建件及加工能力结合优突破化高效研发:整合基因库受样/结构库,加速材料发现、药物分子结构发现、性能预测效率测优化结构和见物质低华为:盘古药物分子大模型,能够基于图结构药物分子输入,实现高效的药物分子生成和药物分子定向优化,生成1亿药物分子,新颖性达99.68%研发设备、生产、管理格式转换知识发现2.2(3)多模态大模型与视觉大模型:在装备智能化和视觉识别领域应用获得初步尝试结合视频、语义、执行等多类型数据综合分析,有望构建认知能力的装备、系统方案及智能工厂工业相关性多模态大模型10%14%38%41%设备诊断:多模态大模型73%+外挂知识库,对异常图像、故障机理等进行融合分析,提升复杂异常识别精度高7%多模态大模型17%视觉大模型视觉大模型:在有限数据前提下增强单个AI质检/巡检模型的能力,降低开发门槛与成本具身智能复杂环境虚拟训练与交互:基于视觉-语言-动作大模型识别当前环境自动生成控制指令,增强机器人复杂任务执行能力国家电网:电力大模型每分钟处理100张异常图像、同时,通缺陷检测/设备巡检:基于视觉大模型替代原有小模型,实现单模型多视觉任务多场景赋能信息+虚作规划低视觉大模型,驱动机器人在虚拟空间生成规划路线大模型根据图像进行工业异常检测,并输出高质量特征描述研发设备生产管理谷歌:RT-2基于视觉-动作-语言大模型,利用网络图片文字数据训练,在陌生情景执行率达到 62%通用识别问答交互综合应用3 技术体系:大模型是工业AI深度学习路径的深化与拓展工业适配过场景适配和多种形式部署调用,实工业大模型落地赋能数应用技术4基础模核心理论用大模型有望成为赋能行业主力军大模型与知识工程等固有技术融合成为工业应用探索方向Transformer算法技术5数据科学机器学习 深度网络知识工程专家系统 知识图谱3其他学习方式高质用的框架平台基础 2工业数据/语料支撑算力1通用AI(工业)大模型3.1 算力:端/边缘侧推理的大模型专用计算有望成为未来趋势1大模型训练侧推理需满足工业应用及峰值QPS大模型每10亿模型,使用1张英伟达A100GPU进行生成的token数大约为60一体机及端侧优化芯片,实现推理加速模型精度float32(全)FP16int83.5G1.8G1.2G0.6G1G联合华为发布爱 芯 元 智-片,PSint4 西工大:基于大模型的多设备协同,采用云端统一控制,需求为单卡40903工业算力智能分 云端大算力和终端小算力的平衡使算力分配和性能达到最优3.2 数据:海量高质工业数据/语料库将成为落地部署的关键要素应用Prompt语料几类核心提示语料库视觉大模型语言大模型景数百张 工业问答检索提示词数据的占比约10-15%问答场景:X查询内容-X回某模型A:40TB 中文文本X模型效果与数据量强相关,通专业任务/多 RT-2:13 个机器人在办公室等环 盘古科学计算大模型:17亿个化合物分子的类药化学空间 Meta-ESMFold:1.25亿蛋白质分子结构数据模态function+prompt将语言指令和action映射3.3 工具链+模型:低门槛开发和轻量化部署成为工业大模型探索重点各主体围绕大模型开发到部署全流程工具链,多推理后端兼容、半自动微调成为重点知识蒸馏成为模型层面降低工业部署应用成本的探索途径 与多推理后端兼容,实现工业低成本迁移需兼顾减轻模型体量、维持性能衰减,较具数学挑战性小模型-1小模型-2知识传递大模型 飞桨通过标准化部署接口,实现不同推理后端的零成本迁移2个主流路径,工业领域以跟随应用为主 兼容20余家芯片厂商硬件设备,实现云边端全场景协同模型压缩模型增强 模型微调由手动向半自动化演进在相同的带标签数据集上指导子模型训练,形成高效小规模网络利用其它数据资源或优化策略(相互学习等)提高子模型性能手动调参半自动化调参企业调参方式可视化界面参数设置模型性能观测MakerSuite工具迭代prompt数据、算法要求较高,尚无工业实例对开源大模型进行蒸馏+预训练+指令微调,形成工业大模型AInno-15B(150亿参数)自动合成数据扩充数据集基于信息抽取能力,简化训练数据获取无默认参数人工调参集成AIGC能力,基于自然语言模型性能观测实现调参3.4 基础模型:通用大模型的快速演进和专用大模型的能力升级面向更多样数迭代创新的数字支撑能力提升是主要方向,发现与产品设计形成初步成果1、时序数据大过程数据,赋能TimeGPT结构化专业数据嵌入表示能力,训练性是提升模型性能核心、二维拓扑图转向三维表征的先进表征技术是探索方向据点测试:超30万个时序数据集,开展时、日、周、月的预测评估机构细分方向大模型数据集大小2、多模态能力持续创新,加速实现工业图像几何、机理、文档等各类数据模型的综合感知和认知推理蛋白质结构预测等UR50/D1.25亿(1维)MetaESMFold基于序列数据开展优化,为现阶段主流药物分子生成优化药物分子17亿(2维)华为Pangu基于分子特性开展探索,在领域93%数据集中表现最优分子性质预测等多数据集混合GPT-4.5融合了处理3D模型和视频的能力深势科技Uni-Mol2.09亿(3维)深势科技发布Uni-Mol,直接将分子三维结构坐标信息作为模型输入输出3.5 大模型+工业知识图谱:大模型可能对通用知识图谱产生一定冲击,融合共生是发展趋势赋能图谱加速图谱构建到应用过程 本体构建大模型 使用大模型Prompt生成事件的本体 数据增强 知识图谱直接文本化,训练前 利用GPT生成标注数据/数据清作为预训练语料洗,降低知识图谱标注端成本 将知识图谱隐式地加入到模型训练,即谱中的结构化信息(三元组)融入预训练 将知识图谱作为大模型训练评估训练中训练后全 知识图谱注入prompt/知识库外挂,增 对大模型生成结果进行知识校验,增强图谱增强大模型事实验证能力,扩展专业知识范畴,提升可解释性赋能大模型3.6 应用部署:三类核心部署方式,当前以通用模型场景化应用为主通用模型应用(公)通用模型场景化应用特定领域专用模型(私)无参数更新-Prompt设计外挂知识库(公/私)参数更新微调(公/私)工业应用上下文学习/知识梳理Prompt设计工业大模型微调/量化/蒸馏/增强.私有数据库领域大模型工业应用Prompt设计训练部署原理API接口/插件匹配/检索领域数据库通用大模型通用大模型外挂知识库通用大模型模型结构设计隐私性语料1.通用场景2.场景公开语料充足基于模式通用工业领域知识适用领域材料代码生成、故取分析、企业设备控制、文档处理、邮件回复典型场景应用案例蛋白质结构预测,150亿参数 谷歌-PALM-E:基于机器人17个月数据的VLA模型ChatGPT:可直接生 百度-文心:GPT:基于ChatGPT与自有数据,提高效率 华为-盘古行业大模型文档,分析故障原因 SymphonyAI:外挂工业成简单功能的西门子PLC程序数据集,实现机器诊断4 产业体系:不同主体布局以及技术产品升级业科研机构/科技巨头主体体系审查、设控、操作答工具工业大模型产品方案大模型代码生 大模型异构智成+检查代码 能机器人协同工业产品融合供行业/领域大模等场景大模型+药物分型大模型子、矿山等行业大模型基础大模型语言、CV等基础大模型框架平台计算设施大模型全链路工具链与AI昇腾支撑能力推广打通“通用底座+一站式开发+行业赋能”全链条将大模型融入已有工业技术产品模型技术和产品等前沿方向创新的引领者面向特定任务/领域的模型与轻量化工具4.1 大模型+装备:增强具身智能水平。












