
利用偏最小二乘回归方法解析、优化烧结生产过程.doc
10页利用偏最小二乘回归方法解析、优化烧结生产过程提 要: 本文介绍了分析复杂系统规律的第二代多元统计分析方法——偏最小二乘回归方法(PLS)的原理和技术特点,利用国内第一款在Excel中实现PLS的软件——PEW(PLS+Excel+Word)对影响烧结矿成品率、转鼓强度和RDI的因素进行了分析此技术提供了一种模型简单有效,物理意义清晰明确的分析工具,可以打开错综复杂,影响因素交叉重叠这一看不见的生产过程黑箱,指导操作调整,指引改造升级,为解析、优化烧结乃至钢铁生产流程提供了一个很好的手段关键词 :偏最小二乘回归方法(PLS) 解析优化 烧结生产过程1 前 言烧结是一个非稳态、紧耦合、多时变的复杂系统,在烧结生产实践中,有时很想了解本单位在现有装备水平、原料条件下各种原料特性,各种工艺参数是如何影响烧结矿产量、质量、能耗指标或透气性等限制性环节的,更具体来说就是:众多工艺参数与产品产量、质量、能耗指标或透气性等限制性环节之间是什么关系如何能清晰地表明哪些参数对产品产量、质量、能耗指标或透气性等限制性环节而言是重要因素,哪些是次要因素;哪些是正相关,哪些是负相关;变动参数的一个单位对结果影响有多大;哪些数据点是特异点需要关注或剔除;得出这些结论可信度有多大。
由于各厂情况不一样,专业课本没有也不可能给出明确的公式,而实践经验往往也很模糊,从统计学角度来讲专家系统和神经网络预测的精度是最高的,但是专家系统和神经网络只能依据经验或采取随机试探的方法,具用一定的随意性,且对所描述对象的输入输出变量之间的关系往往缺乏很好的解释性传统的最小二乘回归能给出一个清晰的关系式,但由于变量之间存在多重相关性,使得模型精度不高,甚至出现与常识相悖的情况瑞典化学家伍德和阿巴诺于1983年提出的新型多元统计分析方法——偏最小二乘回归(PLS),它集多元线性回归分析、主成份分析、典型相关分析的基本功能为一体,很好地解决了普通多元回归无法解决的现实问题中普遍存在的自变量之间多重相关性和样本点容量过少的问题,被称为第二代的多元回归分析方法,其应用领域已经从最初的化工领域快速扩展到机械、生物、地质、医学、社会学以及经济学等领域人大常委会副主任、管理学专家、化工专家成思危对偏最小二乘回归(PLS)给予高度评价,他在给王惠文等著《偏最小二乘回归的线性与非线性方法》一书做序时写到:“••••••我立即感到PLS回归是一种非常有用的工具,有可能用来解决非线性、非稳态、非参数、紧耦合的复杂问题 ••••••”。
马鞍山市嘉逸科技工贸有限责任公司在国内率先将偏最小二乘回归(PLS)植入最普及、最易用的电子表格Excel中,并以最通俗易懂的Word方式输出,开发出PEW(PLS+Excel+Word)软件,无需编程,不需要外语和统计知识,一线的管理、技术、操作人员都能在Excel表格中简单两步完成操作,使得轻松解析、优化企业生产过程变成可能PEW(PLS+Excel+Word)软件开发成功后现已被用户应用于环境工程及管理、水处理、城市经济发展评价、水文地理,光谱、混凝土、国产大型客机造价预测、生态足迹等方面研究,本文利用该软件对烧结生产关注的几个问题进行解析2 偏最小二乘回归方法(PLS)原理2.1 概述 在一般多元线性回归模型中,有一组因变量Y={y1,y2,…,yq}(q为因变量个数)和自变量X={x1,x2,…,xm}(m为自变量个数),当数据总体满足高斯—马尔科夫定理时,由最小二乘法有式中 B为估计的回归系数 当X中的变量存在严重的多重相关性(变量本身物理意义决定了它们之间的相关性,或由样本点数量不足造成),式(1)中行列式(XTX)几乎接近于零,求解(XTX)-1时会含有严重的舍入误差,使回归系数估计值的抽样变异性显著增加。
更有甚者,当X中的变量完全相关时,(XTX)是不可逆矩阵,无法求解回归系数此时,若仍沿用最小二乘法拟合回归模型,回归结果将会出现许多反常现象,致使其精度、可靠性得不到保证在实际工作中,变量的多重相关性是普遍存在的偏最小二乘法能较好地解决这类问题2.2 偏最小二乘回归模型的思路 偏最小二乘回归是多元线性回归、典型相关分析和主成分分析的集成和发展其思路是:首先,从自变量集合X中提取成分th(h=1,2,…),各成分相互独立;然后,建立这些成分与自变量X的回归方程,其关键在于成分的提取与主成分回归不同的是,偏最小二乘回归所提取的成分既能很好地概括自变量系统中的信息,又能最好地解释因变量,并排除系统中的噪声干扰因而有效地解决了自变量间多重相关性情况下的回归建模问题2.3 偏最小二乘回归建模 当q=1时,为单变量偏最小二乘回归模型(记为PLS1);当q>1时,为多变量偏最小二乘回归模型本文给出应用比较广泛的PLS1的建模过程 (1)数据标准化处理 标准化的目的是使样本点的集合重心与坐标原点重合 (2)第一成分t1的提取的重新调整 从F0中提取第一个成分u1,在此,要求t1,u1能分别很好地代表X与y中的数据变异信息,且t1对u1有最大的解释能力。
根据主成分分析原理和典型的相关分析的思路,实际上是要求t1与u1的协方差最大,这是一个最优化问题经推导有式中 r(xi,y)为xi与y的相关系数 从t1中可以看出,t1不仅与X有关,而且与y有关;另外,若xi与y的相关程度越强,则xi的组合系数越大,其解释性就越明显 求得轴W1后,可得成分t1分别求F0, E0对t1的回归方程为 (3)第二成分t2的提取 以E1取代E0,F1取代F0,用上面的方法求第2个轴W2和第2个成分t2,有 (4)第h成分th提取 同理,可推求第h成分thh可用预测误差平方和PRESS最小原则进行识别h小于X的秩 (5)推求偏最小二乘回归模型 将式(8)代入式(7)得式(10)还可进一步写成原始变量的偏最小二乘回归方程为2.4主成份的确定原则 记yi为原始数据,t1,t2,…,tm是在偏最小二乘回归过程中提取的成分是使用全部样本点并取t1,t2,…,th个成分回归建模后,第i个样本点的拟合值 是在建模时删去i个样本点,取t1,t2,…,th个成分回归建模后,再用此模型计算的yi的拟合值。
记偏最小二乘法回归将多元校正的目标直接定位在预测上,当预测误差平方和PRESSh达到最小时,对应的th即为确定的主成份数目2.4偏最小二乘回归丰富的辅助分析内容偏最小二乘回归除了给出一个能清晰准确反映复杂系统规律的方程式外,还提供以下丰富的辅助分析内容,便于深入挖掘数据信息1).常用统计量 (2).变量间相关系数 (3).主成份数量确定的依据 (4).标准化数据回归方程系数直方图 (5).精度分析 (6).自变量与因变量相关关系 (7).自变量在解释因变量时的作用(VIPj)图 (8).组间相关关系的结构分析 (9).T2椭圆图与特异点的发现 (10).数据重构的质量分析 (11).偏最小二乘与普通最小二乘回归拟合比较 (12).偏最小二乘与普通最小二乘去一回归预测比较3. 偏最小二乘回归方法(PLS)技术特点3.1偏最小二乘回归方法(PLS)是先进的数据分析预测工具,解决了实际生产中参数之间相关和数据量少的问题预测精度高于普通最小二乘回归,在自变量区间之外进行预测,效果尤其明显3.2偏最小二乘回归方法(PLS)是成熟可靠的分析工具,已成为化学分析(特别是光谱分析)的行业标准,PLS方法已经固化在很多精密分析仪器之中,并广泛应用在工、农、医、科研、国防、经济、社会等领域。
3.3对于实际工业生产有很大现实意义,因为生产过程不可能稳定多个变量而只变动一个变量,在有些情况下也不允许试验,但参数又总是处在波动之中,参数实际上是通过竞争的方式影响指标现在工厂都有完善的检测数据,在很难实验的情况下,PLS可从生产数据中发现规律3.4不仅可解析复杂系统参数之间关系,从数据中发现规律,找到解决问题的办法,优化生产过程,从各关键工序点对生产进行控制,提高产质量 ,节能降耗并能直接面向关键问题、重大问题、老大难问题和限制性瓶颈问题,对这些问题提供全面最佳解决方案,正确自信地指导操作调整和进行技术改造3.5由于使用了主成分提取的方法,不仅可测量某个具体变量对指标的影响,还可确定某大类因素对指标的影响另外,PLS方法还具有其它统计方法不具备的辨别系统噪声的能力,能辨别重大影响点,发现需要剔除的异常数据,优化模型4 PEW软件(PLS+Excel+Word)技术特点4.1 PEW软件以Excel作为开发平台,与Excel无缝连接,成为Excel的一条菜单,无需编程,让PLS成为易用的工具克服PLS推广应用的语言、编程、统计知识障碍,让先进工具从象牙塔走向工厂车间4.2 PEW软件安装简单,使用方便,数据实现自动整理,结论以Word文档形式输出,一线人员无需学习统计知识都能理解,一般PLS软件都忽视了这一点。
另外,增加与普通最小二乘的详细比较,能体现PLS巨大优越性还提供丰富的图形、表格、文档,给专业人士提供丰富信息不仅便于理解,也便于打造高质量的论文和报告4.3只需要标记、确定两步就完成操作,象使用傻瓜相机一样使用先进工具省去学习、培训、交流的麻烦和费用 ,是工艺技术人员和生产操作人员的好帮手在中控室配备的话,大批核心操作岗位人员都能长期受益,在拥有专业知识,工作经验的基础上更拥有定性、定量的先进分析手段由于一线操作人员对数据有很好的甄别能力,得出的模型更准确可靠,在可调整的权限范围内从数据统计这一薄弱环节最大限度挖掘生产潜力,提升技术经济指标,产生无法估量的经济效益4.4全面部署本软件还可以在最短时间,以最低的成本全面快速有效提升管理、技术、操作三个层面群体,特别是为企业直接创造利润的操作群体,分析解决复杂问题的能力,打开错综复杂,影响因素交叉重叠的生产过程黑箱,找到一个物理意义清晰明确,简单有效的数学模型,指导操作调整,指引改造升级同时使企业主要工序控制点整体受控、优化,使得过去只有极少数高层次人材才能应用的先进技术遍地开花,最大限度挖掘潜力,为企业创造价值,推动技术经济指标不断上新台阶,效益、利润最大化。
5 烧结实例5.1烧结成品率与工艺参数的关系利用的是2005年1-8月份生产报表234个日平均数据,研究烧结矿成品率与机速、上料量、点火温度、终点温度、终点负压、烟道温度、烟道负压的关系1)自变量间相关关系 自变量间相关系数最大的为0.95,自变量之间存在高度相关性,将使普通最小二乘回归模型失准另外,机速与上料量之间相关系数为0.87,表明在当时高强度生产过程中,提高上料量时,机速只有随之提高,实际上是降低料层厚度来实现烧结终点的平衡;终点负压与烟道负压之间相关系数为0.95,反映出终点负压与烟道负压的高度随动性它们之间的关系均达到高度相关的程度,将会影响到普通最小二乘回归模型的可靠性2)自变量在解释因变量时的作用 表1变量投影重要性指标VIPj变量VIP值 机速1.082 重要因素上料量1.073 重要因素点火温度0.896 终点温度1.308 最重要因素终点负压0.466 烟道温度1.。












