
数学建模(方红)教学课件 11.典型相关分析.ppt
12页现实生活中两组变量间的相关关系的问题很多, 例如家庭的特征(如户主的年龄、家庭的年收入、户 主的受教育程度等)与消费模式(如每年去餐馆就餐 的频率、每年外出看电影的频率等)等等为此, 1936年由Hulling提出了典型相关分析,揭示了两组 多元随机变量之间的关系典型相关分析,典型相关分析基本思想,通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质如果分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷首先分别在每组变量中找出第一对线性组合, 使其具有最大相关性,,,然后再在每组变量中再找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性,即u2和v2与u1和v1相互独立,但u2和v2相关,,,如此下去,直至两组变量的相关性被提取完为止例:蔬菜产出水平主要体现在蔬菜总产量(Y1)、人均 蔬菜占有量(Y2)、蔬菜总产增长速度(Y3)三个方面, 并称作因变量组(简称“产出组”)问题:因变量组 与自变量X1(市场经济综合因素)、X2(劳动力动力因 素) 、X3(气候因素)(简称“影响组”)的关系如何?,data ex; input y1-y3 x1-x3 @@; cards; /*数据省略*/ proc cancorr data=ex ;var y1-y3; with x1-x3; run;,程序运行结果如下:,结果表明:前两个典型相关系数较高,表明相应典型变量之间密切相关。
整理得到蔬菜产出水平与影响因素的三个自变量的 典型相关系数及特征值,结果表明:只有前两对典型变量通过了统计量检验, 表明相应典型变量之间相关关系显著,能够用三个自 影响变量来解释产出变量冗余度分析的结果,典型变量的解释能力,可以看出:①前两对典型变量的解释能力均较强;②第一、第二 对典型变量具有较高的解释百分比,典型相关系数的平方表明, 产出变量中分别有96.47%和65.68%的信息可以由相应的影响变 量予以解释;③前两对典型变量的重叠系数较大,产出组的方差 被影响组典型变量解释的比例分别为62.53%、13.49%由于第 三对典型变量在上述②、③项指标中的数值均较小,且未能通过 F检验.因此舍弃第三对典型变量,只选定前两对典型变量进行 分析典型相关模型结果如下:,结果分析:自变量X1即市场经济综合因素对中国蔬菜产出水平起根本性作用市场经济综合因素与蔬菜总产出的关系体现在第一对典型变量v1和w1中,v1是中国蔬菜产出水平各指标的线性组合,其中,蔬菜总产出(Y1)的载荷为6.164,是各产出水平指标中最大的w1是影响因素指标的线性组合,其中市场经济综合因素(X1)的载荷为0.9953,远远超过w1内其它指标的数值。
考虑到第一对典型相关变量的相关系数几乎接近于1,可以认为,市场经济综合因素对蔬菜总产出水平起根本性作用自变量X2即劳动力动力因素是决定人均蔬菜占有量的关键因素 第二对典型变量中.人均蔬菜占有量(Y2)在典型变量v2中的载荷为-15.075,是各产出水平指标中最大的,而自变量X2则在典型变量w2中载荷最大,为0.9591这一对典型相关变量的相关系数非常之高,表明自变量X2对劳动力动力因素起关键作用. 在第二对典型变量中,Y1与劳动力动力因素关系也非常密切因为在第二对典型变量中,Y1在v2中的载荷14.7443,与Y2差距并不明显由此可以分析得出,用Y1作为产出水平的代表,X1、X2、X3作为影响变量建立因果拟合模型效果是最好的。
