
第十讲典型相关分析讲课文档.ppt
52页第十讲典型相关分析第一页,共五十二页优选第十讲典型相关分析第二页,共五十二页两个变量时两个变量时,用线性相关系数用线性相关系数研究两研究两个变量之间的线性相关性个变量之间的线性相关性:返回返回第三页,共五十二页 典型相关典型相关是研究两组变量之间是研究两组变量之间相关性的一种统计分析方法也是相关性的一种统计分析方法也是一种降维技术一种降维技术 典型相关分析方法最早源于荷泰林典型相关分析方法最早源于荷泰林(H,Hotelling)于于1936年在年在生物统计生物统计期刊上发表的一篇论文期刊上发表的一篇论文两组变式之两组变式之间的关系间的关系他所提出的方法经过多年的应用及发展,逐渐达他所提出的方法经过多年的应用及发展,逐渐达到完善,在到完善,在70年代臻于成熟年代臻于成熟如如CooleyandLohnes(1971)、Kshirsagar(1972)和和Mardia,Kent,andBibby(1979)推动推动了它的应用了它的应用 第四页,共五十二页5第一节 典型相关分析的基本思想如何研究两组两组变量之间的相关关系呢?如何进一步确定两组变量在整体整体上的相关程度呢?第五页,共五十二页 通常情况下,为了研究两组变量 的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有pq个简单相关系数,这样又烦琐又不能抓住问题的本质。
如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个线性组合,讨论线性组合之间的相关关系,则更简捷第六页,共五十二页 在解决实际问题中,这种方法有广泛的应用如 , 在 工 厂 里 常 常 要 研 究 产 品 的q个 质 量 指 标 和p个原材料的指标之间的相关关系;可以采用典型相关分析来解决如果能够采用类似于主成分的思想,分别找出两组变量的线性组合既可以使变量个数简化,又可以达到分析相关性的目的第七页,共五十二页例子(数据例子(数据tv.txt) n业内人士和观众对于一些电视节目的观点有什么业内人士和观众对于一些电视节目的观点有什么样的关系呢?该数据是不同的人群对样的关系呢?该数据是不同的人群对30个电视个电视节目所作的平均评分节目所作的平均评分n观众评分来自低学历观众评分来自低学历(led)、高学历、高学历(hed)和和网络网络(net)调查三种调查三种,它们形成第一组变量;它们形成第一组变量;n而业内人士分评分来自包括演员和导演在内的而业内人士分评分来自包括演员和导演在内的艺术家艺术家(arti)、发行、发行(com)与业内各部门主管与业内各部门主管(man)三种,形成第二组变量。
人们对这样三种,形成第二组变量人们对这样两组变量之间的关系感到兴趣两组变量之间的关系感到兴趣 第八页,共五十二页第九页,共五十二页寻找代表寻找代表 n如直接对这六个变量的相关进行两两分析,如直接对这六个变量的相关进行两两分析,很难得到关于这两组变量之间关系的一个很难得到关于这两组变量之间关系的一个清楚的印象清楚的印象n希望能够把多个变量与多个变量之间的希望能够把多个变量与多个变量之间的相关化为两个变量之间的相关相关化为两个变量之间的相关n现在的问题是为每一组变量选取一个综合现在的问题是为每一组变量选取一个综合变量作为代表;变量作为代表;n而一组变量最简单的综合形式就是该组而一组变量最简单的综合形式就是该组变量的线性组合变量的线性组合第十页,共五十二页 利用主成分分析的思想,可以把多个变量与多个变量之间的相关转化为两个变量之间的相关主成分综合变量找出系数 和 使得新变量和之间有最大可能的相关系数典型相关系数)即使第十一页,共五十二页例例 家庭特征与家庭消费之间的关系家庭特征与家庭消费之间的关系 为了了解家庭的特征与其消费模式之间的关系调查了70个家庭的下面两组变量:分析两组变量之间的关系。
第十二页,共五十二页X1X2y1y2y3X11.000.800.260.670.34X20.801.000.330.590.34y10.260.331.000.370.21y20.670.590.371.000.35y30.340.340.210.351.00变量间的相关系数矩阵变量间的相关系数矩阵第十三页,共五十二页y2y3y1x2x1第十四页,共五十二页典型相关分析的基本理论典型相关分析的基本理论n由于一组变量可以有无数种线性组合由于一组变量可以有无数种线性组合(线性组合由相应的系数确定),因此(线性组合由相应的系数确定),因此必须找到既有意义又可以确定的线性组必须找到既有意义又可以确定的线性组合n典型相关分析典型相关分析(canonical correlation analysis)就是要找到这两组变量线性组就是要找到这两组变量线性组合的系数使得这两个由线性组合生成的变合的系数使得这两个由线性组合生成的变量(和其他线性组合相比)之间的相关系量(和其他线性组合相比)之间的相关系数最大 第十五页,共五十二页典型变量典型变量n假假定定两两组组变变量量为为X1,X2,Xp和和Y1,Y2,Yq,那那么么,问问题题就就在在于于要要寻寻找找系系数数a1,a2,ap和和b1,b2,bq,和和使使得得新新的的综综合合变变量量(亦亦称称为为典典型型变变量量(canonical variable))之之间间的的相相关关关关系系最最大大。
这这种种相相关关关关系系是是用用典典型型相相关关系系数数(canonicalcorrelationcoefficient)来来衡衡量量的第十六页,共五十二页典型相关系数典型相关系数 n这这里里所所涉涉及及的的主主要要的的数数学学工工具具还还是是矩矩阵阵的的特特征征值值和和特特征征向向量量问问题题而而所所得得的的特特征征值值与与V和和W的典型相关系数有直接联系的典型相关系数有直接联系n由由于于特特征征值值问问题题的的特特点点,实实际际上上找找到到的的是是多多组组典典型型变变量量(V1, W1), (V2, W2),,其其中中V1和和W1最相关,而最相关,而V2和和W2次之等等,次之等等,第十七页,共五十二页典型相关系数典型相关系数 n而而且且V1, V2, V3,之之间间及及而而且且W1, W2, W3,之之间间互互不不相相关关这这样样又又出出现现了了选选择择多多少少组组典典型型变变量量(V, W)的的问问题题了了实实际际上上,只只要要选选择择特特征值累积总贡献占主要部分的那些即可征值累积总贡献占主要部分的那些即可n软软件件还还会会输输出出一一些些检检验验结结果果;于于是是只只要要选选择择显显著的那些著的那些(V, W)。
n对对实实际际问问题题,还还要要看看选选取取的的(V, W)是是否否有有意意义义,是是否否能能够够说说明明问问题题才才行行至至于于得得到到(V, W)的的计计算算,则则很很简简单单,下下面面就就tv.txt数数据据进进行分析数学原理?数学原理?第十八页,共五十二页计算结果计算结果 n第第一一个个表表为为判判断断这这两两组组变变量量相相关关性性的的若若干干检检验验,包包括括Pillai迹迹检检验验,Hotelling-Lawley迹迹检检验验,Wilksl检检验验和和Roy的的最最大大根根检检验验;它它们们都都是是有有两两个个自自由由度度的的F检检验验该该表表给给出出了了每每个个检检验验的的F值,两个自由度和值,两个自由度和p值(均为值(均为0.000)第十九页,共五十二页计算结果计算结果 n下下面面一一个个表表给给出出了了特特征征根根(Eigenvalue),特特征征根根所所占占的的百百分分比比(Pct)和和累累积积百百分分比比(Cum.Pct)和和典典型型相相关关系系数数(CanonCor)及及其其平平方方(Sq.Cor)看看来来,头头两两对对典典型型变变量量(V,W)的的累累积积特特征征根根已已经经占占了了总总量量的的99.427%。
它它们们的的典典型型相相关关系系数数也都在也都在0.95之上第二十页,共五十二页计算结果计算结果 n对对于于众众多多的的计计算算机机输输出出挑挑出出一一些些来来介介绍绍下下面面表表格格给给出出的的是是第第一一组组变变量量相相应应于于上上面面三三个个特特征征根根的的三三个个典典型型变变量量V1、V2和和V3的的系系数数,即即典典型型系系数数(canonicalcoefficient)注注意意,SPSS把把第第一一组组变变量量称称为为因因变变量量(dependentvariables),而而把把第第二二组组称称为为协协变变量量(covariates);显显然然,这这两两组组变变量量是是完全对称的这种命名仅仅是为了叙述方便完全对称的这种命名仅仅是为了叙述方便n这这些些系系数数以以两两种种方方式式给给出出;一一种种是是没没有有标标准准化化的的原原始始变变量量的的线线性性组组合合的的典典型型系系数数(rawcanonicalcoefficient),一一种种是是标标准准化化之之后后的的典典型型系系数数(standardizedcanonicalcoefficient)标标准准化化的的典典型型系系数数直直观观上上对对典典型型变变量量的的构构成成给给人人以以更更加加清清楚楚的印象。
的印象第二十一页,共五十二页可以看出,头一个典型变量可以看出,头一个典型变量V1相应于前面相应于前面第一个(也是最重要的)特征值,主要代表第一个(也是最重要的)特征值,主要代表高学历变量高学历变量hed;而相应于前面第二个(次;而相应于前面第二个(次要的)特征值的第二个典型变量要的)特征值的第二个典型变量V2主要代主要代表低学历变量表低学历变量led和部分的网民变量和部分的网民变量net,但高学历变量在这里起负面作用但高学历变量在这里起负面作用第二十二页,共五十二页计算结果计算结果 n类类似似地地,也也可可以以得得到到被被称称为为协协变变量量(covariate)的的标标准准化化的的第第二二组组变变量量的的相相应应于于头头三三个个特特征征值值得得三个典型变量三个典型变量W1、W2和和W2的系数第二十三页,共五十二页第二十四页,共五十二页例子结论例子结论 n从从这这两两个个表表中中可可以以看看出出,V1主主要要和和变变量量hed相相关关,而而V2主主要要和和led及及net相相关关;W1主主要要和和变变量量arti及及man相相关关,而而W2主主要要和和com相相关关;这这和和它它们们的的典型系数是一致的。
典型系数是一致的n由由于于V1和和W1最最相相关关,这这说说明明V1所所代代表表的的高高学学历历观观众众和和W1所所主主要要代代表表的的艺艺术术家家(arti)及及各各部部门门经经理理(man)观观点点相相关关;而而由由于于V2和和W2也也相相关关,这这说说明明V2所所代代表表的的低低学学历历(led)及及以以年年轻轻人人为为主主的的网网民民(net)观观众众和和W2所所主主要要代代表表的的看看重重经经济济效效益益的的发发行行人人(com)观观点点相相关关,但但远远远远不不如如V1和和W1的相关那么显著(根据特征值的贡献率)的相关那么显著(根据特征值的贡献率)第二十五页,共五十二页SPSS的的实现实现n对例对例tv.sav,首先打开例,首先打开例14.1的的SPSS数据数据tv.sav,n通通过过FileNewSyntax打打开开一一个个空空白白文文件件(默默认认文文件件名为名为Syntax1.sps),再在其中键入下面命令行:),再在其中键入下面命令行:nMANOVA led hed net WITH arti com mann/DISCRIM ALL ALPHA(1) n/PRINT=SIG(EIGEN DIM).n再点击一个向右的三角形图标再点击一个向右的三角形图标(运行目前程序,运行目前程序,Run current),就可以得到所需结果了。
就可以得到所需结果了。
