
典型相关分析的实例.ppt
55页Canonical Correlation Analysis典型相关分析典型相关分析一一、、引言引言 1. 两个随机变量Y与X 简单相关系数2. 一个随机变量Y与一组随机变量X1,X2,…, Xp 多重相关(复相关系数)3. 一组随机变量Y1,Y2,…,Yq与另一组随机变量X1,X2,…,Xp 典型典型( (则则) )相关系数相关系数(一)何时采用典型相关分析(一)何时采用典型相关分析 典型相关是简单相关、多重相关的推广;典型相关是简单相关、多重相关的推广;或者说简单相关系数、复相关系数是典型相或者说简单相关系数、复相关系数是典型相关系数的特例关系数的特例 典型相关典型相关是研究是研究两组变两组变量量之间相关性的一种统计分析之间相关性的一种统计分析方法也是一种降维技术也是一种降维技术 由由Hotelling (1935, 1936)Hotelling (1935, 1936)最早最早提出,提出,Cooley and Lohnes (1971)Cooley and Lohnes (1971)、、 Kshirsagar (1972)Kshirsagar (1972)和和 Mardia, Mardia, Kent, and Bibby (1979) Kent, and Bibby (1979) 推动了它推动了它的应用。
的应用 实例(X与Y地位相同) 1985年中国年中国28 省市城市男生省市城市男生(19~~22岁岁)的调查数据记的调查数据记形态指标形态指标身高身高(cm)、坐高、体重、坐高、体重(kg)、胸围、胸围、、肩宽肩宽、、盆骨宽分别为盆骨宽分别为X1,,X2,,…,,X6;;机能机能指标指标脉搏脉搏(次次/分分)、收缩压、收缩压(mmHg) 、、舒张压舒张压(变音变音)、、舒张压舒张压(消音消音)、肺活、肺活量量(ml)分别为分别为Y1,,Y2,,…,,Y5现欲研究这两组变量之间的相关性研究这两组变量之间的相关性 简单相关系数矩阵简单相关系数矩阵 简单相关系数公式符号简单相关系数公式符号CorrCorr((X X)=)=R R1111CorrCorr((Y Y)=)=R R2222CorrCorr((Y Y,,X X)=)=R R2121CorrCorr((X X,,Y Y)=)=R R1212简单相关系数简单相关系数描述两组变量的相关关系的缺点描述两组变量的相关关系的缺点 Ø只是孤立考虑单个只是孤立考虑单个X与单个与单个Y间的相关,间的相关,没有考虑没有考虑X、、Y变量组内部各变量间的相变量组内部各变量间的相关。
关Ø两组间有许多简单相关系数(实例为两组间有许多简单相关系数(实例为30个),使问题显得复杂,难以从整体描个),使问题显得复杂,难以从整体描述(二)典型相关分析的思想(二)典型相关分析的思想采用主成分思想寻找第i对典型典型( (相关相关) )变变量量(Ui,Vi):典型相关系数典型相关系数典型变量系数或典型权重典型变量系数或典型权重 X*1,X*2,…,X*p和Y*1,Y*2,…,Y*q分别为X1,X2,…,Xp和Y1,Y2,…,Yq的正态离差标准化值记第一对典型相关变量第一对典型相关变量间的典型相关系数为: =Corr(U1,V1)(使U1与V1 间最大相关) 第二对典型相关变量第二对典型相关变量间的典型相关系数为: =Corr(U2,V2)(与U1、V1 无关; 使U2与V2 间最大相关)..... …… 第五对典型相关变量第五对典型相关变量间的典型相关系数为: =Corr(U5,V5) (与U1、V1 、…、 U4、V4无关; U5与V5 间最大相关)有: 典型相关变量的性质典型相关变量的性质12η2η1典型变量典型相关系数•1与2是三个X变项的线性组合。
•η1与η2代表两个Y变项的线性组合典型加权系数(三)典型相关分析示意图(三)典型相关分析示意图二、典型相关系数及其检验二、典型相关系数及其检验 (一)求解典型相关系数的步骤(一)求解典型相关系数的步骤1.求X,Y变量组的相关阵 R= ;2.求矩阵 A、B 3. 4.可以证明A、B有相同的非零特征根;3. 求A或B的λi(相关系数的平方)与 , i=1,…,m,即 ;4. 求A、B关于λi的特征根向量即变量加权系数(二)典型相关系数计算实例(二)典型相关系数计算实例1.求X,Y变量组的相关阵 R=CorrCorr((X X)=)=R R1111CorrCorr((Y Y)=)=R R2222CorrCorr((Y Y,,X X)=)=R R2121CorrCorr((X X,,Y Y)=)=R R12122. 求矩阵求矩阵A、、BA矩阵矩阵(p×p)B矩阵矩阵(q×q)3. 求矩阵求矩阵A、、B的的λλ(相关系数(相关系数的平方)的平方)A A、、B B有相同的非零特征值有相同的非零特征值B矩阵求矩阵求λλ(典型相关系数的平方)(典型相关系数的平方)5个个λλ与典型相关系数与典型相关系数4. 4. 求求A A、、B B关于关于λλi i的变量系数的变量系数(求解第(求解第1 1典型变量系数)典型变量系数)求解第求解第2 2典型变量系数典型变量系数……求解第求解第5 5典型变量系数典型变量系数5 5组(标准化)典型变量系数组(标准化)典型变量系数(X)(X)5 5组(标准化)典型变量系数组(标准化)典型变量系数(X)(X)由标准化典型变量系数获得原变量由标准化典型变量系数获得原变量X X对应的粗典型变量系数对应的粗典型变量系数粗典型变量系数可由标准典型变量系数与相应的标准差之比获得。
5 5组(标准化)典型变量组(标准化)典型变量加权加权系数系数(Y)(Y)(三)典型相关系数的(三)典型相关系数的特点特点 1.两变量组的变量单位改变,典型相关系数不变,但典型变量加权系数改变无论原变量标准化否,获得的典型相关系数不变)2.第一对典则相关系数较两组变量间任一个简单相关系数的绝对值都大,即3. ρ1≥max(|Corr(Xi,Yj)|) 或4. ρ1≥max(|Corr(X,Yj)|) ≥max(|Corr(Xi,Y)|)(四)校正典型相关系数(四)校正典型相关系数((Adjusted Canonical Correlation)) 为了使结果更加明了,增加大值或小值,减少中间大小的值,将典型变量系数旋转,可得到校正的典型相关系数缺点:1.可能影响max(U1,V1); 2. 影响(U1,V1)与其他典型变量间的独立性((五五)典型相关系数的)典型相关系数的假设检验假设检验 1.全部总体典型相关系数均为02.部分总体典型相关系数为01. 全部总体典型相关系数为全部总体典型相关系数为0F近似检验(计算公式)近似检验(计算公式)F近似检验(近似检验(SAS结果)结果) Test of H0: The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr > F1 0.06798466 2.24 30 70 0.00302 0.28840509 1.38 20 60.649 0.16863 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920多变量统计量与多变量统计量与F近似检验近似检验• Multivariate Statistics and F Approximations•Statistic Value F Value Num DF Den DF Pr > F•Wilks' Lambda 0.06798 2.24 30 70 0.0030•Pillai's Trace 1.71651 1.83 30 105 0.0133•Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032• Roy's Greatest Root 3.24221 11.35 6 21 <.0001• NOTE: F Statistic for Roy's Greatest Root is an upper boun.多变量统计量的计算公式多变量统计量的计算公式2. 部分总体典型相关系数为部分总体典型相关系数为0仅对较小的典型相关作检验仅对较小的典型相关作检验卡方近似检验卡方近似检验部分总体部分总体F近似检验(计算公式)近似检验(计算公式)三、典型结构分析三、典型结构分析Ø与原变量间的相关程度和典型与原变量间的相关程度和典型变量变量加权加权系数有关。
系数有关典型变量与原变量的亲疏关系典型变量与原变量的亲疏关系Ø 原变量与自已的典原变量与自已的典型型变量变量 原变量与对方的典原变量与对方的典型型变量之变量之间的相关系数间的相关系数原变量在典型变量上的负荷原变量在典型变量上的负荷( (即原变量与典型变量间的相关系数即原变量与典型变量间的相关系数即原变量与典型变量间的相关系数即原变量与典型变量间的相关系数) )负荷矩阵的表达负荷矩阵的表达左上角的矩阵左上角的矩阵 X1=0.9050U1-0.0806U2+0.3777U3-0.1487U4+0.0887U5 X2=0.8616U1+0.0112U2+0.4152U3-0.0360U4+0.2412U5……X6右下角的矩阵右下角的矩阵 Y1= -0.4130 V1-0.0848V2+0.7353V3+0.4530V4+0.2764V5 Y2=0.4533V1+0.8452V2+0.0968V3+0.1433V4+0.2240V5…..Y5各典型变量的意义解释各典型变量的意义解释 等于该变量与自己这方典等于该变量与自己这方典型型变变量的相关系数与典则相关系数的乘量的相关系数与典则相关系数的乘积积 原变量与对方典型变量的相关原变量与对方典型变量的相关原变量与对方典型变量的相关原变量与对方典型变量的相关 右上角和左下角反映了原变量和对方的典型变量间关系,为利用对方的典型变量来预测原变量(回归)提供依据。
四、典型变量的冗余分析四、典型变量的冗余分析((Canonical Redundancy Analysis)) 该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展 以原变量与典型变量间相关为基础 通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度X原变量的相关被典型变量解释的百分比原变量的相关被典型变量解释的百分比Y原变量的相关被典型变量解释的百分比原变量的相关被典型变量解释的百分比 U1,U2,…,U5并没有完全概括X变量的全部信息(97.24%),而V V1 1,,V V2 2,,……,,V V5 5 却概括了Y变量的全部信息(100%); V V1 1,,V V2 2,,……,,V V5 5中仅蕴含X变量信息的48.44%,而U1,U2,…,U5中仅蕴含Y变量信息的43.96%实例冗余分析的解释。
