主成分分析与因子分析法课件.ppt
37页主成分分析法与因子分析法主成分分析法与因子分析法主要内容Ø主成分分析法主成分分析法 Ø因子分析法因子分析法Ø附:主成分分析法与因子分析法的区别附:主成分分析法与因子分析法的区别主成分分析法主成分分析法(Principal Components Analysis,PCA) Ø主成分分析法概述主成分分析法概述Ø主成分分析的基本原理主成分分析的基本原理 Ø主成分分析的计算步骤主成分分析的计算步骤 一、主成分分析概述ß假定你是一个公司的财务经理,掌握了公假定你是一个公司的财务经理,掌握了公司的所有数据,这包括司的所有数据,这包括众多的变量众多的变量,比如,比如固定资产、流动资金、每一笔借贷的数额固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分产值、利润、折旧、职工人数、职工的分工和教育程度等等工和教育程度等等ß如果让你向上级或有关方面介绍公司状况,如果让你向上级或有关方面介绍公司状况,你能够把这些指标和数字都你能够把这些指标和数字都原封不动地摆原封不动地摆出去吗出去吗?? 引子ß当然不能。
当然不能汇报什么?汇报什么?ß发现在如此多的变量之中,有很多是发现在如此多的变量之中,有很多是相关的人们希望能够找出它们的相关的人们希望能够找出它们的少少数数“代表代表”来对它们进行描述来对它们进行描述ß需要把这种有需要把这种有很多变量很多变量的数据进行高的数据进行高度概括,度概括,用少数几个指标简单明了地用少数几个指标简单明了地把情况说清楚把情况说清楚ß主成分分析主成分分析法法(( Principal Components Analysis ))和因子分析和因子分析法法((Factor Analysis))就就是把变量维数降是把变量维数降低以便于描述、理解和分析的方法低以便于描述、理解和分析的方法ß主成分分析也称为主分量分析,是一种通过降维来主成分分析也称为主分量分析,是一种通过降维来简化数据结构的方法:如何把多个变量化为少数几简化数据结构的方法:如何把多个变量化为少数几个综合变量(综合指标)个综合变量(综合指标) ,而这几个综合变量可以,而这几个综合变量可以反映原来多个变量的大部分信息,所含的信息又互反映原来多个变量的大部分信息,所含的信息又互不重叠,即它们之间要相互独立,互不相关。
不重叠,即它们之间要相互独立,互不相关ß这些综合变量就叫因子或主成分,它是不可观测的,这些综合变量就叫因子或主成分,它是不可观测的,即即它不是具体的变量它不是具体的变量, ,只是几个指标的综合只是几个指标的综合ß在引入主成分分析之前,先看下面的例子在引入主成分分析之前,先看下面的例子什么是主成分分析法?什么是主成分分析法?成绩数据ß53个个学学生生的的数数学学、、物物理理、、化化学学、、语语文文、、历历史、英语的成绩如下表(部分)史、英语的成绩如下表(部分) 从本例可能提出的问题ß能能不不能能把把这这个个数数据据表表中中的的6 6个个变变量量用用一一两个综合变量来表示呢?两个综合变量来表示呢?ß这这一一两两个个综综合合变变量量包包含含有有多多少少原原来来的的信息呢?信息呢?ß事实上,以上问题在事实上,以上问题在平时的平时的研究中,也会经研究中,也会经常遇到它常遇到它所涉及的问题可以推广到对企业、所涉及的问题可以推广到对企业、对学校、对区域进行对学校、对区域进行分析、评价、排序和分分析、评价、排序和分类类等ß比如对比如对n个个样本样本进行综合评价,可选的描述进行综合评价,可选的描述样样本本特征的指标很多,而这些指标往往存在特征的指标很多,而这些指标往往存在一一定的相关性定的相关性(既不完全独立,又不完全相关)(既不完全独立,又不完全相关),这就给研究带来很大不便。
这就给研究带来很大不便若选指标太多,若选指标太多,会增加分析问题的难度与复杂性,选指标太会增加分析问题的难度与复杂性,选指标太少,有可能会漏掉对少,有可能会漏掉对样本样本影响较大的指标,影响较大的指标,影响结果的可靠性影响结果的可靠性这就需要我们在相关分析的基础上,采这就需要我们在相关分析的基础上,采用主成分分析法找到几个用主成分分析法找到几个新的相互独立新的相互独立的综合指标的综合指标,达到既减少指标数量、又,达到既减少指标数量、又能区分样本间差异的目的能区分样本间差异的目的 二、主成分分析的基本原理二、主成分分析的基本原理ß(一)(一)主成分分析的几何解释主成分分析的几何解释ßß(二)主成分分析的基本思想(二)主成分分析的基本思想(一)主成分分析的几何解释(一)主成分分析的几何解释ß例例中中数数据据点点是是六六维维的的;;即即每每个个观观测测值值是是6维维空空间间中中的的一一个个点点希希望望把把6维维空空间间用用低低维维空空间间表表示ß先先假假定定只只有有二二维维,,即即只只有有两两个个变变量量,,语语文文成成绩绩((x1))和和数数学学成成绩绩((x2)),,分分别别由由横横坐坐标标和纵坐标所代表;和纵坐标所代表;ß每个学生都是二维坐标系中的一个点。
每个学生都是二维坐标系中的一个点ß因因为为在在实实际际应应用用中中,,往往往往存存在在指指标标的的量量纲纲不不同同,,所所以以在在计计算算之之前前须须先先消消除除量量纲纲的的影影响响,,而而将将原原始始数数据据标标准准化化为为了了实实现现样样本本数数据据的的标标准准化化,,应应求求样样本本数数据据的的平平均均和和方方差差对对数数据据矩矩阵阵Y Y作作标标准准化化处处理理,,即即对对每每一一个指标分量作标准化变换,变换公式为:个指标分量作标准化变换,变换公式为:ß其中,其中, 样本均值:样本均值: 样本标准差:样本标准差: ß原原始始变变量量 经经规规格格化化后后变变为为新新变变量量 ,,其均值为零,方差为其均值为零,方差为1 1ß对对二二维维空空间间来来讲讲n n个个标标准准化化后后的的样样本本在在二二维维空空间间的的分分布布大大体体为为一一椭椭圆圆形形,,该该椭椭圆圆有有一一个个长长轴轴和和一一个个短短轴轴在在短短轴轴方方向向上上数数据据变变化化很很少少,,极极端端的的情情况况下下,,短短轴轴如如退退化化成成一一点点,,长长轴轴的的方方向向可可以以完完全全解解释释这这些些点点的的变变化化,,由由二二维维到到一一维维的的降降维维就自然完成了。
就自然完成了•••••••••••••••••••••••••••••••••••••假定语文成绩假定语文成绩 ((X1)) 和数学成和数学成绩绩 ((X2)分别为)分别为标准化后的分数,标准化后的分数,右图为其散点图,右图为其散点图,椭圆倾斜为椭圆倾斜为45度如果将坐标轴如果将坐标轴 X1 和和 X2 旋转旋转45º ,那么点在新坐标,那么点在新坐标系中的坐标(系中的坐标(Y1,Y2)与原坐标()与原坐标(X1,X2)有如下的)有如下的关系:关系: Y1和和Y2均是均是X1 和和 X2的线性组合的线性组合•••••••••••••••••••••••••••••••••••••在新坐标系中,在新坐标系中,可以发现:虽然可以发现:虽然散点图的形状没散点图的形状没有改变,但新的有改变,但新的随机变量随机变量 Y1 和和 Y2 已经不再相已经不再相关而且大部分关而且大部分点沿点沿 Y1 轴散开,轴散开,在在 Y1 轴方向的轴方向的变异较大(即变异较大(即 Y1的方差较大)的方差较大) ,相对来说,在,相对来说,在 Y2轴方向的变异轴方向的变异较小(即较小(即 Y2 的的方差较小)方差较小) 。
在上面的例子中在上面的例子中 Y1 和和 Y2 就是原变量就是原变量 X1和和 X2的第一主成分和第二主成分实际上第一主成的第一主成分和第二主成分实际上第一主成分分 Y1 就基本上反映了就基本上反映了 X1 和和X2 的主要信息,因的主要信息,因为图中的各点在新坐标系中的为图中的各点在新坐标系中的 Y1 坐标基本上就坐标基本上就代表了这些点的分布情况,因此可以选代表了这些点的分布情况,因此可以选 Y1 为一为一个新的综合变量当然如果再选个新的综合变量当然如果再选 Y2也作为综合也作为综合变量,那么变量,那么 Y1 和和 Y2 则反映了则反映了 X1 和和 X2的全部的全部信息 22( (二二二二) ) 主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想主成分分析的基本思想 假如对某一问题的研究涉及假如对某一问题的研究涉及 p p 个指标,记为个指标,记为X X1 1,,X X2 2, …, , …, X Xp p,由这,由这 p p 个随机变量构成的随机向量为个随机变量构成的随机向量为X X=(=(X X1 1, , X X2 2, …, , …, X Xp p) ) ,设,设 X X 的均值向量为的均值向量为 ,协方差矩阵为,协方差矩阵为 。
设设Y Y=(=(Y Y1 1, , Y Y2 2 , , … , … , Y Yp p) ) 为对为对 X X 进行线性变换得到的合成随机向量,即进行线性变换得到的合成随机向量,即 (1)设设 i i=(=( i i1 1, , i i2 2 , …, , …, ipip) ) , , A A=(=( 1 1 , , 2 2 ,…, ,…, p p) ) ,则有,则有 (2)23且且 ((3)) 由是式由是式(1)(2)(1)(2)能够看出,可以对原始变量进行任意的线能够看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量性变换,不同线性变换得到的合成变量Y Y的统计特征显然是的统计特征显然是不一样的每个不一样的每个Y Yi i 应尽可能多地反映应尽可能多地反映 p p 个原始变量的信息,个原始变量的信息,通常用方差来度量通常用方差来度量““信息信息””,,Y Yi i 的方差越大表示它所包含的方差越大表示它所包含的信息越多。
由式(的信息越多由式(3 3)可以看出将系数向量)可以看出将系数向量 i i 扩大任意倍扩大任意倍数会使数会使Y Yi i 的方差无限增大,为了消除这种不确定性,增加约的方差无限增大,为了消除这种不确定性,增加约束条件:束条件:24 为了有效地反映原始变量的信息,为了有效地反映原始变量的信息,Y Y的不同分量包含的信的不同分量包含的信息不应重叠综上所述,式(息不应重叠综上所述,式(1 1)的线性变换需要满足下面的)的线性变换需要满足下面的约束:约束:(1) (1) 即即 ,,i i =1, 2, …, =1, 2, …, p p2) (2) Y Y1 1在满足约束在满足约束 (1) (1) 即的情况下,方差最大;即的情况下,方差最大;Y Y2 2是在满足是在满足约束约束(1) (1) ,且与,且与Y Y1 1不相关的条件下,其方差达到大;不相关的条件下,其方差达到大;…………;;Y Yp p是在满足约束是在满足约束(1) (1) ,且与,且与Y Y1 1,,Y Y2 2,,……,,Y Y p- p-1 1不相关的条件下,不相关的条件下,在各种线性组合中方差达到最大者。
在各种线性组合中方差达到最大者 满足上述约束得到的合成变量满足上述约束得到的合成变量Y Y1 1, , Y Y2 2, …, , …, Y Yp p分别称为分别称为原始变量的第一主成分、第二主成分、原始变量的第一主成分、第二主成分、……、第、第 p p 主成分,而主成分,而且各成分方差在总方差中占的比重依次递减在实际研究工且各成分方差在总方差中占的比重依次递减在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的构的目的三、主成分分析的计算步骤ß( (一一) )计算相关系数矩阵计算相关系数矩阵ß( (二二) )计算特征值与特征向量计算特征值与特征向量ß( (三三) )计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率ß( (四四) )计算主成分载荷计算主成分载荷((一)计算相关系数矩阵一)计算相关系数矩阵 rij((i,,j=1,,2,,…,,p))为为原原变变量量xi与与xj标标准准化化后后的的相关系数,相关系数, rij=rji,,其计算公式为其计算公式为()() ()() (二)计算特征值与特征向量(二)计算特征值与特征向量 1、解特征方程 ,求出特征值,并使、解特征方程 ,求出特征值,并使其按大小顺序排列其按大小顺序排列 2、分别求出对应于特征值 、分别求出对应于特征值 的特征向量的特征向量 ,要求,要求 =1,即 ,,即 ,其中 表示向量其中 表示向量 的第的第j个分量个分量,也就是说也就是说 为单位向量。
为单位向量29(三)计算主成分贡献率及累计贡献率(三)计算主成分贡献率及累计贡献率 主成分分析是把主成分分析是把 p p 个随机变量的总方差分解为个随机变量的总方差分解为 p p 个不相个不相关随机变量的方差之和关随机变量的方差之和 1 1 ++ 2 2 ++……++ P P,则总方差中属于,则总方差中属于第第 i i 个主成分(被第个主成分(被第 i i 个主成分所解释)的比例为个主成分所解释)的比例为 称为第称为第 i i 个主成分的贡献率定义个主成分的贡献率定义 称为前称为前 m m 个主成分的累积贡献率,衡量了前个主成分的累积贡献率,衡量了前 m m 个主成份对原个主成份对原始变量的解释程度始变量的解释程度 (四)计算主成分载荷计算主成分载荷 在主成分之间不相关时,在主成分之间不相关时,主成分载荷就是主成主成分载荷就是主成 分分z zi i与变量与变量x xj j之间的相关系数之间的相关系数因子分析法因子分析法((Factor Analysis,,FA))Ø因子分析法概述因子分析法概述Ø因子分析法的模型因子分析法的模型Ø附:主成分分析与因子分析的区别附:主成分分析与因子分析的区别(一)因子分析法概述ß因子分析法与主成分分析法都基于统计分因子分析法与主成分分析法都基于统计分析法,但两者有较大的区别。
析法,但两者有较大的区别主成分分析主成分分析是通过坐标变换提取主成分,也就是将一是通过坐标变换提取主成分,也就是将一组具有相关性的变量变换为一组独立的变组具有相关性的变量变换为一组独立的变量,将主成分表示为原始观察变量的线性量,将主成分表示为原始观察变量的线性组合而因子分析因子分析法是要构造因子模型,法是要构造因子模型,将原始观察变量分解为因子的线性组合将原始观察变量分解为因子的线性组合因此因子分析法是主成分分析法的发展因此因子分析法是主成分分析法的发展(二)因子分析法的模型ß狭义的因子分析法常与主成分分析法在处理方法上有相类似之处,都要对变量规格化,并找出原始变量规格化后的相关矩阵其主要不同点在于建立线性方程组时所考虑的方法,因子分析是以回归方程的形式将变量表示成因子的线性组合,而且要使因子数m小于原始变量维数p,从而简化了模型结构ß其步骤为: 将原始数据标准化→求标准化数据的相关矩阵→求相关矩阵的特征值和特征向量→计算方差贡献率与累计方差贡献率→确定因子→因子旋转→用原始的线性组合求各因子得分→求综合得分→得分排序因子模型的表达式为: 其矩阵形式为: 其中 为因子载荷。
数学上可以证明,因子载荷 就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性 F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子 附、主成分分析与因子分析的区别主成分分析法与因子分析法的区别主成分分析法与因子分析法的区别。





