1、因子分析法一、方法介绍基本思路:因子分析法是一种多元统计方法,它从研究相关矩阵内部的依赖关系出发,根据相关性大小把变量分组〔使得同组内的变量之间相关性不高,而不同组内的变量之间相关性较低〕,这样,在尽量减少信息丢失的前提下,从众多指标中提取出少量的不相关指标,然后再根据方差贡献率确定权重,进而计算出综合得分的一种方法.理论模型:设m个可能存在相关关系的测试变量z1,z2,……,zm含有P个独立的公共因子F1,F2,……,Fp,测试变量zi含有独特因子Ui,诸Ui间互不相关,且与Fj也互不相关,每个zi可由P个公共因子和自身对应的独特因子Ui线性表出: 〔1〕用矩阵表示:简记为 〔2〕且满足: P≤m; COV=0 〔即F与U是不相关的〕; E=0 COV=.即F1,……FP不相关,且方差皆为1,均值皆为0 E=0 COV=Im 即U1,……,Um不相关,且都是标准化的变量,假定z1,……,zm也是标准化的,但并不相互独立.式中A称为因子负荷矩阵,其元素<即<7.2-1>中各方程的系数>aij表示第i个变量在第j个公共因子Fj上的负荷,简称因子负荷,如果把zi看成P维因子空间的一个向量,则aij表示zi在坐标轴Fj上的投影.因子分析的目的就是通过模型〔1〕或〔2〕,以F代Z,由于一般有P<m,从而达到简化变量维数的愿望.二、使用软件和软件实现过程采用Eviews5.1、SPSS12.0、Stata5.1、SAS Release8.02 等计量软件均可完成上述因子分子模型,建议采用SPSS12.0操作.因子分析的基本步骤如下〔事物可观测原始变量为x1,x2,……,xp〕: <1>对原始变量标准化.在因子分析求解时若采用主成分法,由于主成分分析在通过总体协方阵求主成分时,往往优先顾与方差较大的变量,受变量的计量单位影响较大,有时会造成不合理的结果,所以为了消除这种影响,需在分析之前,对原始变量标准化.标准化最常规的方法是将原变量数列化为均值为0、方差为1的数列,即令; <2>求出标淮化数据zx1, zx2,……,zxp的协方差矩阵,或相关系数矩阵R<两者等价>; <3>求R的特征值与相应的一组正交单位特征向量; <4>计算累计贡献率,确定公共因子个数与因子载荷矩阵A; <5>对A作因子旋转<常为方差最大正交旋转>,使得能对公共因子给出合理的解释; <6>计算因子得分,根据得分对研究问题作比较分析. 上述计算步骤与作图可利用SPSS11.0软件来完成: <1>选择菜单中"Analyze->descriptive statistics->desctrptives...",对x l, x2,…,xp指标进行标准化处理,并将标准化后的变量保存在数据编辑窗口; <2>选择菜单中"Analyze->data reduction-factor",打开因子分析对话框,将标准化后的变量放人Variables中,进行主成分分析; <3>在主成分分析的基础上进行观察,发现提取几个公共因子较佳,在"factor->extract->numbers of facto"中输人公共因子的个数; <4>在"factor-rotation"中选择varimax,对因子进行方差最大旋转; <5>在"factor-score"中选regression,计算因子得分.三、一个简单例证:重庆城镇居民消费结构变动的因子分析 本文运用数理统计中的因子分析法,对重庆直辖后城镇居民消费结构的变动情况进行分析,认为居民消费主要受生存型消费和享受型消费两大因子的影响,分析表明这两型因子所占比重近几年来都稳定在8:2的水平上,并未发生大的变化.1、资料来源消费结构是人们在生活中消费的消费资料和接受的服务种类与其比例关系,也就是指各类消费支出在总消费支出中的比重.对居民消费支出按照人们实际支出的去向分类可分为食品、衣着、家庭设备与服务、医疗保健、交通通讯、文教娱乐与服务、居住、杂项商品与服务.分别记为X1 , X2 ,…… , X8.根据重庆市统计年鉴1998~2003 年各卷,得重庆市城镇居民消费结构变化如表1 所示.由表1 中资料可知,食品、衣着所占比重从1998 年开始是下降的.联合国提出的恩格尔系数<食品在总消费支出中的比重> 判定生活发展阶段的一般标准:60%以上为贫困, 50%~60%为温饱,40%~50%为小康,40%以下为富裕,可见重庆城镇居民消费水平已从小康迈向了富裕.家庭设备所占比重也是下降的,这说明居民对一般家庭设备的需求已经基本饱和,且由于总收入的增加,杂项支出所占比重也逐年下降.另一方面,表1 说明:医疗保健、交通通讯、文教娱乐和住房消费所占比重在逐年上升.这是因为随着社会的发展,居民的保健意识增强,更关注自身的身心健康,再加上医保制度的改革,所以医疗保健所占比重逐年上升;由于城镇居民家庭拥有小汽车的比例增加,移动通讯的普遍使用,网络通讯进入家庭,因而交通和通讯所占比重也是上升的;由于居民对自身进一步发展和子女教育的投入力度加大,并且在物资享受已经得到满足的情况下更加注重精神享受,所以文教和娱乐方面的支出增多;随着我国住房制度的改革,居民在居住上面的支出也出现了大幅增加.为了进一步研究消费结构的变化情况,下面用因子分析法,对表1 的数据进行统计分析.表1 重庆城镇居民消费结构变化〔%〕年份食品衣着家庭设备医疗保健交通通讯文教娱乐居住杂项1988 45.52 12.179.83.39612.926.094.111999 44.50 11.79.43.86.912.47.24.12000 40.40 10.18.75.47.414.494.62001 38.70 10.28.85.87.714.79.84.32002 38.00 9.87.16.89.716.79.32.62、消费结构的因子模型由表1 中资料得样本均值向量: X = <41.42 ,10.79 ,8.76 ,5.04 ,7.54 ,14.22 ,8.27 ,3.94> ,且用软件SPSS 计算变量的相关系数矩阵的特征值和贡献率见表2.由表2 可以看出变量相关系数矩阵有两个大的特征根为6.6721 和1.142 ,其累计贡献率达到98.292%,又根据图1 ,前两个公因子变化最大,说明前两个公因子提供了原始数据8 个指标所能表达的足够的信息.表2 相关矩阵的特征值与贡献率变量序列号因子分析初始解对变量的描述提取共因子后对变量的描述特征值方差贡献率累计方差贡献率特征值方差贡献率累计方差贡献率16.72084.01784.0176.72084.01784.01721.42014.27598.2921.14214.27598.29230.0831.03699.32940.0540.671100.00050.0000.000100.00060.0000.000100.00070.0000.000100.00080.0000.000100.000因此提取两个主因子,用主成份分析法和正交旋转法计算得旋转前后的因子载荷阵如表3 所示.表3因子载荷阵原始因子载荷阵旋转后因子载荷阵变量公因子共同度公因子1212X1-0.96-0.260.989-0.9410.323X2-0.942-0.3180.987-0.9580.264X3-0.960.250.984-0.6550.745X40.9940.1030.9990.881-0.472X50.961-0.2350.9790.664-0.734X60.969-0.1120.9520.74-0.036X70.8760.4610.980.984-0.109X8-0.6110.7870.993-0.0650.994由表3 可得消费结构的因子分析模型为选用回归法估算因子得分系数如表4 所示.表4 因子得分系数变量X1X2X3X4X5X6X7X8公因子序号1-0.246-0.2720.0040.1730.0030.6640.3340.3112-0.109-1.520.261-0.009-0.251-0.1620.2610.622由此计算5 年的因子得分如表5 所示. 表5 各年份因子得分因子19981999200020012002F1-1-1.29601-0.83920.718780.927680.48875F2-10.122770.180810.770190.64263-1.716413、结果分析从表3 可以看出,第一个主因子在X1, X2, X4, X6,X7 5 个方面有较大载荷,这几项指标主要反映居民为了生存必需要消费支出的变化情况,因此命名为生存型消费因子;第二个主因子在X3 , X5, X83 方面有较大载荷,这几项指标主要反映居民为了改善生活,提高生活效率如购买小汽车,使用移动通讯等方面的消费支出变化情况,因此命名为享受型消费因子.分类情况如表6 所示.表6 主因子分析高载荷指标因子命名1食品,衣着,医疗保健,文教娱乐,居住生存型消费因子2家庭设备,交通通讯,杂项商品与服务享受型消费因子结合表1 ,根据分类将各年数据相加,得生存型消费因子与享受型消费因子在1998 - 2002 年这5 年中所占比重如表7 所示.表7 各年份两型因子所占比重〔%〕19981999200020012002生存型消费因子80.1979.679.379.280.6享受型消费因子19.9120.420.720.819.4由表7 可知,这5 年来,生存型消费因子所占比重基本为80%左右,享受型消费因子所占比重为20%左右,各自的变化幅度不大.这说明虽然重庆市城镇居民的收入增加了,但是由于医疗、住房制度的改革和教育收费标准的提高,居民生存型消费支出在增加,但另一方面用于享受型消费支出也出现相应的增加,这两型因子所占比重基本维持在8:2 的水平上,说明重庆市城镇居民消费结构保持相对稳定,变化不大.四、评价与问题方法评价:因子分析法最大优势在于各综合因子的权重不是主观赋值而是根据各自的方差贡献率大小来确定的,方差越大的变量越重要,从而具有较大的权重;相反,方差。