
spss数据的因子分析剖析.ppt
57页zf,因子分析 (Factor Analysis),知识点,1、什么是因子分析? 2、理解因子分析的基本思想 3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义 4、因子旋转的意义 5、结合SPSS软件进行案例分析,2019/10/19,2 zf,案例1: 我们试图对某快餐店的质量进行评估,选择了就餐等待时间、清洁度等6个指标作为观测变量:,,,这些变量之间有高度的相关关系,这些变量能否综合成两个或多个因子?,这些彼此相关的变量会导致某些信息多次考虑,引起分析的偏误······,如何避免??,因子分析的基本理论,,2019/10/19,3 zf,除了主成分分析( PCA)外,还有用来实现‘降维’的其他方法吗 ??,因子分析 Factor analysis,1、什么是因子分析? 2、因子分析的基本思想? 3、因子分析与主成分分析的区别??,,,2019/10/19,4 zf,Spearman (1904) 发表的论文 “Generation intelligence objectively determined and measured”, American Journal Psychology 15,201-293. 被认为是因子分析研究的开端. 这篇文章主要是针对中学生考试成绩进行因子分析,2019/10/19,5 zf,当考虑该矩阵上三角中的相关元素会发现:(1)每一行元素呈递减的趋势,且递减的大小大致相当;(2)任意两列元素大致成比例。
究竟是什么因素在影响着学生的成绩呢?,2019/10/19,6 zf,Spearman 提出:标准化的每个原始变量可用以下的方程形式表示:,每门课程的考试成绩可用两个因素做解释:(1)总体智力水平因子general intelligence f ;(2) 特殊潜能因子 specific talents or deficiencies,Classics*、French*等是标准化后的考试成绩,均值为0,方差为1,f为公共因子,对各门课程的考试成绩均有影响,且其均值为0,方差为1; 为特殊因子,仅对第i门课程考试成绩有影响;其中f与 相互独立每门课程的考试成绩可看作为由一个公共因子和一个特殊因子之和,2019/10/19,7 zf,案例2:假设我们有学生以下几门课程的成绩Suppose we have students’ test scores for Mathematics (M), Physics (P), Chemistry (C), English (E), History (H), and French (F). 其相关系数矩阵如下:,这6门课程成绩可用两个或多个能力因子做解释吗?,在 M, P, C这几门课程之间有较高的相关关系; 在E, H, F这几门课程之间有较高的相关关系。
2019/10/19,8 zf,案例3:在企业形象或品牌形象的研究中,消费者可以通过一个有24个指标构成的评价体系,评价百货商场的24个方面的优劣 因子分析方法可以通过24个变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价而每个原始变量可表示为: 称 是不可观测的潜在因子,称为公共因子24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分 ,称为特殊因子2019/10/19,9 zf,1、什么是因子分析? 因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法2019/10/19,10 zf,2、因子分析的基本思想: 根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量之间的相关性较低每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子 因子分析将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。
注意: 原始变量是可观测的,而公共因子是不可观测的潜在变量我们需要计算每个公共因子得分,从而替代原始变量2019/10/19,11 zf,3、主成分分析分析与因子分析差异: (1)主成分分析模型是原始变量的线性组合,是将原始变量加以综合、归纳;而因子分析是将原始变量加以分解 (2)主成分分析中,主成分载荷是唯一确定的;因子分析中因子载荷不是唯一的 (3)因子分析中因子载荷的不唯一性有利于对公因子进行有效解释;而主成分分析对提取的主成分的解释能力有限2019/10/19,12 zf,例:对美国洛杉矶12个人口调查区的5个经济学变量的数据进行因子分析(12个地区调查表.sav),2019/10/19,13 zf,,,2019/10/19,14 zf,,,,,,,,,,,每个因子的载荷系数没有很明显的差别,所以不好命名.,为了对因子进行命名,可以进行旋转,使系数向0和1两极分化,第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表福利条件因子); 第二主因子对总人口和总雇员数有较大的载荷(代表人口因子).,2019/10/19,15 zf,因子分析的基本步骤,(1)因子分析的前提条件鉴定 考察原始变量之间是否存在较强的相关关系,是否适合进行因子分析。
如果原有变量相互独立,不存在相关关系,也就无需进行因子分析 (2)因子提取 研究如何在样本数据的基础上提取综合因子2019/10/19,16 zf,(3)因子旋转 通过正交旋转或斜交旋转使提取出的因子具有可解释性 (4)计算因子得分 求解各样本在各因子上的得分,为进一步分析奠定基础2019/10/19,17 zf,(1)计算相关系数矩阵(correlation coefficients matrix) 如果相关系数矩阵中的大部分相关系数值均小于0.3,即各变量间大多为弱相关,原则上这些变量不适合进行因子分析 (2)巴特利特球度检验(Bartlett test of sphericity) 其零假设H0:相关系数矩阵为单位矩阵(即原始变量之间无相关关系) 如果统计量卡方值较大且对应的sig值小于给定的显著性水平a时,零假设不成立即说明相关系数矩阵不太可能是单位矩阵,变量之间存在相关关系,适合做因子分析因子分析前提条件——相关性分析方法,2019/10/19,18 zf,(3)KMO(Kaiser-Meyer-Olkin)检验 KMO检验的统计量是用于比较变量间简单相关系数矩阵和偏相关系数的指标,数学定义为: KMO值越接近1,意味着变量间的相关性越强,原有变量适合做因子分析;越接近0,意味变量间的相关性越弱,越不适合作因子分析。
Kaiser给出的KMO度量标准:0.9以上非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合2019/10/19,19 zf,因子分析不仅仅要找出公共因子以及对变量进行分组,更重要的要知道每个公共因子的意义,以便进行进一步的分析 如果每个公共因子的含义不清,则可对因子载荷阵进行旋转因子旋转的目的:使每个变量在尽可能少的因子上有比较高的载荷,让某个变量在某个因子上的载荷趋于1,而在其他因子上的载荷趋于0即:使载荷矩阵每列或行的元素平方值向0和1两极分化因子旋转的目的及方法,2019/10/19,20 zf,因子旋转方法: (1)正交旋转:在旋转时始终保持公因子之间的相互独立性主要有以下方法:varimax方差最大旋转; quartmax四次最大正交旋转; equamax等量正交旋转 (2)斜交旋转:在旋转时,放弃了因子之间彼此独立的限制,旋转后的新公因子更容易解释主要有以下的方法: direct oblimin直接斜交旋转; promax斜交旋转方法2019/10/19,21 zf,生育率受社会、经济、文化、计划生育政策等很多因素影响,但这些因素对生育率的影响并不是完全独立的,而是交织在一起,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能保留两三个变量,其他变量的信息就损失了。
因此,考虑用因子分析的方法,找出变量间的数据结构,在信息损失最少的情况下用新生成的因子对生育率进行分析 选择的变量有:多子率、综合节育率、初中以上文化程度比例、城镇人口比例、人均国民收入下表是1990年中国30个省、自治区、直辖市的数据案例分析3:生育率的影响因素分析,2019/10/19,22 zf,2019/10/19,23 zf,特征根与各因子的贡献,2019/10/19,24 zf,没有旋转的因子结构,2019/10/19,25 zf,2019/10/19,26 zf,方差最大旋转后的因子结构,标准化得分函数,在这个例子中我们得到了两个因子,第一个因子是社会经济发展水平因子,第二个是计划生育因子有了因子得分值后,则可以利用因子得分为变量,进行其他的统计分析2019/10/19,27 zf,因子分析的上机操作,2019/10/19,28 zf,2019/10/19,29 zf,,(01)建立数据文件,2019/10/19,30 zf,,(02)选择分析变量 ——选SPSS [Analyze]菜单中的(Data Reduction)→(Factor),出现【 Factor Analysis】对话框; ——在【 Factor Analysis】对话框中左边的原始变量中,选择将进行因子分析的变量选入(Variables)栏。
2019/10/19,31 zf,(03)设置描述性统计量 ——在【 Factor Analysis】框中选【 Descriptives】按钮,出现【 Descriptives 】对话框; ——选择 Initial solution (未转轴的统计量)选项 ——选择KMO 选项 ——点击(Contiue)按钮确定2019/10/19,32 zf,2019/10/19,33 zf,(04)设置对因子的抽取选项 ——在【 Factor Analysis】框中点击【Extraction】按钮,出现【 Factor Analysis:Extraction】对话框; ——在Method 栏中选择(Principal components)选项; ——在Analyze 栏中选择Correlation matrix选项; ——在Display 栏中选择Unrotated factor solution选项; ——在Extract 栏中选择Eigenvalues over 并填上 1 ; ——点击(Contiue)按钮确定,回到【 Factor Analysis】对话框中2019/10/19,34 zf,,,2019/10/19,35 zf,2019/10/19,36 zf,,(05)设置因子转轴 —— 在【 Factor Analysis】对话框中,点击【Rotation】 按钮,出现 【 Factor Analysis:Rotation 】(因子分析:旋转)对话框。
—— 在Method 栏中选择 Varimax(最大变异法) —— 在Display栏中选择 Rotated solution(转轴后的解) —— 点击(Contiue)按钮确定,回到【 Factor Analysis】对话框中2019/10/19,37 zf,,2019/10/19,38 zf,,(06)设置因素分数 —— 在【 Factor Analysis】对话框中,点击【Scores】 按钮,出现 【 Factor Analysis: Scores 】(因素分析:分数)对话框 —— 一般取默认值 —— 点击(Contiue)按钮确定,回到【 Factor Analysis】对话框2019/10/19,39 zf,2019/10/19,。
