好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

多元统计方法之主成分分析.ppt

100页
  • 卖家[上传人]:赵**
  • 文档编号:252204376
  • 上传时间:2022-02-10
  • 文档格式:PPT
  • 文档大小:1.26MB
  • / 100 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 计量数模提高班专题四主成分分析Principal Component Analysis, PCA多元统计方法计量数模提高班专题四1 1 引言引言2 2 主成分分析的基本概念主成分分析的基本概念 主成分分析的目标主成分分析的目标 主成分分析的数学模型主成分分析的数学模型 主成分的几何解释主成分的几何解释 主成分的几个性质主成分的几个性质 主成分的选取和使用条件主成分的选取和使用条件 主成分分析的算法主成分分析的算法3 3 主成分分析的应用案例(采用基本的主成分分析的应用案例(采用基本的MatlabMatlab命令)命令)4 4 Statistics ToolboxStatistics Toolbox中的主成分分析函数及应用中的主成分分析函数及应用5 5 SPSSSPSS在主成分分析中的使用及案例在主成分分析中的使用及案例计量数模提高班专题四 在学生学习过程中,已经修完p门课程,其成绩为x1,x2,xp,如何评价每个学生的综合能力?假设每门课程有权重c1,c2,cp,则加权之和为:s=c1x1+c2x2+cpxp每个学生对应这样一个成绩,假设有n个学生,其成绩分别为:s1,s2,sn如果这些值很分散,表明每个人的综合能力能很好地区分。

      关键是如何确定权重c1,c2,cp?在数学上反映的问题是什么呢? 1. 引言 计量数模提高班专题四 基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法 一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标, 另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律计量数模提高班专题四 一项十分著名的工作是美国的统计学家斯通一项十分著名的工作是美国的统计学家斯通(stone)(stone)在在19471947年年关于国民经济的研究他曾利用美国关于国民经济的研究他曾利用美国19291929一一19381938年各年的数据,年各年的数据,得到了得到了1717个反映国民收入与支出的变量要素,例如雇主补贴、消个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等 在进行主成分分析后,竟以在进行主成分分析后,竟以97.497.4的精度,用三个新变量就的精度,用三个新变量就取代了原取代了原1717个变量。

      根据经济学知识,斯通给这三个新变量分别个变量根据经济学知识,斯通给这三个新变量分别命名为总收入命名为总收入F F1 1、总收入变化率、总收入变化率F F2 2和经济发展或衰退的趋势和经济发展或衰退的趋势F F3 3更有意思的是,这三个变量其实都是可以直接测量的斯通将他得有意思的是,这三个变量其实都是可以直接测量的斯通将他得到的主成分与实际测量的总收入到的主成分与实际测量的总收入I I、总收入变化率、总收入变化率 I I以及时间以及时间t t因因素做相关分析,得到下表:素做相关分析,得到下表:计量数模提高班专题四F1F2F3iitF11F201F3001i0.995-0.0410.057li-0.0560.948-0.124-0.102lt-0.369-0.282-0.836-0.414-0.1121计量数模提高班专题四2. 主成分分析的基本概念 主成分分析的目标主成分分析的目标主成分分析,亦称主分量分析.数学本质数学本质利用降维技术,将多个变量(指标)归少数综合指标.结为线性无关的几个(少数)主成分(综合指标).目标目标化简多指标系统,构造方便系统分析的计量数模提高班专题四 主成分分析的数学模型主成分分析的数学模型 适合用主成分分析的数据具有如下结构:样本指标 主成分分析最大的问题是受量纲的影响,因此,实际应用中,需要对数据进行标准化。

      一般使用协方差矩阵或相关系数矩阵R进行分析x11x21x31xn1计量数模提高班专题四设原始设原始 样本点样本点 变量变量 型数据资料阵型数据资料阵其中其中 求线性组合求线性组合(主成分)(主成分) F Fi i表示第表示第i i个主成分个主成分,也即,也即计量数模提高班专题四 这是由这是由于一个主成分不足以代表原来的于一个主成分不足以代表原来的p p个变量的信息个变量的信息因此需要寻找第二个乃至第三、四个主成分,原则上,因此需要寻找第二个乃至第三、四个主成分,原则上,第二个主成分不应该再包含第一个主成分的信息,统计上第二个主成分不应该再包含第一个主成分的信息,统计上的描述就是让这两个主成分的协方差为零,几何上就是这的描述就是让这两个主成分的协方差为零,几何上就是这两个主成分的方向正两个主成分的方向正交满足条件满足条件 计量数模提高班专题四F F 2 2F F 1 1X X 1 1X X 2 2 主成分的几何解释主成分的几何解释 以最简单的二元正态变量来说明主成分的几何意义以最简单的二元正态变量来说明主成分的几何意义 . . 其其 n n 个样本点个样本点 的散布大致为一个椭圆的散布大致为一个椭圆. .n n 个点的个点的在平面上作一个坐在平面上作一个坐标变换标变换标变换标变换 ,即按,即按坐标坐标 X X1 1 和和 X X2 2 呈现某种线性相关性呈现某种线性相关性 . .逆逆时针时针时针时针 方向旋方向旋转转转转角度角度 . .在坐标系在坐标系 X X1 1 OXOX2 2 中,中,取新坐取新坐标轴标轴标轴标轴 ,在,在椭圆长轴椭圆长轴椭圆长轴椭圆长轴 方向取方向取F F1 1 , , 短短轴轴轴轴方向取方向取F F2 2 . .计量数模提高班专题四根据旋轴变换公式新老坐标之间有关系根据旋轴变换公式新老坐标之间有关系 n n 个点的坐标个点的坐标 F F1 1 和和 F F2 2 几乎不相关几乎不相关. .在坐标系在坐标系 F F1 1 OFOF2 2 中,中,F F 2 2F F 1 1X X 1 1X X 2 2在在 F F1 1 轴上的方差达到最大,在此方向上所含的有关轴上的方差达到最大,在此方向上所含的有关 n n 个个样品间差异的信息是最多的样品间差异的信息是最多的 ,故,故称称 F F1 1 为为 第一主成分第一主成分 . .在和在和 F F1 1 正交的正交的轴轴 F F2 2 上方差较上方差较小,称小,称 F F2 2 为为 第二主成分第二主成分 . .因此,用一维空间代替二维空因此,用一维空间代替二维空间时,选用间时,选用 F F1 1 可使信息的损失降到最小可使信息的损失降到最小. .这种系统简化方法体现了这种系统简化方法体现了抓事物主要矛盾抓事物主要矛盾的哲学思维的哲学思维. .= =?计量数模提高班专题四 主成分的几个性质矩阵为矩阵为 , , 的特征值为的特征值为 单位特征向量为单位特征向量为 令令 则则 记记 定理定理 设设 p p 个个 n n 维随机向量维随机向量 的协方差的协方差相应的相应的计量数模提高班专题四说明说明 主成分就是以协方差矩阵主成分就是以协方差矩阵的单位特征向量的单位特征向量之间互不相关,主成分的名次是按特征根取值大小的顺之间互不相关,主成分的名次是按特征根取值大小的顺为系数的线性组合,主成分方差为为系数的线性组合,主成分方差为的特征值,主成分的特征值,主成分序排列的序排列的. .推论推论1 1的的协协协协差差阵为对阵为对阵为对阵为对 角角阵阵阵阵主成分主成分推论推论2 2 主成分的总方差主成分的总方差 计量数模提高班专题四推论推论4 4 推论推论5 5 推论推论3 3 原始变量与主成分之间的相关系数原始变量与主成分之间的相关系数 计量数模提高班专题四 主成份的选取与使用条件 方差贡献率方差贡献率 第第 k k 个主成分的方差贡献率个主成分的方差贡献率 前前 k k 个主成分的累积方差贡献率个主成分的累积方差贡献率 在解决实际问题在解决实际问题时时, , 一般不是取一般不是取 p p个主个主成分成分, , 而是根据累计贡而是根据累计贡献率的大小取前献率的大小取前 k k个个, , 累计贡献率达到累计贡献率达到8585% %; ; 这样就基本包含了全这样就基本包含了全部测量指标所具有的部测量指标所具有的信息信息, , 这样即减少了变这样即减少了变量的个数有便于对实量的个数有便于对实际问题的分析和研究际问题的分析和研究 . . 计量数模提高班专题四 使用条件使用条件 主成分分析适宜用于大样本的场合主成分分析适宜用于大样本的场合. .主成分分析要求变量之间有一定的相关关系:主成分分析要求变量之间有一定的相关关系:计量数模提高班专题四 主成分分析的算法 设有n个样品,每个样品观测p项指标,将原始数据写成矩阵 将原始数据标准化(这里为了书写方便,不妨设上边矩阵已标准化了)。

      建立变量的相关系数阵计量数模提高班专题四 求得特征根 及相应的单位特征向量 写出主成分包括对主成分的解释计量数模提高班专题四 在企业经济效益的评价中,涉及的指标往往很多为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表5-7,即样品数n=28,变量数p=93. 主成分分析的应用案例 数据文件为czsr2003.txt.计量数模提高班专题四 100固定资资产产原值实现值实现值值(%)100元固定资产资产 原值值实现实现 利税(%)100元资资金实实现现利税(%)100元工业总产值业总产值实现实现 利税(%)100元销销售收入实现实现 利税(%)每吨标标准煤实现实现 工业产业产值值(元)每千瓦时电时电力实现实现 工业业产值产值 (元)全员劳动员劳动 生产产率(元/人.年)100元流动动资资金实现实现产值产值 (元)北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(3)94.817.217.9518.149.3711672.0312607322.2山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(5)54.799.249.5416.866.278941.87564225.4辽辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.7吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(12)110.7820.720.1218.696.614682.2312578341.1福建(13)122.7622.5219.9318.348.3522002.6312164301.2表3-1计量数模提高班专题四 江西(14)94.9414.714.1815.496.6916692.2410463274.4山东东(15)117.5821.9320.8918.659.118202.817829331.1河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(18)104.0321。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.