好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

地理系统要素关系的主成分分析.doc

15页
  • 卖家[上传人]:206****923
  • 文档编号:37563044
  • 上传时间:2018-04-18
  • 文档格式:DOC
  • 文档大小:445.50KB
  • / 15 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第八章第八章地理系统要素关系的主成分分析地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能” ,为地理区域类型的划分和制定区域发展战略提供依据但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验 而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作例如有 30 测试指标,也许 10 多种指标即可代表由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的本章介绍主成分分析方法就是解决上述问题的数学方法§1 主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。

      主成分分析也称 K-L 变换因子分析不仅可以用来研究变量变量之间的相关关系,还可用来研究样品样品之间的相关关系,通常将前者称之为 R 型因型因子分析,后者称之为 Q 型型因子分析假设有 n 个地理样本,每个样本观测 p 个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在 p 维空间中加以考察,这是比较麻烦的为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好记原来的变量指标为,综合指标(新综合变量)为12,...,px xx() 即12,,...,mz zzmppmpmmmppppxlxlxlzxlxlxlzxlxlxlzLLLLLLLLLLLLL2211222121212121111可以要求 (单位向量)以限制 取值大小,利于对222 12...1kkkpllliz比。

      系数 由下列原则来决定:ijl(1) 与 互相无关(独立) ;izjz(, ,1,2,...,)ij i jm(2)是的一切线性组合中方差最大者;1z12,...,px xx为与不相关的的所有线性组合中方差最大者;2z1z12,...,px xx…为与都不相关的 的所有线性组合中方mz121,,...,mz zz12,...,px xx差最大者分别称做原指标的第一,第二,…,第 m 个主成分在12,,...,mz zz1z总方差中占的比例最大,其余主成分所占方差比例依次递减2,...,mzz从几何上看,找主成分的问题,就是找出 p 维空间中椭球体的主轴问题,从数学上容易得到它们是的相关矩阵中 m 个较12,...,px xx大特征值对应的特征向量也就是说寻找这样的坐标系旋转角,使得样本点在新坐标系中对主成分轴上的投影具有极大的方差主成分分析的实质就是要求出方差—协方差矩阵的特征向量及其对应的特征值,即要找出方差—协方差矩阵所确定的椭球的主轴,并确定其长度由于提取主成分的主要原则是使方差最大,为了排除量纲、数量级的影响,对原始数据先进行标准化处理(标准差标准化) ,这样方差—协方差矩阵即为相关系数矩阵。

      计算步骤:(1)计算相关系数矩阵 R(原始数据已进行标准化处理变换,也就是方差—协方差矩阵)(2)计算特征值和特征向量0IR求出特征值,按大小排序12...0;p然后,求出对应的特征向量i=1,2,…,p12,,...,Tiiiipllll(3) 计算主成分贡献率和累积贡献率可以证明:的方差等于;1z1的方差等于;2z2…的方差等于;pzp主成分 的贡献率 i=1,2,…,piz1pik k累积贡献率 11pmkk kk一般取累积贡献率达 85-90%的特征值 对应的12,,...,m ()mp主成分即可4)计算主成分载荷(i=1,2,..,p;k=1,2,…,m)(,)kki ki iilp zxS是主成分与变量之间的相关系数ikpkzix(5)计算主成分得分** 22* 11* 2* 222* 1212* 1* 212* 1111pmpmmmppppxlxlxlZxlxlxlZxlxlxlZLLLLLLLLLLLLLL是标准差标准化后的数据* ixix得到主成分得分矩阵nmnnmmZ ZZZ ZZZ ZZLLLLLLLLLLL212222111211主成分几大性质:主成分几大性质:性质性质 1:主成分的协方差矩阵对角阵:主成分的协方差矩阵对角阵性质性质 2:主成分的总方差等于原始变量的总方差:主成分的总方差等于原始变量的总方差: 性质性质 3:: ((i=1,2,..,p;k=1,2,…,m))(,)kki ki iilp zxS是主成分是主成分与变量与变量之间的相关系数之间的相关系数ikpkzix§2 因子分析法对 p 个变量进行因子分析的目的是研究它们有哪些共同因素,哪些是特殊因素,这些因素在变量分析中起什么作用。

      为研究方便,设着 p 个变量已进行标准差标准化变换,记为,或表示为12,,...,px xx向量形式12(...)pXx xx上述的 p 个因子(变量)会有一些共同因素,这些共同因素称为公共因子,记为(公共因子数目 m 通常要比原因子个数 p12,,...,mfff要少) ,也可记为向量形式对每一因子,除了可以有12(...)mFf ff一些公共因素的部分外,还有一些自身特殊因素,称为特殊因子因而因子模型可表示为下面形式:对第 k 个因子有kx1 122...kkkkmmkxa fafafu式中称为 m 个公共因子的荷载,为第 k 个因子的特殊12,,...kkkmaaaku部分U 为特殊因子向量,记为12(...)pUu uu因子模型的向量形式为XAFU式中矩阵 A 为因子荷载,记为11 1212122212....................... ...mmpppma aaa aaAa aa   为求得矩阵 A,对模型还要作些假定(样本容量为 n):(1)公共因子部分与特殊因子部分是无关的110FUUFnn(2) 公共因子是标准化变量,不同公共因子之间无关,即公共因子之间的协方差矩阵为单位阵1FFIn (3) 各特殊因子之间是无关的,第 个特殊因子的方差为,它k2 kkc们的协方差阵为C1UUCn 在上述假定下,个变量之间的相关阵可表为p11()()RXXAFUAFUnn由上述假定RAAC上述矩阵中的第 行第 列元素为kk212 kkmjkjkkcar该式表明第 个变量的方差可表示为公共性部分的方差和特殊k性部分的方差之和。

      记公共性部分的方差为221mkkj jha称为第 个变量的公共性,它反映了第 个变量被公共因子所2 khkk解释的那部分方差从几何意义上来说,因子模型中的因子荷载可看成为第kja个变量在个公共因子空间中第 个因子轴上的投影,变量数kmj据可看成为在该空间中的一个向量;可看成为第 个变量在2 khk该空间中的向量长度的平方作了标准化处理,与的协kxkxjf方差就是第 个变量与第 个公共因子之间的相关系数cov(,)kjxfkj即kjr11cov(,)cov,cov,cov(,)mkjkiikj imkiijkj ikjxfa ffa fffa 由以上假定得知,cov(,) kjkjxfkjxfra经常地,对 F 进行正交变换后,得到新矩阵的各分量仍然不相关,各自方差仍然为 1(斜交变换后不能保证各分量独立性,各自方差也不为 1) 旋转以后得到的因子,有时它的实际意义比较明显例如,可经旋转变换,使得荷载矩阵中的每一行的数值尽可能两极化(接近 1 或 0) ,这样有利于发现公因子的实际意义例子: 以各个城市第三产业发展水平评价为例:选用 20 个指标::人口数 :GDP :第三产业增加值 :货用总1x2x3x4x量:批、零、贸商品销售总额 :外贸收购总额 5x6x:年末银行贷款总额 :社会零售的物价指数 7x8x:实际利用外资 :万名职工中科技人员的人数9x10x:旅游外汇收入 :第三产业就业比例 :邮电业务总11x12x13x量:职工人均工资 :人口数人均居住面积 14x15x:用水普及率 :煤气普及率16x17x:人均道路面积 :人均公共绿地面积 :政策体制18x19x20x对上述指标进行因子分析,从旋转后因子荷载矩阵来看,五个因子意义比较明确,也就是将五个因子分成五大类:1、第三产业的基本经济因子1x2x3x4x5x6x7x9x11x12x13x2、基础环境因子15x16x17x18x19x3、政策性因子8x14x20x4、人员素质因子 10x5、补充因子§3 典型相关分析典型相关分析是研究两组变量之间相关关系的一种多元统计方法。

      它能够揭示出两组变量之间的内在联系一元统计分一元统计分析中,析中, (偏)相关系数来衡量两个随机变量的线性相关关系(偏)相关系数来衡量两个随机变量的线性相关关系;用复相关系复相关系数来衡量一个随机变量与多个随机变量的线性相关关数来衡量一个随机变量与多个随机变量的线性相关关系不能用于研究两组变量之间相关关系比如生理指标与训练指标的关系、居民生活环境与健康状况的关系、人口统计变量与消费变量之间的关系等典型相关分析由霍特林提出,其基本思想与主成分分析非常相似首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数然后选取和 最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的 相关性被提出完毕为止被选取的线性组合配对称为典型变量,它们的相关系数称为典型相关系数典型相关系数度量了这两组变量之间联系的强度§4 对应(相应)分析对应分析是 R 型因子分析与 Q 型因子分析的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。

      对应分析的思想首先由理查森(Richardson)和库德(Kuder)在 1933 年提出,后来法国统计学家让一保罗·贝内泽(Jean—Paul Benzkcri)和日本统计学家林知己夫(HayashiChikio)对该方法进行了详细的论述而使其得到了发展对应分析方法广泛用于对由属性变量构成的列联表数据的研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系 由于对应分析是在 R 型因子分析和 Q 型因子分析基础上发展起来的一种多元统计分析方法,它把两种因子分析结合起来,对变量和样品统一进行分析研究,因而更有利于地质学等一些领域解释应用 如前所述,两种因子分析都可以用少数几个公因子去提取研究对象的绝大部分信息,因而,不仅简化了原有的观测系统,抓住了控制原有观测数据的主要矛盾,而且通过研究公因子的特征,比较容易揭示研究对象在成因上或空间上的联系,也就便于直接进行地质解。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.