
8地理系统要素关系的主成分分析.doc
16页第八章 地理系统要素关系的主成分分析地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验 而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作例如有30测试指标,也许10多种指标即可代表由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的本章介绍主成分分析方法就是解决上述问题的数学方法§1 主成分分析方法原理主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。
主成分分析也称K-L变换因子分析不仅可以用来研究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将前者称之为R型因子分析,后者称之为Q型因子分析假设有n个地理样本,每个样本观测p个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p维空间中加以考察,这是比较麻烦的为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好 记原来的变量指标为,综合指标(新综合变量)为() 即 可以要求 (单位向量)以限制取值大小,利于对比系数由下列原则来决定: (1) 与 互相无关(独立); (2)是的一切线性组合中方差最大者;为与不相关的的所有线性组合中方差最大者; …为与都不相关的 的所有线性组合中方差最大者。
分别称做原指标的第一,第二,…,第m个主成分在总方差中占的比例最大,其余主成分所占方差比例依次递减 从几何上看,找主成分的问题,就是找出p 维空间中椭球体的主轴问题,从数学上容易得到它们是的相关矩阵中m个较大特征值对应的特征向量也就是说寻找这样的坐标系旋转角,使得样本点在新坐标系中对主成分轴上的投影具有极大的方差 主成分分析的实质就是要求出方差—协方差矩阵的特征向量及其对应的特征值,即要找出方差—协方差矩阵所确定的椭球的主轴,并确定其长度 由于提取主成分的主要原则是使方差最大,为了排除量纲、数量级的影响,对原始数据先进行标准化处理(标准差标准化),这样方差—协方差矩阵即为相关系数矩阵 计算步骤:(1) 计算相关系数矩阵R(原始数据已进行标准化处理变换,也就是方差—协方差矩阵)(2) 计算特征值和特征向量 求出特征值,按大小排序然后,求出对应的特征向量 i=1,2,…,p(3) 计算主成分贡献率和累积贡献率 可以证明:的方差等于; 的方差等于; … 的方差等于;主成分的贡献率 i=1,2,…,p累积贡献率 一般取累积贡献率达85-90%的特征值 对应的主成分即可。
4) 计算主成分载荷 (i=1,2,..,p;k=1,2,…,m)是主成分与变量之间的相关系数(5) 计算主成分得分是标准差标准化后的数据得到主成分得分矩阵 主成分几大性质: 性质1:主成分的协方差矩阵对角阵性质2:主成分的总方差等于原始变量的总方差: 性质3: (i=1,2,..,p;k=1,2,…,m) 是主成分与变量之间的相关系数§2 因子分析法对p个变量进行因子分析的目的是研究它们有哪些共同因素,哪些是特殊因素,这些因素在变量分析中起什么作用为研究方便,设着p个变量已进行标准差标准化变换,记为,或表示为向量形式 上述的p个因子(变量)会有一些共同因素,这些共同因素称为公共因子,记为(公共因子数目m通常要比原因子个数p要少),也可记为向量形式对每一因子,除了可以有一些公共因素的部分外,还有一些自身特殊因素,称为特殊因子因而因子模型可表示为下面形式:对第k个因子有式中称为m个公共因子的荷载,为第k个因子的特殊部分U为特殊因子向量,记为因子模型的向量形式为 式中矩阵A为因子荷载,记为为求得矩阵A,对模型还要作些假定(样本容量为n):(1)公共因子部分与特殊因子部分是无关的 (2) 公共因子是标准化变量,不同公共因子之间无关,即公共因子之间的协方差矩阵为单位阵 (3) 各特殊因子之间是无关的,第个特殊因子的方差为,它们的协方差阵为 在上述假定下,个变量之间的相关阵可表为由上述假定上述矩阵中的第行第列元素为 该式表明第个变量的方差可表示为公共性部分的方差和特殊性部分的方差之和。
记公共性部分的方差为 称为第个变量的公共性,它反映了第个变量被公共因子所解释的那部分方差 从几何意义上来说,因子模型中的因子荷载可看成为第个变量在个公共因子空间中第个因子轴上的投影,变量数据可看成为在该空间中的一个向量;可看成为第个变量在该空间中的向量长度的平方作了标准化处理,与的协方差就是第个变量与第个公共因子之间的相关系数即由以上假定得知经常地,对F进行正交变换后,得到新矩阵的各分量仍然不相关,各自方差仍然为1(斜交变换后不能保证各分量独立性,各自方差也不为1)旋转以后得到的因子,有时它的实际意义比较明显例如,可经旋转变换,使得荷载矩阵中的每一行的数值尽可能两极化(接近1或0),这样有利于发现公因子的实际意义例子: 以各个城市第三产业发展水平评价为例:选用20个指标::人口数 :GDP :第三产业增加值 :货用总量:批、零、贸商品销售总额 :外贸收购总额 :年末银行贷款总额 :社会零售的物价指数 :实际利用外资 :万名职工中科技人员的人数:旅游外汇收入 :第三产业就业比例 :邮电业务总量:职工人均工资 :人口数人均居住面积 :用水普及率 :煤气普及率:人均道路面积 :人均公共绿地面积 :政策体制对上述指标进行因子分析,从旋转后因子荷载矩阵来看,五个因子意义比较明确,也就是将五个因子分成五大类:1、 第三产业的基本经济因子 2、 基础环境因子 3、 政策性因子 4、 人员素质因子 5、 补充因子§3 典型相关分析典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
它能够揭示出两组变量之间的内在联系一元统计分析中,(偏)相关系数来衡量两个随机变量的线性相关关系;用复相关系数来衡量一个随机变量与多个随机变量的线性相关关系不能用于研究两组变量之间相关关系比如生理指标与训练指标的关系、居民生活环境与健康状况的关系、人口统计变量与消费变量之间的关系等 典型相关分析由霍特林提出,其基本思想与主成分分析非常相似首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数然后选取和 最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的 相关性被提出完毕为止被选取的线性组合配对称为典型变量,它们的相关系数称为典型相关系数典型相关系数度量了这两组变量之间联系的强度 §4 对应(相应)分析对应分析是R型因子分析与Q型因子分析的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。
对应分析的思想首先由理查森(Richardson)和库德(Kuder)在1933年提出,后来法国统计学家让一保罗·贝内泽(Jean—Paul Benzkcri)和日本统计学家林知己夫(HayashiChikio)对该方法进行了详细的论述而使其得到了发展对应分析方法广泛用于对由属性变量构成的列联表数据的研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系 由于对应分析是在R型因子分析和Q型因子分析基础上发展起来的一种多元统计分析方法,它把两种因子分析结合起来,对变量和样品统一进行分析研究,因而更有利于地质学等一些领域解释应用 如前所述,两种因子分析都可以用少数几个公因子去提取研究对象的绝大部分信息,因而,不仅简化了原有的观测系统,抓住了控制原有观测数据的主要矛盾,而且通过研究公因子的特征,比较容易揭示研究对象在成因上或空间上的联系,也就便于直接进行地质解释和逻辑推断。
但是,R型因子分析与Q型因子分析把变量与样品孤立起来分析,割断了它们的联系,这将会漏掉许多有用的地质信息事实上,对于同一个地质问题,往往需要同时研究地质成因和不同类型样品的地质特征,前者要通过对样品的研究,而后者则是通过对变量的分析,才能得到合理的地质解释这说明两种因子分析是同一问题的不可分割的两个部分另外,样品的数目一般远远大于变量的数目,在进行Q型因子分析时,样品的相似矩阵占用大量的内存,这对于一般的微型计算机来说是难以胜任的还有一个问题就是不能对变量和样品用同一种标准化方法进行处理,这就给寻找R型与Q型因子分析之间的联系带来了困难鉴于上述原因,在R型因子分析和Q型因子分析的基础上产生了对应分析它的主要优点是可由R型因子分析的结果,很容易地导出Q型因子分析结果,从而克服了Q型因。
