
多指标评估体系的分析.doc
14页e2,…,ep,则取 Li"时,varZi=,i , cov(ZjZ j )=0(i, j =1,2,…,p 卜多指标评估体系的分析摘要:本文以地区限额以上工业主要评价指标体系为例,讨论了主成分分析、聚 类分析以及主成分聚类分析在多指标评估体系中的应用, 显示了主成分分析在简化指标体系、突出主要因素方面的作用,体现了聚类分析将相似样本进行聚类, 简化数据处理难度的优点,同时也证明了主成分聚类分析的可行性0引言为全面评价对象,往往给出一个由许多指标构成的评价指标体系 为使信息 集中,又经常使用加权平均这存在以下几个问题:(1)一般评价体系指标众多, 由于信息的重叠,一些指标之间存在一定的相关关系;(2)简单的加权平均的权 重分配有较大的人为因素;(3)简单的加权平均损失大量信息,主要因素不突出本文以地区限额以上工业主要评价指标体系为例, 利用主成分分析法,构造少数几个综合指标以充分揭示隐藏在样本数据后的大量信息,突出主要影响因 素,以对评价对象作出科学评价;利用聚类分析方法,根据各指标之间的相似性 逐步进行归群成类,客观地反映了这些指标之间的内在组合关系, 对指标进行群 聚,大大简化了数据的处理难度,为评价过程提供有力的依据。
利用主成分聚类 分析减少了数据的冗余,原理清晰,计算简单,所得的结论客观,为分析问题提 供了有力的依据1主成分分析法主成分分析基本思想是通过原有变量(指标)的少数几个线性组合来解释原 有变量所体现的样本变差由于原有变量之间的相关性,原有p个变量的大部分 样本变差能够由k (比p小很多)个主成分(特殊的线性组合)来概括在新的 综合指标体系(指标数将大为减少)中,对评价对象进行分析、类比设Xi,X2,…,Xp为原有的p个指标;X =:Xj n p为其标准化观察矩阵;Rnkj p p为其相关系数矩阵;Li =(lii」2i,…,lpi T(i =1,2,…,p )为p个常数向量p考虑如下线性组合:乙ikiXk,i =12…p为p个新指标(主成分)Zi的样 k d本方差varZi =L:RLi,协方差Cov ZiZ j RL j i, j =1,2,…,p希望用较少的新指标代替原来的p个指标,就要求它们含有尽可能多的原指标信息且互不相关 指标中所含信息量的大小通常用该指标的方差来表示设R的特征值和对应的正交单位化特征向量分别为 ’1 一匕一…一0 ; e1,可以证明原有指标的标准化样本总方差为 p,称丄为第i个主成分的贡献率;Pk-丄为前k个主成分的累积贡献率。
累积贡献率表明了前 k个主成分提取了原i 1 P有指标总信息量的分额,当其达到一定数值时,用k个主成分代替原有指标将 不致于损失太多信息,从而达到减少指标的目的2聚类分析法聚类分析(Cluster Analysis)是统计学所研究的“物以类聚”问题的一种方 法,它属于多变量统计分析的范畴它是一种建立分类的方法,能够将一批样本 数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下自动进行 分类这里,一个类就是一个具有相似的个体的集合, 不同类之间具有明显的非相似性在分类过程中,不必事先给出一个分类标准,聚类分析能够从样本数据 出发,客观地决定分类标准系统聚类法(Hierarchical Clustering Methods)也称层次聚类分析法,是目前 国内外使用得最多的一种方法这种方法的基本思想是:先将n个样品各自看成 一类,然后规定样品之间的距离和类与类之间的距离 开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的, 选择距离最小的一对并成一个新类,计算新类和其他类的距离,再将距离最近的两类合并,这样每次减少一 类,直至所有的样品都成一类为止由此可见,系统聚类方法中,度量数据之间 的亲疏程度是极为关键的。
这里并没有给定分类的标准,也没有给出所有数据分 成几类,而要求比较客观地从数据自身出发进行分类 类与类之间的亲疏程度有最短距离法、最长距离法、中间距离法、重心法、类平均法、离差平方和法等3应用实例以年全国个省市的项限额以上工业主要评价指标为例 (数据来自统计年鉴), 见表1,分别用主成分分析和聚类的方法对其进行分析1部分也凶牆以上工业主鄭冊籀地区立品胳收入 X,亿元X也元翱勒财册揶费产艸焉北曲1857.463SL471Q1®,用IW.7762.374J925 加2 034.65104.丸7.(12115.9561.3633 4HJ7河北2907.36490.70iw. m$4105.67汕芥28 511.569714669.1135.((2肌5067.701(1453.57上密4987J4[1 給 91127.04H 24HM.6552.3A62H72.WasS 343J41363.77【〔氐K9112,2761.9535 613,»744.35124.25丨1一斜JU.Jh気屬41 074.0}1 400.46SI.I07.16104.5163.0222K59.461 951.3K341.7(]WL 369J3]14.6755. S324 443.26口杲瞬血1购耶9.55109. M曲鴿鷲咖用广来9^.51117S6JI【闻2?7.26106皿61.3245K12.37广困翻期1触浙77.73105.2769.3724M62224.61、一牌㈣W69.0821) 617.75m1 B53.21447.25肪.】9ft. S3L08JI94LB122 346.29個72157崗71,»I0U771.7S21 6S4.85922.56266简67. a??.5431)7,12的,州ison.m甘肉575.39164简59. W5493®毗5915 767.153.1用主成分分析进行分析3.1.1程序:data a01; |in put group $ x1-x7;cards ;北京 1857.46 380.47 101.86 5.89 109.77 62.37 43925.20 天津 2034.65 445.08 104.58 7.02 115.95 61.36 33414.17 河北 2907.36 490.70 104.00 8.41 105.67 64.37 28311.56 山西 975.46 318.06 69.03 5.02 101.50 67.70 16453.57 上海 4987.44 1083.91 127.04 8.24 108.65 52.30 62870.09 江苏 8343.14 1363.77 105.89 8.37 112.27 61.95 35613.99 浙江 4814.59 744.35 124.25 11.38 114.38 58.86 41074.00 安徽 1400.46 280.31 81.10 7.16 104.51 63.02 22859.46 福建 1951.38 341.76 108.36 9.13 114.67 55.83 29443.326 山东 6566.99 856.04 109.68 9.55 109.60 63.36 36249.00 广东 9678.50 1786.91 109.22 7.26 106.03 61.12 45812.17 广西 848.91 163.86 77.73 6.55 105.27 69.37 24264.62 重庆 816.74 224.61 67.87 5.88 109.94 69.08 20617.75 四川 1853.21 447.25 85.19 6.83 108.09 41.81 22346.29 贵州 433.72 157.88 71.50 7.05 104.87 71.78 21684.85 陕西 922.56 266.69 67.67 5.54 107.12 69.90 19011.00 甘肃 575.39 164.68 59.69 5.44 93.60 68.59 15767.15proc princomp data =a01 prefix =z out =a02;var x1-x7;run ;options ps= 42 ls= 85;proc plot data =a02;plot z2*z1 $ group= '*' /href =- 1 href =2 vref =0; run ;proc sort data =a02;by z1;run ;proc print data =a02;var number z1 z2 x1-x4;run ;3.1.2运行结果:?0:43 Monday, April 12, 201Z 1The PRINCOMP ProcedureOb&ervAtIocs 17Variables 1Simple Statist icsCorrelat ion Matrixxlx2阀x4x5x6x?xl\00000.97360.6^40.5414n 一叮 1::^20070.6675疋0,97361,00000,66450.42420.2655斗獅4Q.70&4x3Q.BS34O.BB4&1JOOOOJ3400.BS08-.55010,8768x40.54140.42420.7940f.OMO0,6782-,37930.5114对0.81180.2B550.66030.G7B21 ,000(1-.38250.4805x6-.2837-,3364-.5501-.3733-.39261.OO-.4404x70.66750.7054Q.87S80.51140.4BOG-<44041.0000Eigenvalues of the Correlalion MatrixEicenv»1ueDifferenctProport ionCunul&tIva14.377279773.26571G650,S2530.S25321.111588120.42G38235o.isee0J84130.666180770.253370680.09800.BS2140.42221003QJ60/888Q0,06030.94ZG50,361471490.33031036o.osiei).994lS0.0S115263D.021010510.00450.B98670.010142k0,OQ141.0000Eii ten vectorsw1z273z4z5z6z70.3993290.46043。
