
实验1主元素分析.pdf
6页实验实验11 主元素分析主元素分析((Principle Component Analysis, PCA)) PCA PCA 是是 HotellingHotelling 于于 19331933 年首先提出年首先提出,,是把原来多个变量划为把原来多个变量划为 少数几个综合指标的一种统计分析方法少数几个综合指标的一种统计分析方法,, 从数学角度来看从数学角度来看,, 这是一这是一 种降维处理技术种降维处理技术 PCAPCA的基本计算步骤为的基本计算步骤为 11 对 具 有对 具 有p p维 的维 的n n个 样 本 二 维 数 据 集个 样 本 二 维 数 据 集 ,, npnn p p xxx xxx xxx X 21 22221 11211 计算其协方差矩阵计算其协方差矩阵COV(XCOV(X11,, XX22,Xn n)) 2 2 求出与此协方差矩阵对应的特征向量与特征值并使特征值按从大求出与此协方差矩阵对应的特征向量与特征值并使特征值按从大 到小的顺序排列到小的顺序排列 3 3 计算主成分贡献率及累计贡献率计算主成分贡献率及累计贡献率 4 4 一般取累计贡献率达一般取累计贡献率达 8585——95%95%的特征值所对应的第的特征值所对应的第一一、、第二第二、、……、、 第第 m m((m m≤≤p p))个主成分个主成分 5 5 计算主成分载荷计算主成分载荷 6 6 对主成分进行分析对主成分进行分析 例例 1 1 设有一组古生物腕足动物贝壳标本的两个变量设有一组古生物腕足动物贝壳标本的两个变量: :长度和宽度长度和宽度. .所所 测量的数据列测量的数据列如下如下:: X1X1 X2X2 X1X1 X2X2 3 3 2 2 1212 1010 4 4 1010 1212 1111 6 6 5 5 1313 6 6 6 6 8 8 1313 1414 6 6 1010 1313 1515 7 7 2 2 1313 1717 7 7 1313 1414 7 7 8 8 9 9 1515 1313 9 9 5 5 1717 1313 9 9 8 8 1717 1717 9 9 1414 1818 1919 1010 7 7 2020 2020 1111 1212 11 计算协方差矩阵计算协方差矩阵 在在MATLABMATLAB中调用中调用函数函数 COVCOV x1=[3,4,6,6,6,7,7,8,9,9,9,10,11,12,12,13,13,13,13,14,15,17,17,18,20]; x2=[2,10,5,8,10,2,13,9,5,8,14,7,12,10,11,6,14,15,17,7,13,13,17,19,20] A = cov(x1, x2); 可计算出可计算出 协方差矩阵协方差矩阵A=A= 22 计算对应的协方差矩阵对应的特征向量与特征值计算对应的协方差矩阵对应的特征向量与特征值 [ x, D ] = eig(A) lamda0 =diag( D ); 其中其中 AA为协方差矩阵为协方差矩阵,, XX为为对应的特征向量对应的特征向量,,lamda0 lamda0 为为 对应对应 的特征值的特征值 重新排序重新排序,,以获得从大到小排列的特征值与特征向量以获得从大到小排列的特征值与特征向量 [lamda,IX] = sort( lamda0, 'descend'); v1= x(:, IX(1)); v2= x(:, IX(2)); lamda =[ lamda =[ 37.867737.8677, ,6.6.464690]90] v1=[v1=[0.66310.6631, ,0.0.7487485]5] v2=[ v2=[ - -0.7480.7485,5,0.66310.6631] ] 即即 它说明它说明第一主成分第一主成分 Z1Z1 的方差为的方差为 37.937.9,,第二主成分第二主成分 Z2Z2 的方差为的方差为 6.56.5。
两者之和恰为两者之和恰为 X1X1 和和 X2X2 的总方差的总方差 44.444.4可见可见,,两个主成分两个主成分 Z1Z1、、 Z Z2 2 所代表的信息分别为所代表的信息分别为 86%86%和和 14%14% 如果用如果用 Z1Z1 代表原来的数据代表原来的数据, ,则仅则仅 损失信息损失信息 14%14% 但若用但若用 X1X1 和和 X2X2 来代表原来的数据来代表原来的数据,, 则将损失信息则将损失信息 46%46% 或或 54%54% 主成分的计算为主成分的计算为 212 211 66. 075. 0 75. 066. 0 xxZ xxZ Z1Z1 Z2Z2 Z1Z1 Z2Z2 3.483.48 0.930.93 15.4215.42 2.42.4 10.1410.14 - -3.63.6 16.1716.17 1.741.74 7.717.71 1.21.2 13.0813.08 5.795.79 9.969.96 - -0.780.78 19.0819.08 0.510.51 11.4611.46 - -2.12.1 19.8319.83 - -0.150.15 6.126.12 3.933.93 21.3321.33 - -1.471.47 14.3714.37 - -3.333.33 14.4914.49 5.885.88 12.0312.03 0.060.06 19.6519.65 2.672.67 9.699.69 3.453.45 20.9720.97 4.174.17 11.9411.94 1.471.47 23.9723.97 1.531.53 16.4416.44 - -2.492.49 26.1326.13 0.960.96 11.8511.85 2.882.88 28.228.2 1.81.8 16.2616.26 0.330.33 需要说明的是需要说明的是 MTALABMTALAB 提供了直接计算的函数提供了直接计算的函数 ** 22 * 11 * 2 * 222 * 1212 * 1 * 212 * 1111 pmpmmm pp pp xlxlxlz xlxlxlz xlxlxlz x0=[3,4,6,6,6,7,7,8,9,9,9,10,11,12,12,13,13,13,13,14,15,17,17,18,20 ; 2,10,5,8,10,2,13,9,5,8,14,7,12,10,11,6,14,15,17,7,13,13,17,19,20 ]'; A = cov(x0); [PC,SCORE,latent] = princomp(x0); [pc,latent,explained] = pcacov(A); 实验要求实验要求 给定给定某农业生态经济系统各区域单元的有关数据某农业生态经济系统各区域单元的有关数据如下如下,, 试用试用MATLMATL ABAB 两种方式完成下列数据的两种方式完成下列数据的PCAPCA分析和解释分析和解释。
样本 序号 x1:人 口密度 (人/km2) x 2:人均 耕地面积 (ha) x 3:森林 覆盖率 (%) x 4:农民 人均纯收 入(元/人) x 5:人均 粮食产量 (kg/人) x 6:经济 作物占农 作物播面 比例(%) x 7:耕地 占土地面 积比率(%) x 8:果 园与林 地面积 之比(%) x 9:灌溉 田占耕地 面积之比 (%) 1363.9120.35216.101192.11295.3426.72418.4922.23126.262 2141.5031.68424.3011752.35452.2632.31414.4641.45527.066 3100.6951.06765.6011181.54270.1218.2660.1627.47412.489 4143.7391.33633.2051436.12354.2617.48611.8051.89217.534 5131.4121.62316.6071405.09586.5940.68314.4010.30322.932 668.3372.03276.2041540.29216.398.1284.0650.0114.861 795.4160.80171.106926.35291.528.1354.0630.0124.862 862.9011.65273.3071501.24225.2518.3522.6450.0343.201 986.6240.84168.904897.36196.3716.8615.1760.0556.167 1091.3940.81266.502911.24226.5118.2795.6430.0764.477 1176.9120.85850.302103.52217.0919.7934.8810.0016.165 1251.2741.04164.609968.33181.384.0054.0660.0155.402 1368.8310.83662.804957.14194.049.114.4840.0025.79 1477.3010.62360.102824.37188.0919.4095.7215.0558.413 1576.9481.02268.0011255.42211.5511.1023.1330.013.425 1699.2650.65460.7021251.03220.914.3834.6150.0115.593 17118.5050.66163.3041246.47242.1610.7066.0530.1548.701 18141.4730.73754.206814.21193.4611.4196.4420.01212.945 19137.7610.59855.9011124.05228.449.5217.8810.06912.654 20117.6121.24554.503805.67175.2318.1065.7890.0488.461 21122.7810.73149.1021313.11236.2926.7247.1620.09210.078 。
