好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

主成分分析ppt.ppt

74页
  • 卖家[上传人]:kms****20
  • 文档编号:51520837
  • 上传时间:2018-08-14
  • 文档格式:PPT
  • 文档大小:910KB
  • / 74 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第五章 主成分分析(principal component analysis)•主成分分析 •主成分回归本章内容问题来源 在处理多变量问题时,由于变量太多, 变量之间往往存在着一定的相关性,一种解决的思想:降低变量个数,即用少数综合变量 代替原来变量的信息,综合变量之间互不相关将多个指标化为少数互相无关的综合指标的统计方法 叫做主成分分析或者主分量分析.§1 主成分分析一 什么是主成分分析• 是将原来p个指标线性组合,作为新的综合指标,分别 记为F1,F2,…,而这些新的线性组合必须满足: • F1尽可能的反映原来指标的信息(经典的方法是用 方差来表达信息,即选取使var(F1)最大的线性组合 )称F1为第一主成分. • 如果F1不足以代表原来p个指标的信息,再选取第二 个线性组合即F2,同时要求F1已包含的信息不需要 再出现在F2中(数学上表示为cov(F1, F2)=0).称F2为第二主成分.二 基本思想依次类推,可构造出第三,第四个主成分…….三 数学模型数学上的处理: 将原来p个指标看作p个随机变量:记X1,X2,…,Xp. 再寻求这p个变量的线性组合F1,F2,…Fk(k≤p)满足2. 主成分之间互不相关,即无重叠的信息。

      即1. 主成分的方差依次递减,重要性依次递减,即3. 每个主成分的系数平方和为1即四 几何解释P个变量的线性组合从几何上看是把由X1,…,Xp构成的坐标系经旋转产生的新坐标系,而新坐标轴的方向具有最大的方差.举例说明:P=2, 有n个样本点.在变量xl和x2 所确定的二维平面中,n个样本点的散布情况如椭圆状(见图).由图可以看出n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差表示如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失如果取椭圆长轴和短轴方向取为Fl和F2,即相当于平面上的坐标变换:即将xl 轴和x2轴先平移,再按 逆时针方向旋转角度,则新老坐标有以下关系:从图上可看出:• n个样本点的波动大部分可以归结为在Fl方向上的波动 ,即Fl的方差最大• 变量Fl代表了原始数据的绝大部分信息,F2方向的波 动不大.• Fl,F2具有不相关的性质.• 如果椭圆是相当扁平的(x1,x2相关性越强),可以 只考虑Fl方向上的波动,F2可以忽略不计.•• •••••••••• •••••••••••••••••••••••••平移、旋转坐标轴••••••••• •••• • •••••••••••••••• •••• •••平移、旋转坐标轴••••••• ••••• ••• ••• •••••••••••••••• • ••平移、旋转坐标轴•五 主成分的推导及性质设X的协方差阵为由于Σx为非负定的对称阵,则必存在正交阵U,使1. 第一主成分其中1,…,p为Σx的特征根,不妨假设1 2  … p .而U是由特征根对应的特征向量组成的正交阵。

      设有P维正交向量当且仅当a1 =u1时,即 时,Var(F1)=U’1xU1=1.即F1有最大方差.(即第一主成分是以特征向量为系数的组合,其方差就是对应的特征值).2. 第二主成分在约束条件 下,寻找第二主成分 事实上,则对p维向量 ,有即取线性变换 时的方差次大类推可以得到第三,第四主成分: 写为矩阵形式:主成分的性质1. 均值2. 方差为所有特征根之和说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和协方差矩阵的对角线上的元素之和等于特征根之和3.精度分析• 贡献率 第i个主成分的方差在全部方差中所占比重, 称为贡献率. • 累积贡献率 前k个主成分的方差和在全部方差中所占比重在实际工作中,主成分个数取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率≥80%时的主成分的个数就足够了最常见的情况是主成分为2到3个4. 4. 原始原始变量与主成分之间的相关系数变量与主成分之间的相关系数可见, 和 相关的密切程度取决于对应线 性组合系数的大小。

      五. 原始变量被主成分的提取率 累计贡献率度量了F1,F2,……,Fm从原始变量 X1,X2,……XP中所提取的信息量另一个问题:X1,X2,……XP各有多少信息分别被F1,F2,……,Fm提取?用什么指标来度量?考虑用F1分别与X1,X2,……XP的相关系数的平方如果有m个主成分,则第i 原始变量信息的被提取率为:是Fj 能说明的第i 原始变量的方差是Fj 提取的第i 原始变量信息的比重例 设 的协方差矩阵为 解得特征根为 , ,,,第一个主成分的贡献率为5.83/(5.83+2.00+0.17) =72.875%,尽管第一个主成分的贡献率并不小,但在本题 中第一主成分不含第三个原始变量的信息,所以应该取两 个主成分Xi与F1的 相关系数平方Xi与F2的相关 系数平方信息提 取率 xi 10.9250.855000.8552-0.9980.996000.996300111定义:如果一个主成分仅仅对某一个原始变 量有作用,则称为特殊成分如果一个主成分对所有的原始变量都起作用 称为公共成分 (该题无公共因子)载荷矩阵六 主成分分析的步骤在处理实际问题时,X的协方差通常是未知的,样品有 第一步:计算X的协方差阵Σx的特征根,即解方程,得特征根1. 基于协方差矩阵第二步:求出分别所对应的特征向量U1,U2,…,Up, 第三步:计算累积贡献率,给出恰当的主成分个数 。

      第四步:计算所选出的k个主成分的得分将原始数据代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队2.基于相关系数矩阵(标准化变量的主成分)如果变量有不同的量纲,则必须基于相关系数矩阵进行主成分分析不同的是计算得分时应采用标准化 后的数据标准化变量的协方差矩阵就是原始变量的相关系数矩阵)例一 应收账款是指企业因对外销售产品、材料 、提供劳务及其它原因,应向购货单位或接受劳务的单 位收取的款项,包括应收销货款、其它应收款和应收票 据等出于扩大销售的竞争需要,企业不得不以赊销或 其它优惠的方式招揽顾客,由于销售和收款的时间差, 于是产生了应收款项应收款赊销的效果的好坏,不仅 依赖于企业的信用政策,还依赖于顾客的信用程度由 此,评价顾客的信用等级,了解顾客的综合信用程度, 做到“知己知彼,百战不殆”,对加强企业的应收账款 管理大有帮助某企业为了了解其客户的信用程度,采 用西方银行信用评估常用的5C方法,5C的目的是说明顾 客违约的可能性 1、品格(用X1表示),指顾客的信誉,履行偿 还义务的可能性企业可以通过过去的付款记录得 到此项2、能力(用X2表示),指顾客的偿还能力。

      即 其流动资产的数量和质量以及流动负载的比率顾 客的流动资产越多,其转化为现金支付款项的能力 越强同时,还应注意顾客流动资产的质量,看其 是否会出现存货过多过时质量下降,影响其变现能 力和支付能力3、资本(用X3表示),指顾客的财务势力和财 务状况,表明顾客可能偿还债务的背景4、附带的担保品(用X4表示),指借款人以容 易出售的资产做抵押5、环境条件(用X5表示),指企业的外部因素,即 指非企业本身能控制或操纵的因素 首先并抽取了10家具有可比性的同类企业作为样 本,又请8位专家分别给10个企业的5个指标打分 ,然后分别计算企业5个指标的平均值,如表 76.581.57675.871.78579.280.384.476.570.67367.668.178.5949487.589.59290.787.39181.58084.666.968.864.866.477.573.670.969.874.857.760.457.460.86585.668.57062.276.57069.271.764.968.9 ;Total Variance = 485.31477778Eigenvalues of the Covariance MatrixEigenvalue Difference Proportion CumulativePRIN1 410.506 367.242 0.845854 0.84585PRIN2 43.264 22.594 0.089146 0.93500PRIN3 20.670 12.599 0.042591 0.97759PRIN4 8.071 5.266 0.016630 0.99422PRIN5 2.805 . 0.005779 1.00000EigenvectorsPRIN1 PRIN2 PRIN3 PRIN4 PRIN5X1 0.468814 -.830612 0.021406 0.254654 -.158081X2 0.484876 0.329916 0.014801 -.287720 -.757000X3 0.472744 -.021174 -.412719 -.588582 0.509213X4 0.461747 0.430904 -.240845 0.706283 0.210403X5 0.329259 0.122930 0.878054 -.084286 0.313677第一主成份的贡献率为84.6%,第一主成份Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5的各项系数大致相等,且均为正数,说明第一主成份对所有的信用评价指标都有近似的载荷,是对所有指标的一个综合测 度,可以作为综合的信用等级指标。

      可以用来排序将原始数 据的值中心化后,代入第一主成份Z1的表示式,计算各企业 的得分,并按分值大小排序:在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政 策等,这对于加强应收帐款的管理大有帮助序号12345678910得分3.1613.6-9.0135.925.1-10.3- 4.36-33.8- 6.41-13.8排序43712851069例二 基于相关系数矩阵的主成分分析对美国纽约上市的 有关化学产业的三个证券和石油产业的2个证券做了100周的收 益率调查下表是其相关系数矩阵 1)利用相关系数矩阵做主成分分析2)决定要保留的主成分个数,并解释意义10.5770.5090.00630.00370.57710.5990.3890.520.5090.59910.4360.4260.3870.3890.43610.5230.4620.3220.4260.5231Eigenvalues of the Correlation MatrixEigenvalue Difference Proportion CumulativePRIN1 2.。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.