
应用统计复习重点.docx
19页聚类分析l 做聚类分析时,层次聚类法、K-均值聚类法、以及两步聚类法三种方法应该如何选择层次聚类法、K-均值聚类法?首先看数据类型:如果参与分类的变量是连续变量,则三种方法都适用;如果变量中包含离散变量,则需要先对离散变量进行标准化处理,否则应该适用两步聚类法再看数据量:当数据量较少时(如<100),三种方法都适用;当数据量较多时(如>1000),则应该考虑K-均值法或者两步聚类法最后看分类对象:对样本分类,三种方法都适用;对变量分类,应选择层次聚类法l Q聚类主要针对什么进行分类?R聚类主要针对什么分类?Q聚类:样本R聚类:变量l 对样本进行聚类分析中,点间距离的计算有多种不同的计算公式,试写出三个不同的距离公式欧式距离Euclidean平方欧式距离Squared Euclidean块距离Block切比雪夫距离ChebychevMinkovski距离马氏距离l 对变量进行聚类分析中,有哪两种测度相似度的方法? 夹角余弦 Pearson相关系数 l 层次聚类法(系统聚类法)计算类间距离有多种方法,试写出两种方法l 在聚类分析中,两个样品之间的距离主要有哪些种定义方法?各有什么特点?最短距离法(最近邻法):首先合并最近的或最相似的两类,用两类间最近点的距离代表类间的距离。
最长距离法:用两类间最远点的距离代表两类之间的距离重心法:用两个类别的重心之间的距离来表示两个类别之间的距离组间平均距离法:SPSS默认,是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离,既不是最大距离也不是最小距离离差平方和距离法:常用,使各类别中的离差平方和较小,而不同类别之间的离差平方和较大l K-均值聚类是针对样品(CASE)的聚类还是针对变量的聚类?K-均值聚类是否需要在聚类之前先做标准化处理?K-均值聚类是针对样品(case)的聚类,需要单独做标准化处理,而后再进行聚类层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高,也被称为快速聚类(quick cluster)要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验l 系统聚类和快速聚类的特点分别是什么?系统聚类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类。
根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反事先无须知道分类对象的分类结构,而只需要一批数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然地、客观地得到一张完整的分类系统图快速聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验处理速度快,占用内存少,适用于大样本的聚类分析l 七个样品之间的相似系数矩阵如下,试对这七个样品进行聚类,并画出谱系图 答案:判别分析l 简述Fisher’s判别的原理建立Fisher判别函数的准则是什么?Fisher判别,亦称典则判别,是将自变量投影到较低维度的空间,再进行分类相当于将自变量先提取几个主成分,只需根据主成分分类Fisher准则:使得综合指标Z在A类的均数与在B类的均数 的差异尽可能大,而两类内综合指标Z的变异尽可能小)l 对Bayes判别法与Fisher判别法作比较(1)当k个总体的均值向量共线性程度较高时,Fisher判别法可用较少的判别函数进行判别,因而比Bayes判别法简单。
另外,Fisher判别法未对总体的分布提出什么特定的要求2)Fisher判别法的不足是它不考虑各总体出现概率的大小,也给不出预报的后验概率及错判率的估计以及错判之后造成的损失而这不足恰是Bayes判别法的优点,但值得指出的是,如果给定的先验概率不符合客观实际时,Bayes判别法也可能会导致错误的结论l 判别分析的求解步骤l 常用判别方法1)距离判别法:基本思想是,先根据已知分类的数据,分别计算各类的重心,然后计算待判样本与各类的距离,与哪一类距离最近,就判待判样本x属于哪一类 判别函数为:W(x)=D(x,G2)-D(x,G1)判别准则为:注意:距离一般采用马氏距离;适合对自变量均为连续变量的情况进行分类;对各类的分布无特定的要求2)Fisher判别法:基本思想是通过将多维数据投影至某个方向上,投影的原则是将总体与总体之间尽可能分开,然后再选择合适的判别规则,将待判的样本进行分类判别所谓的投影实际上是利用方差分析的思想构造成一个或几个超平面,使得两组间的差别最大,每组内的差别最小费歇尔判别函数为: 判别准则: Fisher判别对各类分布、方差都没有限制但当总体个数较多时,计算比较麻烦建立Fisher判别函数的准则是:使得综合指标Z在A类的均数与在B类的均数 的差异尽可能大,而两类内综合指标Z的变异尽可能小3)Bayes判别法:基本思想是:设有两个总体,它们的先验概率分别为q1、q2,各总体的密度函数为f1(x)、f2(x),在观测到一个样本x的情况下,可用贝叶斯公式计算它来自第k个总体的后验概率为:一种常用判别准则是:对于待判样本x,如果在所有的P(Gk/x)中P(Gh/x)是最大的,则判定x属于第h总体。
通常会以样本的频率作为各总体的先验概率 Bayes判别主要用于多类判别,它要求总体呈多元正态分布4)逐步判别法:逐步判别法与逐步回归法的基本思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,应及时从判别式中剔除去,直到判别式中没有不重要的变量需要剔除,且也没有重要的变量要引入为止l 解读上表为样品判别结果表,对每个样品给出了了大部分的判别结果,第一列为样品编号,第二列为所有样品的实际分组情况,第三列是通过判别函数预测的分组,包括训练样品的回判结果及待判样品的判别分组本例中样品全部判对,说明判别函数比较合理,一个待判样品的最终归类是判为第一组,表格最后3列则给出了所有样品的判别得分情况 第一个表为未标准化的典则判别函数系数表,由此可得未标准化的判别函数为U1(x)=0.610X1+0.051X2+0.158X3-4.852X4第二个表为各类判别函数值的中心l 已知判别类和的Fisher线性判别函数为 : ,并且已知 , ,, 用下列公式计算临界值: , 并判别新样品属于哪一类? 主成分分析l 主成分分析的目的是什么?(数据的压缩;数据的解释;常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释)主成分分析是考虑各指标间的相互关系,利用降维的思想把多个指标转换成较少的几个相互独立的、能够解释原始变量绝大部分信息的综合指标,从而使进一步研究变得简单的一种统计方法。
它的目的是希望用较少的变量去解释原始资料的大部分变异,即数据压缩,数据的解释常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释l 设p个原始变量为 ,新的变量(即主成分)为 , 主成分和原始变量之间的关系表示为?l 在进行主成分分析时是否要对原来的p个指标进行标准化?SPSS软件是否能对数据自动进行标准化?标准化的目的是什么?(标准化的目的是消除变量在水平和量纲上的差异造成的影响)需要进行标准化,因为因素之间的数值或者数量级存在较大差距,导致较小的数被淹没,导致主成分偏差较大,所以要进行数据标准化;进行主成分分析时SPSS可以自动进行标准化;求解步骤n 对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响n 根据标准化后的数据矩阵求出相关系数矩阵n 求出协方差矩阵的特征根和特征向量n 确定主成分,并对各主成分所包含的信息给予适当的解释l 根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释:(下面是SPSS的输出结果,请根据结果写出结论)表一:数据输入界面表二数据输出界面a)此表为相关系数矩阵,表示的是各个变量之间的相关关系,说明变量之间存在较强的相关系数,适合做主成分分析。
观察各相关系数若相关矩阵中的大部分相关系数小于0.3,则不适合作因子分析表三数据输出界面b)表三:为各成分的公因子方差表,该表是选择主成分的主要依据component为各成分的序号;initial Eigenvalues是初始特征值,total是各成分的特征值,% of variance是各成分的方差占总方差的百分比(贡献率)Cumulative%是累计贡献率,表明前几个成分可以解释总方差的百分数Extraction sums 是因子提取结果一般来说,当特征根需大于1,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分由表可知,第一个主成分的特征根为3.963,方差贡献率为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可以看出前两个成分所解释的方差占总方差的95.57%,仅丢失了4.43%的信息因此最后结果是提取两个主成分在extraction sums of squared loadings一栏,自动提取了前两个公因子,因为前两个公因子就可以解释总方差的绝大部分95.6%表四数据输出界面c)表四是表现各成分特征值的碎石图可以看出因子1与因子2,以及因子2与因子3之间的特征值之差值比较大。
而因子3、4、5之间的特征值差值都比较小,可以初步得出保留两个因子将能概括绝大部分信息明显的拐点为3,因此提取2个因子比较合适证实了表三中的结果碎石图(Scree Plot),从碎石图可以看到6个主轴长度变化的趋势实践中,通常选择碎石图中变化趋势出现拐点的前几个主成分作为原先变量的代表,该例中选择前两个主成分即可表五数据输出界面d)表五是初始提取的因子载荷矩阵,它显示了原始变量与各主成分之间的相关系数,表中的每一列表示一个主成分作为原来变量线性组合的系数,也就是主成分分析模型中的系数aij 比如,第一主成分所在列的系数0.670表示第1个主成分和原来的第一个变量(人均GDP)之间的线性相关系数这个系数越大,说明主成分对该变量的代表性就越大第一主成分(component 1)对财政收入,固定资产投资,社会消费品零售总额有绝对值较大的相关系数;第二主成分(component 2)对人均gdp,年末总人口,居民消费水平有绝对值较大的相关系数可以分别对其进行命名 因子分析l 设p个原始变量为 ,要寻找的m个因子(m 什么是公共因子方差贡献率?写出公。












