好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

非参数统计学讲义(第五章)相关与回归.doc

24页
  • 卖家[上传人]:汽***
  • 文档编号:389940684
  • 上传时间:2024-02-11
  • 文档格式:DOC
  • 文档大小:641.50KB
  • / 24 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 非参数统计学讲义主讲:统计系 袁靖 第五章 相关和回归§1 引言所谓相关,是指两组或两组以上观察结果之间的连带性或了解换句话说,也就是各组观察结果所反映的特性之间有关系如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X和文盲率Y之间的关系等等在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有了解,同时也想知道了解的程度如何前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础在数理统计学中,我们使用相关系数定义变量X和变量Y之间的相关性 度量了总体样本点在标准差线周围的聚集程度,详见笔记P38 (0.1)对于样本,,……,来说,Pearson相关系数为 (0.2)如果在这个样本中的n个观察值独立,则r是的渐近无偏估计;如果它又是二元正态分布,则r是的ML估计为了检验,,可以选取统计量结论:Pearson相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman秩相关系数和Kendall τ相关系数实际上度量的是一种形式的相依了解,或是更广义的单调关系。

      因此相关的概念被推广,不仅指线性相关,而泛指相依或了解§2 两个样本的相关分析一、 等级相关等级相关(Rank Correlation)也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定研究背景1. 基本方法两个样本X、Y,其观察数据可以配对为,,……,将排序后评秩,其秩记作U,与相对应的秩为;同样,排序后评秩,秩记作V,与相对应的秩为这样得到的n对秩,,…,可能每一对完全相等,也可能不等由于每一样本都是n个数据评秩,因此与的取值都是从1到nX、Y的秩可能完全一致,即对于所有的i来说,有=,表5—1是完全一致的评秩结果X、Y的秩可能完全相反,表5—2是完全相反的评秩结果如果X、Y完全相关,应该对于所有的i有=,即—=0因此,与之差可以用来度量X、Y的相关程度定义表5-1 完全一致的评秩X的秩Y的秩1122……n-1n-1nn表5-2 完全相反的评秩X的秩Y的秩1n2n-1……n-12n1则两组秩完全相关时,(i=1,2,…,n)应该为零越大,X、Y之间的相关越不完全但由于可正可负,直接用测度相关,会出现正负抵消,而不能真实反映与差值的大小,所以宜采用,即 (0.3)(5.3)式的这个秩差值平方和的大小既受到n的多少的影响,又受到两组秩不一致程度的影响,因此,采用相对的测量指标有利于说明X、Y的相关程度。

      因为的最大值反映X、Y完全不相关的情况,所以,用(5.3)式除以的最大值,可用来评价X、Y之间秩的差值是否与完全不相关时接近若实际计算的与X、Y完全不相关情况下的接近,那么两个样本的相关程度较低,若实际计算的与最大值的比越小,则两个样本的相关程度越高的最大值即X、Y间完全不相关情况下的秩差值平方和,可以根据表5—2所列的数据计算因为这是X、Y完全不相关的评秩结果的最大值为 (0.4)(5.4)式的中括号内最后一项,当n为奇数时是22;n为偶数时是125.3)式除以(5.4)式得到 (0.5)(5.5)式的取值从0到1根据表5-1中的数据计算(5.5)式值为0,表5-2中的数据计算的(5.5)式值为1,即X、Y的秩完全一致时,(5.5)式的值为0,X、Y的秩完全不一致时,(5.5)式的值为1测度两个样本等级相关程度可以象参数方法一样,定义等级相关系数作为标准斯皮尔曼的等级相关系数(Spearman coefficient of rank correlation)是测定两个样本相关强度的重要指标其计算公式为 (0.6)斯皮尔曼相关系数也写为,在有下标注以s是为表明这个相关系数r不是积矩相关的简单相关系数,而是等级相关的Spearman相关系数。

      注:①由于(5.6)式与(5.5)式不同,所以,R的取值从一1到十1,表明X、Y完全相关,R=十l为完全正相关,R=一1为完全负相关越接近于l,表明相关程度越高,反之,越接近于零,表明相关程度越低,R=0为完全不相关R>0为正相关,R<0为负相关通常认为为相关程度较高②Spearman秩相关系数检验临界值查表可得,P198③存在打结时,Spearman统计量要作相应修正④在大样本时,可用正态近似作检验2. 应用【例5-1】经济发展水平和卫生水平之间的相关分析对某地区12个街道进行调查,并对经济发展水平和卫生水平按规定的标准打分,评定结果如表5—4表5-4 某地区经济水平与卫生水平得分街道号经济水平卫生水平街道号经济水平卫生水平182867848028778878773606598075498881094965756411858568990126870分析:将表5—4中定距尺度测量的分数,按从小到大的顺序排等级,得到表5—5的结果对两个定序尺度测量的样本进行相关分析,可以采用等级相关系数测定必要的计算过程如表5—5所列根据(5—6)式可得由于R=0.888l>0.8,所以该地区的经济发展水平和卫生水平存在着正相关关系,相关程度较高,为88.81%。

      表5-5 某地区经济水平与卫生水平得分街道号经济水平(U)卫生水平(V)D=U-VD2169-3929639312-1141210245312461011-1177700845-1195411101112-111188001223-11合 计323. 同分处理当观察值是评的分数时,可能在同一个样本中出现相同的评分,如成绩都是80等等同分的秩仍旧是等于几个同分值应有秩的平均值如果同分的比例不大,它们对秩相关系数及的影响可以忽略但若同分的比例较大,则计算只时应加入一个校正因子对于X的同分校正因子为,Y的同分校正因子为于是斯皮尔曼秩相关系数的计算公式为: (0.7)式中,u是X中同分的观察值数目,v是Y中同分的观察值数目例5-2】经济发展水平和卫生水平之间的相关分析某地区对24个区县进行调查,并对经济发展水平和卫生水平按规定标准评分,结果如表5—6分析:将表5—6的评分转换为秩次,从高往低排序,同分的秩取平均值,结果见表5—7根据公式5.6计算由于经济水平和卫生水平的评分中均有同分,应采用校正因子修正利用5.7式计算修正的R为对比两个R值可知,由于同分的观察值数目占观察值总数目的比例不是很大,因而校正后的R与校正前的R变化不大。

      但是,校正前的只略大于校正后的R,这说明同分对只的影响虽然很小,但同分的影响是夸大R值在X、Y中至少有一个存在大量同分时,应进行校正表5-6 经济水平与卫生水平评分区县编号经济水平(X)卫生水平(Y)区县编号经济水平(X)卫生水平(Y)192561368552907014676639071156559487761664585816917615068068186054779621959438777020554597664214634107663224232117454233930126865243831表5-7 经济水平与卫生水平的秩次区县编号X的秩次(U)Y的秩次(V)D=U-VD21114-1316922.53.5-1132.520.50.254413955500666007711-416883.54.520.2599.590.50.25109.510-0.50.25111116.5-5.530.251212.584.520.251312.515-2.56.25141477491515123916161339171718-11181816.51.52.25191920-11202019112121210022222200232324-1124242311合计347.004. R的显著性检验利用相关系数及其修正的公式计算的R值,是抽自两个总体的样本数据计算的结果,从这一相关系数的大小,可猜测总体的秩相关系数是否与零有显著差异,但是否为真,应进行假设检验。

      对R的显著性检验正是为了回答这一问题检验可以仅研究两个总体是否存在相关,也可以分别研究相关的方向,即是正相关,还是负相关针对研究问题的不同,可以建立不同的假设组双侧检验H0:不相关H1:存在相关单侧检验H0:不相关 H0:不相关H+:正相关 H-:负相关为对假设作出判定,所需数据至少是定序尺度测量的根据前式计算出R值当时,在附表中,依据n和R查找相应的概率P表5—8是判定指导表表5-8 R显著性检验判定指导表备 择 假 设P-值H+:正相关R的右尾概率H-:负相关R的左尾概率H1:存在相关R的较小概率的2倍若,则按(5—8)式计算ZZ统计量近似服从正态分布,可在正态分布表中查找相应的P值 (0.8)【例5-3】对例5—3作显著性检验分析:由于例5—3中未指明相关的方向,只需检验是否相关,因而建立双侧备择:H0:不相关H1:存在相关利用提供的数据计算的R值为0.8491,每个样本数据n为24在附表中n=24时;双侧检验的概率为0.002显然,R=0.849l>因此,概率P<0.002,数据拒绝H0,表明经济水平和卫生水平确实存在相关关系。

      二、 Kendall τ相关检验Kendall秩相关即肯德尔秩相关,与等级相关一样,也是用于两个样本相关程度的测量,要求数据至少是定序尺度的它也是利用两组秩次测定两个样本问相关程度的一种非参数统计方法1. 基本概率协同(concordant,一致):在样本和样本中,如果,则对子与协同;如果,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.