
线性计算方法.doc
17页第八章 线 性 相 关前面着重于描述某一变量的统计特征或比较该变量的组间差别两个随机变量之间的关系:如体重与肺活量、年龄与血压是否存性联系?正向还是负向?联系的程度?线性相关(linear correlation):线性联系?方向?程度?8.1 线 性 相 关 概 念1. 独立随机的双变量正态分布样本 讨论两个变量X和Y的相关性样本:独立的、成对的观察值 (x1,y1),(x2,y2),…,(xn,yn)例8.1 为讨论父子身高间的线性相关程度,南方某地在应届中学毕业生花名册中随机抽取20名男生,分别测量他们和他们的父亲的身高(cm),得样本资料如表8.1所示表8.1 20对父子的身高(cm)数据编号1 2 3 4 5 6 7 8 9 10父高X150 153 155 158 161 164 165 167 168 169子高Y159 157 163 166 169 170 169 167 169 170编号11 12 13 14 15 16 17 18 19 20父高X170 171 172 174 175 177 178 181 183 185子高Y173 170 170 176 178 174 173 178 176 180问如何保证这是一份可供讨论线性相关的合格样本?解 (1)随机抽取;(2)互相独立? 2. 散点图 (scatter plot) 座标轴:分别表示两个变量; n个点:构成一幅散点图(图8.1) 图8.2 典型散点图图(a)和(c),正相关(positive correlation) 图(b)和(d),负相关(negative correlation)图(e) 、(f) 、(g),Y和X无关联图 (h),可能存在曲线型联系。
通常所说的相关就是线性相关,(e)到(h)均属不相关对于不相关的情形,宜进一步澄清是否为曲线关系8.2 相 关 系 数Pearson积矩相关系数(product-moment correlation coefficient) 对双变量正态分布变量X和Y (8.1)总体相关系数,记为rr=0,X和Y无线性相关或零相关(null correlaton)r >0, 正相关r <0, 负相关r=1或-1, 完全相关(罕见!)样本相关系数,记为r对于n对随机样本,X和Y的样本协方差: (8.2)lxy:X与Y的离均差乘积和若所有离均差乘积平均后接近零,则表明部份个体的X和Y同方向,部份个体的X和Y反方向,总的说来,诸个体各循其道,杂乱无章相反,若离均差乘积平均后为正,且距零较远,则表明多数个体的X和Y同方向,即正相关;若离均差乘积平均后为负,且距零较远,则表明多数个体的X和Y反方向,即负相关协方差的大小与X,Y的取值单位有关,不同问题中的协方差不可比较相关系数:X和Y分别标准化之后的协方差数值介于-1和+1之间,且没有单位 (8.3) lxx: X的离均差平方和 lyy:Y的离均差平方和例8.2 试计算例8.1中父高X和子高Y的样本相关系数(假定系独立随机双正态样本)。
解 =3376, =3407, n=20 =571728, =581081, =576161由(8.3)式得到, 8.3 相关系数的统计推断样本相关系数r只是总体相关系数r的一个估计值样本相关系数也存在变异性得到线性相关的描述统计量r之后,还有必要对其所来自的总体进行统计推断1. 相关系数的假设检验 H0: r=0直接查r界值表或 t检验: v=n-2 (8.4) (8.5) Sr: 样本相关系数r的标准差(也称标准误) 例8.3 继例8.2中算得r=0.9296后,试检验相关是否具有统计学意义解 (1)直接查r界值表可得到r0.001,18 = 0.679, | r | >r0.001,18,P<0.001,(2)t 检验H0:r=0, H1:r≠0,a=0.05 查t分布表,得到t0.001,18=3.922显然|tr|>3.922,P<0.001故拒绝H0,接受H1,可以认为父子身高之间存在正相关关系。
与查表结论相同2. 相关系数的区间估计 (1) 对样本相关系数r作变换 或 (8.6)(tanh为双曲正切函数,tanh-1为反双曲正切函数)(2) 按正态近似原理,得到的1-a置信区间 ) (8.7a)缩写为 (8.7b)(3) 上下限作反变换r=tanh z即可得到总体相关系数的1-置信区间例8.4 例8.2中样本相关系数r=0.9296,求总体相关系数r的95%置信区间解 z=tanh-10.9296=1.6554 的95%置信区间为1.6554(1.1800,2.1308)将其上下限作反变换,得到总体相关系数的95%置信区间为(0.8275,0.9722) 8.4 等 级 相 关有时,原始数据并不服从正态分布或其总体分布未知; 数据中有 “超限值”存在; 数据本身就是等级资料此时采用等级相关(rank correlation)或秩相关—非参数统计方法1. Spearman等级相关 (1)将n对观察值Xi和Yi分别由小到大编秩(数值相同时取平均秩次),以pi表示Xi的秩次;qi表示Yi的秩次(2) di=pi-qi (3) (8.8)假设检验 H0:rs=0, H1:rs≠0 l 当样本例数n较小时,可用查表法(rs界值表)l 如n>20,也可将rs直接代替式(8.4)和(8.5)中的r作t检验或查r界值表。
例8.5 肝癌病因研究,调查了10个乡肝癌死亡率(1/10万)与某种食物中黄曲霉毒素相对含量(以最高含量为10), 试作等级相关分析解 表8.2 等级相关系数计算表 编号(1) 黄曲霉毒素 肺癌死亡率X(相对含量)(2)秩次p(3)Y (1/10万) (4) 秩次q (5)d(6)=(3)-(5)d 2(7)=(6)2 1 2 3 4 5 6 7 8 9 10 0.7 1.0 1.7 3.7 4.0 5.1 5.5 5.7 5.910.0 1 2 3 4 5 6 7 8 910 21.5 18.9 14.4 46.5 27.3 64.6 46.3 34.2 77.6 55.1 3 2 1 7 4 9 6 5 10 8 -2 0 2 -3 1 -3 1 3 -1 2 4 0 4 9 1 9 1 9 1 4合计42第⑶、⑸栏,若有观察值相同,则取平均秩次第⑹、⑺栏, 求每对秩次的差值d、d2和Σd2按式(8.8)计算统计量rs 本例n=10,查rs界值表,得0.02>P>0.01,按=0.05水准拒绝Ho,可以认为黄曲霉毒素与肝癌死亡率间存在正相关。
2. 相同秩次较多时rs的计算当和中存在相同秩次时,(8.8)式不再适用,应利用秩次和直接计算积矩相关系数当中不存在相同秩次以及中也不存在相同秩次时,这样算得的和利用(8.8)式计算的结果完全一致3. r与rs的区别与联系 区别: 积矩相关要求数据服从双变量正态分布,属于参数统计量;等级相关并不要求正态分布,属于非参数统计量8.5 线性相关分析的注意事项1. 散点图的重要性 并非任何有联系的两个变量都属线性联系如果从散点图可初步看出变量分布非正态,则应考虑作等级相关而不宜作积矩相关当散点图中出现异常点(outlier)时要慎重处理必要时可通过等级相关来减小异常点的不良影响2. 变量取值非随机时莫作相关 例如,为研究药物的剂量-反应关系,人们选定n种剂量,观察每种剂量下动物的反应;又如,摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量此时得到的数据就不是随机样本,即使按样本相关系数的公式计算,所得结果并不接近总体相关系数,而可能因人为选定变量值的范围不同而不同3. 对相关的解释一定要结合专业背景,切不可把任意两个变量拉在一起盲目下结论例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义,难道两者真有内在联系?统计学上的关联性,不一定是因果联系。
样本足够大时绝对值较小的样本相关系数也易于得到较小的P值,有统计学意义并不一定反映相关就很密切.4. 慎重合并分层资料 图8.3 慎用相关的情形 (a)异常值 (b)、(c)、(d)分层资料 。












