
线性计算方法.docx
20页第八章 线 性 相 关前面着重于描述某一变量的统计特征或比较该变量的组间差别 两个随机变量之间的关系: 如体重与肺活量、年龄与血压 是否存性联系?正向还是负向?联系的程度?线性相关( linear correlation ):线性联系?方向?程度?8.1 线 性 相 关 概 念1. 独立随机的双变量正态分布样本讨论两个变量X和Y的相关性 样本:独立的、成对的观察值(x1, y1), (x2, y2),…,(xn, yn)例 8.1 为讨论父子身高间的线性相关程度,南方某地在应届中学 毕业生花名册中随机抽取 20 名男生,分别测量他们和他们的父亲的 身高(cm),得样本资料如表8.1所示表8.1 20对父子的身高(cm)数据编号12345678910父高X150153155158161164165167168169子高Y———1 159157163166169170169167169170编号11121314151617181920父咼X170171172174175177178181183185-w -r子高Y173170■ 4.170176178174173178176180>H lHJ PFJtlQO疋 I7J 勺 I解 (1)随机抽取;(2)互相独立?2. 散点图 (scatter plot)座标轴:分别表示两个变量; n 个点:构成一幅散点图(图 8.1)180-170・160・150・140170 180 190ill ■ ■—140 150 160图8.1 例8.1数据的散点图(a) 0 通常所说的相关就是线性相关,(e)到(h)均属不相关对于不相关的情形,宜进一步澄清是否为曲线关系8.2 相 关 系 数Pearson 积矩相关系数 (product-moment correlation coefficient) 对双变量正态分布变量 X 和 Y相关系数 沖丫的协方差 (8.1)(X的方差)(Y的方差)总体相关系数,记为Pp=0, X和Y无线性相关或零相关(null correlaton)P >0, 正相关P <0, 负相关P=1 或-1, 完全相关(罕见!)样本相关系数 ,记为 r对于 n 对随机样本, X 和 Y 的样本协方差:J (xi - x)(yi - y) 1X和Y的样本协方差=i=i , = xy (8.2)n -1 n -1l : X与Y的离均差乘积和xy 若所有离均差乘积平均后接近零,则表明部份个体的 X 和 Y 同 方向,部份个体的 X 和 Y 反方向,总的说来,诸个体各循其道,杂乱无章 相反,若离均差乘积平均后为正,且距零较远,则表明多数个体 的 X 和 Y 同方向,即正相关;若离均差乘积平均后为负,且距零较远,则表明多数个体的 X 和 Y 反方向,即负相关。 协方差的大小与 X,Y 的取值单位有关,不同问题中的协方差不 可比较相关系数:X和Y分别标准化之后的协方差 数值介于-1和+1 之间,且没有单位lr = xy为(x - x)(y - y)iii=1 _(x — x)2 艺(y — y)2i ii=1 i=1Yxy - f(Yx )(》y )i i n i ii=1 i=1 i=1[另 x2 — f(为 x)2][为 y2 — f(为 y )2]: n i n ii=1 i=1 i=1 i=1(8.3)lxx: X 的离均差平方和 lyy:Y 的离均差平方和例 8.2 试计算例 8.1 中父高 X 和子高 Y 的样本相关系数 (假定系独立随机双正态样本 )解 x = 3376,ii=1工 x 2 =571728,ii =1由(8.3)式得到,工 y =3407,ii=1工 y2 =581081,ii=1n=20工 x y = 576161iii=1576161 — (3376)(3407) / 20 1059.4 = = 0.9296(571728 — 33762 /20)(581081 — 34072 /20) 、(1859.2)(69855)8.3相关系数的统计推断样本相关系数r只是总体相关系数P的一个估计值。 样本相关系数也存在变异性得到线性相关的描述统计量 r 之后,还有必要对其所来自的总体进 行统计推断1. 相关系数的假设检验H0: p =0直接查 r 界值表v=n-2(8.4)或 t 检验:r - 0~~sr1 - r 2s 二 (8.5)r \ n - 2Srt样本相关系数r的标准差(也称标准误)例 8.3 继例 8.2 中算得 r= 0.9296 后,试检验相关是否具有统计学 意义解 ( 1)直接查 r 界值表可得到 r001 18 = 0・679,I r 1 >r0.001 18, PVO.O01,J J(2)t 检验H0: p=0, %: p^0, a=0・05严=10.71 - 0.92962 ''-20 - 2-査 t 分布表,得到 t0 001 18=3・922显然丨 tr |> 3.922, PV 0.001 故拒绝H0,接受H,可以认为父子身高之间存在正相关关系与査 表结论相同2. 相关系数的区间估计(1) 对样本相关系数 r 作变换(8.6)z = tanh -1 r 或 z = 1ln(1 + r)2(tanh为双曲正切函数,tanh-i为反双曲正切函数)(2) 按正态近似原理,得到 P的1—a置信区间(z - u : jn — 3 , z + u ;n _ 3) (8・7a)缩写为 z + u ;、n - 3 (8»7b)⑶上下限作反变换匸tanh z即可得到总体相关系数P的1-«置信 区间。 例8.4例8.2中样本相关系数r=0.9296,求总体相关系数p的95% 置信区间解 z=tanh-10.9296=1.6554tanh —1 p 的 95% 置信区间为1.6554土 1.96/ y20—3 二(1.1800 , 2.1308)将其上下限作反变换;得到总体相关系数P的95%置信区间为(0.8275, 0.9722)8.4 等 级 相 关 有时,原始数据并不服从正态分布或其总体分布未知 ; 数据中有 “超限值”存在 ; 数据本身就是等级资料 此时采用等级相关 (rank correlation) 或秩相关—非参数统计方 法1. Spearman 等级相关(1)将n对观察值Xi和Yi分别由小到大编秩(数值相同时取平均秩 次),以pt表示X.的秩次;qi表示Y.的秩次(2) di=pi-qi6丫n d 2(3)r = 1 - i=i (8・8)s n(n2 -1)假设检验H0: Ps = O,H1: Ps 工0当样本例数n较小时,可用查表法(rs界值表)sn>20,也可将r直接代替式(8.4)和(8・5)中的r作t检验或S查 r 界值表例 8.5肝癌病因研究,调查了 10 个乡肝癌死亡率 (1/10 万)与某种食物中黄曲霉毒素相对含量 (以最高含量为 10), 试作等级相关分析。 解 表 8.2 等级相关系数计算表■77 黄曲霉毒素肺癌死亡率d⑹二⑶-⑸d 2(7)=(62编号輕相对含量)秩次p⑶Y (1/10万)(4)秩次q ⑸(i)⑵i0.712153-2421.018.920031.714.412443.746.57-3954.027.341165.164.69-3975.546.361185.7834.253995.9977.610-111010.01055・1824合计42第⑶、⑸栏,若有观察值相同,则取平均秩次第⑹、⑺栏,求每对秩次的差值d、d2和三d2 按式(8.8)计算统计量 rsr = 1 - 6(42) = 0.7455 s 103 - 10本例n = 10,查f界值表,得0・02>P>O・O1,按 =0.05水准拒绝H ,S O可以认为黄曲霉毒素与肝癌死亡率间存在正相关2. 相同秩次较多时 fs 的计算当x ,x,…和y , y ,…中存在相同秩次时,(8.8)式不再适用,应1 2 1 2 利用秩次P和q直接计算积矩相关系数・ ・ii当x ,x ,…中不存在相同秩次以及y , y ,…中也不存在相同秩次1 2 1 2 时,这样算得的 r 和利用( 8.8)式计算的结果完全一致。 s3. r与rs的区别与联系区别: 积矩相关要求数据服从双变量正态分布, 属于参数统计量;等级相关并不要求正态分布,属于非参数统计量8.5 线性相关分析的注意事项1. 散点图的重要性 并非任何有联系的两个变量都属线性联系 如果从散点图可初步看出变量分布非正态, 则应考虑作等级相关 而不宜作积矩相关当散点图中出现异常点 (outlier) 时要慎重处理必要时可通过等级相关来减小异常点的不良影响■_rJ2. 变量取值非随机时莫作相关例如,为研究药物的剂量 -反应关系,人们选定 n 种剂量,观察 每种剂量下动物的反应;又如,摸索化学反应的适宜条件,人们选定几种温度,观察各温度下生成物的数量此时得到的数据就不是随机样本,即使按样本相关系数的公式计算,所得结果并不接近总体相关系数, 而可能因人为选定变量值的范 围不同而不同3. 对相关的解释 一定要结合专业背景,切不可把任意两个变量拉在一起盲目下 结论例如,某人喜得贵子,庭前种一小树,每月测子高与树高,计算发现子高与树高间的相关有统计意义, 难道两者真有内在联系?统计学上的关联性,不一定是因果联系样本足够大时绝对值较小的样本相关系数也易于得到较小的P 值,有统计学意义并不一定反映相关就很密切 .4. 慎重合并分层资料(a) ⑸ ® ⑷图8.3慎用相关的情形(a)异常值(b)、(c)、(d)分层资料。
