好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

医学统计学:第九章双变量回归与相关.ppt

59页
  • 卖家[上传人]:窝***
  • 文档编号:201016894
  • 上传时间:2021-10-08
  • 文档格式:PPT
  • 文档大小:1.79MB
  • / 59 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第九章第九章 双变量回归与相关双变量回归与相关概念: 回归与相关是研究两个或多个变量之间相互关系的一种分析方法 回归: 是研究变量之间统计依存关系的一种方法 相关: 是研究随机变量之间相互关系密切程度和方向的方法 直线相关与回归: 只涉及两个变量,而且分析是否呈直线关系,是回归、相关分析中最简单的一种又称简单相关和回归变量间统计关系变量间函数关系回归分析指建立应变量与自变量之间统计依赖关系的模型,用自变量对应变量进行“预测”,使“预测值”尽可能接近应变量的“观测值”回归分析基本类型 线性回归 一元回归 非线性回归 多元回归一、直线回归1. 直线回归方程 :X为某值时应变量Y的平均估计值a:截距b:回归系数(样本回归方程)(总体回归方程)回归直线穿过点( xi ,i )(总体回归方程) 20名糖尿病人的血糖水平与胰岛素水平的散点图直线回归方程的求法 原理(最小二乘法): 各散点距离回归直线纵向距离平方和为最小而得到直线计算:回归直线必通过点资料要求:应变量Y服从正态分布,通常自变量X为可以精确测量或严格控制的因素2. 建立直线回归方程的具体步骤 20名糖尿病人的血糖水平与胰岛素水平的散点图绘制散点图观察两变量见是否呈直线趋势H0: 正态分布H1: 非正态分布 = 0.10正态正态x,y是否服从正态分布X = 346.6, Y=217.00, X2=6552.16, Y2=2517.1014 XY=3510.45, n=20, X=17.33, Y=10.85 即推断总体回归系数()是否为零(1)方差分析 即:SS总=SS回归+SS残余3. 直线回归的假设检验查附表3,P698,F0.01(1,18)=8.29 P 0.01(2)检验H0: = 0H1: 0(0.4585 0)/0.0699=6.56 = 18,t0.01(18) = 2.878 P 0.01F = t2=(-6.56)2 = 43.03(1)描述两分析变量间的数量依存变化关系4. 直线回归方程的应用4. 直线回归方程的应用(2)预测: 1)点预测: 一般把易于测定、控制的变量作为自变量,建立回归方程,然后对难以测定或控制的变量值进行预测。

      2)区间预测: 当X是已知时,按一定概率估计应变量值或其均数所在范围当X是已知时,按一定概率估计应变量值或其均数所在范围当X为某固定值X0时, 总体均数( )的可信区间 例6.1资料,当 X0= 15 mU/L,求 总体均数的95%可信区间即:11.9182.1010.3396= ( 11.08, 12.76 )个体Y值的预报区间(容许区间)意义: 当X是某一固定值X0时,按一定概率估计应变量Y0的波动范围6.1资料,当X=15,求Y的波动范围(=0.05)例例 题题 某地疾控中心根据10年来乙脑发病率(1/10万,Y)与相应前一年7月份日照时间(小时,X)建立回归方程,将乙脑发病率做平方根反正弦变换,即求得回归方程已知今年今年7月份日照时间X=260小时,试估计明年明年该地的乙脑发病率(设=0.05)3)控制: 指当要求因变量Y在一定范围内波动时,如何控制自变量X的取值 例 :已知血糖正常范围为(4.446.66 mmol/L),在例6.1资料的基础上,问欲将血糖水平控制在正常范围内时,血中胰岛素应维持在什么范围内? (=0.05) 解得:X( 33.95, 38.79)mU/L(4)利用回归方程获得精度更高的参考值范围P 0, 正相关; r 0, 负相关。

      2. 相关系数的计算步骤(1)绘制散点图观察两变量见是否呈直线趋势;20名糖尿病人的血糖水平与胰岛素水平的散点图H0: 正态分布H1: 非正态分布 = 0.10正态正态(2) x,y是否服从正态分布(3)计算相关系数计算例6.1资料的相关系数3. 相关系数的假设检验(t 检验)例6.1资料:H0: = 0 ; H1: 0;=0.05 查表得:P 0.01 (结果同回归系数检验)三、直线相关、回归的区别与联系1. 区别:(1)在资料要求上不同; 回归: 要求Y服从正态分布,X是可以精确测量或严格控制 的此类回归一般称型回归 相关:要求X、Y均服从正态分布(双变量正态分布)此类资料进行回归分析,称II 型回归2)在应用上不同 回归:反映两变量间依存变化的数量关系; 相关:反映两变量间相关的密切程度和方向2. 联系(1)同一组资料,r 与 b符号(正负号)一致; (注意:两者大小有一定关系,但不绝对)(2)同一组资料, r 与 b的假设检验是等价的,即tb = tr(3)可用回归解释相关 r2 称为确定系数,其意义为回归变异占总变异的比值例如:某一资料 r = 0.20 ,n = 100,求得 t =2.021,P 0.05 但 r2 = (0.20)2 =0.04, 表示回归变异在总变异中仅占4%,说明两变量间的相关关系实际意义不大。

      四、秩相关(等级相关)1. 适用于下列资料:(1)不服从双变量正态分布的资料;(如二项分布)(2)总体分布型未知;(3)原始数据是用等级表示2. 秩相关系数(rs)意义 不用原始数据计算,而是根据数值大小的秩次进行计算其意义同直线相关系数 3. 秩相关系数的计算(1)按直线相关系数公式计算,只是用秩次代替原始观察值2)Sperman公式法: 例6.2 为研究饮水中氟含量与氟中毒患病率之间的关系,测定了9个居民点井水中的氟含量X(mg/L),并同时通过体检得到这些居民点中常住居民的氟中毒患病率Y(%),资料如下表:(1) (2)4. 秩相关系数的假设检验 H0: s = 0 ; H1: s 0;=0.05(1)查表法:n 50时,查附表14(P830) 秩相关系数界值表进行假设检验 查表得:rs 0.001(9) = 0.933, P 50时,用下式进行假设检验五、曲线配合(曲线拟合)两变量之间不呈直线而是呈曲线关系时,要用适当的曲线方程来描述两变量间的关系1. 曲线的类型 如指数曲线、幂曲线、多项式曲线、生长曲线等2. 曲线配合的基本步骤(1)绘制散点图;(2)根据两变量间相关变化的曲线类型选择适当的曲线方程;(3)用计算机有关统计软件进行拟合;(4)根据配合适度指标(常用确定系数R2)来确定最优方程。

      3. 曲线配合的实例 例6.3 在一次麻疹流行中,调查了某小学各班级麻疹曾患率X(%)与发病率 Y(%)资料如下:Independent: X Dependent Mth Rsq d.f. F Sigf b0 b1 b2 b3 Y LIN .865 7 44.98 .000 17.4036 -.1954 Y LOG .714 7 17.45 .004 29.0928 -5.8222 Y INV .588 7 9.97 .016 3.0157 126.323 Y QUA .944 6 50.94 .000 13.5857 .0599 -.0030 Y CUB .945 5 28.73 .001 15.1887 -.1339 .0020 -4.E-05 Y COM .409 7 4.84 .064 43.4677 .9599 Y POW .267 7 2.54 .155 295.188 -1.0849 Y S .181 7 1.55 .253 .8806 21.3896 Y GRO .409 7 4.84 .064 3.7720 -.0410 Y EXP .409 7 4.84 .064 43.4677 -.0410 Y LGS .409 7 4.84 .064 . .0230 1.0418THE END。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.