好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

医学统计学(李琳琳)7相关分析与回归分析.ppt

72页
  • 卖家[上传人]:壹****1
  • 文档编号:585434661
  • 上传时间:2024-09-02
  • 文档格式:PPT
  • 文档大小:770KB
  • / 72 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第七章第七章 线性回归与相关线性回归与相关 统计学的两个主要内容参数估计和假设检验üt检验 ü秩和检验ü卡方检验指标变量之间关系ü相关分析ü回归分析 学习目标学习目标 ①了解线性回归分析和相关分析的用途②熟悉线性回归分析和相关分析的基本步骤③掌握相关系数和回归系数的定义,简单相关分析和回归分析的适用条件 在医在医药科学药科学研究中常研究中常常常要分析两个变量间的关系,要分析两个变量间的关系,如如血药浓度和时间血药浓度和时间、年龄和血压、药片的硬度和、年龄和血压、药片的硬度和药片的消溶速度等药片的消溶速度等 一般来说,变量之间的关系可分为确定性和不确一般来说,变量之间的关系可分为确定性和不确定性两大类定性两大类 R1R1R2R1R2R3确定性的关系:两变量间的函数关系两变量间的函数关系 显然,运动员体重越大,他能举起的重量也越大,显然,运动员体重越大,他能举起的重量也越大,但举重成绩和运动员体重到底是怎样的关系,除但举重成绩和运动员体重到底是怎样的关系,除了运动员体重外,生理因素、心理因素也会影响了运动员体重外,生理因素、心理因素也会影响到运动员的成绩,怎样建立这些因素对举重成绩到运动员的成绩,怎样建立这些因素对举重成绩的模型。

      的模型举重成绩的比较)(举重成绩的比较)举重举重是一种一般人都能看懂的运动,它共分是一种一般人都能看懂的运动,它共分九个重量级,有两种主要的比赛方法:抓举九个重量级,有两种主要的比赛方法:抓举和挺举 表中给出了九个重量级的世界纪表中给出了九个重量级的世界纪录255200110以上以上237.518511022118090207.517082.5195157.575180141.567.5161.513060151120.55614110952挺挺举(公斤)(公斤)抓抓举(公斤)(公斤)成成绩重量重量级(上限体(上限体重)重) 确定性关系与随机关系确定性关系与随机关系l确定性的函数关系确定性的函数关系:两变量间的函数关系 l随机性的关联关系随机性的关联关系:两变量在宏观上存在关系,但并未精确到可以用函数关系来表达 Ø 圆的周长与半径的关系:圆的周长与半径的关系: C==2 RØ 速度、时间与路程的关系:速度、时间与路程的关系:L==STØ 青少年身高与年龄的关系;青少年身高与年龄的关系;Ø 体重与体表面积的关系;体重与体表面积的关系; l线性相关分析线性相关分析(linear correlation analysis)或简单相关分析(simple correlation analysis) 则是研究2个随机变量间是否有线性联系、联系程度及方向的统计方法。

      第一节第一节 直线相关直线相关 1.直线相关直线相关 (linear correlation) 描述具有线性关系的两个随机变量间相关方向和密切程度的一种统计分析方法2.相关系数相关系数 (correlation coefficient) 3. 描述具有线性关系的两变量间,相关关系的密切程度(大小)和相关方向的指标,总体相关系数用 ρ表示,样本相关系数用r表示一、直线相关的概念一、直线相关的概念 散点图能直观地看出两变量间的关系,因此研究散点图能直观地看出两变量间的关系,因此研究两变量的关系应先绘出散点图,而后再确定两者两变量的关系应先绘出散点图,而后再确定两者的量化关系的量化关系图9-1 常见的散点图 相关系数的方向示意图相关系数的方向示意图体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.6 体重(kg),X肺活量Y(L)40424446485052545658602.22.42.62.83.03.23.43.6相关系数的大小示意图相关系数的大小示意图r = 1 0< r <1r = 0 •若双变量若双变量X与与Y均是来自正态总体的随机变量,散均是来自正态总体的随机变量,散点图呈线性趋势,且各观察值相互独立,则两变量点图呈线性趋势,且各观察值相互独立,则两变量之间的相关关系可采用之间的相关关系可采用Pearson积矩相关系数表示。

      积矩相关系数表示 (1)相关系数ρ是一个无量纲的数值,且-1≤ρ ≤ 1;(2) ρ>0为正相关,ρ <0为负相关;(3) ρ 越接近于1,说明关联程度较高, ρ越接近于0,说明相关性极弱或无关联相关系数的特点相关系数的特点 简单相关分析的方法步骤简单相关分析的方法步骤(一)绘制散点图,看有无线性关系(二)估计简单相关系数r(三)检验简单相关系数ρ 是否有统计学意义 某实验室检测某实验室检测1515名健康成人凝血酶浓度名健康成人凝血酶浓度((U/mlU/ml)与血液凝固时间(秒)如表)与血液凝固时间(秒)如表7-3.7-3.试问凝血试问凝血时间与凝血酶浓度间是否有线性相关关系存在?时间与凝血酶浓度间是否有线性相关关系存在?【【例例7-2】】表表7-2 15名健康成人凝血名健康成人凝血酶酶浓度与血液凝固度与血液凝固时间测定定结果果编 号号123456789101112131415凝血凝血酶酶浓度度(X)1.11.21.00.91.21.10.90.91.00.91.10.91.11.00.8凝血凝血时间(Y)141315151314161514161516141517 研究目的:凝血酶浓度和凝血时间两定量之间是否存性关系,其联系程度如何? 【【解析解析】】 (一)绘制散点图(一)绘制散点图图图7-5 凝血酶浓度凝血酶浓度X与凝血时间与凝血时间Y散点图散点图从整体趋势而言,随着凝血酶浓度的增加,凝血时间呈降低的趋势,且二者之间存性相关关系。

      (二)估计简单相关系数r表明凝血时间与凝血酶浓度可能呈负相关趋势表明凝血时间与凝血酶浓度可能呈负相关趋势 (三)相关系数的统计推断(三)相关系数的统计推断 由于抽样误差的存在,即使从相关系数ρ=0的总体中随机抽样,所得样本相关系数r也不一定全为0因此,我们计算出来的样本相关系数未必等于总体相关系数,所以需要对相关系数进行假设检验若ρ≠0,说明X与Y之间有线性关系若ρ=0,说明X与Y之间无线性关系,但也可能存在其它相关关系 ρ的假设检验的假设检验 H0: ρ=0 H1: ρ≠0α==0.05(1)查表法由前面计算得:样本相关系数由前面计算得:样本相关系数r=-0.907;r=-0.907;对给定对给定αα==0.050.05,自由度,自由度n-2=13,n-2=13,有附表有附表1111((P391P391))查临查临界界值值r r0.050.05(13)=0.560;(13)=0.560;因因为 ==0.907>0.5600.907>0.560,,则P P<0.05<0.05,拒,拒绝H H0 0 , ,即即认为变量量X X与与Y Y间的的线性相关关系有性相关关系有统计学意学意义。

      P391 (2)t检验H0: ρ=0 H1: ρ≠0 α==0.05查查t界值表,界值表, 按按α==0.05水准,拒水准,拒绝绝H0,接受,接受H1,可认为凝血时间的长短与凝血酶浓度呈负相,可认为凝血时间的长短与凝血酶浓度呈负相关 线性相关分析的应用 (一)当两变量有线性趋势时,才能进行线性相关分析一般应首先利用散点图观察并判断两变量间的关系,根据变量间可能的关系,选择不同的相关分析方法 (二)相关分析适用于双变量正态分布的资料,否则需进行变量变换或采用其它计算方法,如秩相关 (三)相关分析适用于两变量均为随机取值的资料,当一个变量的数值人为选定时不能做相关分析如研究不同温度下兔肺动脉张力,人为选定四个温度16℃,24℃,30℃,37℃,获得如下资料 (四)异常点的存在对相关分析往往有影响,要特别注意 图 9-3 剔除异常值前后的散点图 (五)分层资料盲目合并容易引起假象 左图显示:合并前,两组数据无相关关系,但合并后呈正相关右图显示:合并前,两组数据分别呈正相关,但合并后无相关关系。

      œ 相关关系不等于因果关系;相关关系不等于因果关系;œ相关分析要有实际意义,两个变量的选择相关分析要有实际意义,两个变量的选择 一定要结合专业背景,不能把毫无关联的两一定要结合专业背景,不能把毫无关联的两种现象勉强作相关分析种现象勉强作相关分析œ 注意相关关系成立的数据范围;注意相关关系成立的数据范围;小小 结结小小 结结 案例案例 有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1, 2.5, 5, 7.5, 10, 15, 20, 30等档次,每档各取3只动物(共24只)进行试验,于服药后1 h抽血检验血药浓度在SPSS中作散点图,计算得口服药物量与血药浓度的Pearson相关系数=0.979,经假设检验P<0.001,认为口服药物量与血药浓度呈线性正相关 请问:本例的两个变量各有何特征?可以计算Pearson相关系数吗?若可以,则计算的方法与步骤有何不妥吗?计算结果正确吗?可以推出本例的结论吗? 案例辨析案例辨析 本例的重要问题是,线性相关的条件不满足,即口服剂量是人为取定的,属于非随机变量,因此不宜作相关分析其次,仅利用Pearson相关系数与假设检验值就认为两者呈线性正相关为时过早。

      分析本例的散点图,可发现散点呈曲线形,而非直线型,因此即使口服剂量是随机变量也不宜直接作线性相关分析第三,研究者取的剂量范围为1~30,而结论认为口服药物量与血药浓度呈线性正相关,未限定浓度范围,也是不妥的相关分析很重要的一条就是在多大范围作的研究就在多大范围下结论,因为超过范围很可能结论就不再成立 第二节直线回归 l对于具有相关关系的变量,虽然不能用精确的函数表达式来表达其关系,但是大量观察数据的分析表明,它们之间存在着一定的相互依存关系l相关分析相关分析是用相关系数来刻画这些变量之间相互依存关系的密切程度;l回归分析回归分析从变量的观测数据出发,定量地反映它们之间相互依存关系,判断所建立的回归方程式的有效性,进行预测或估计 函数关系:它反映着现象之间严格的数量化依存关系,也称确定性的依存关系如正方形的面积和边长的关系 回归关系:变量之间存在着不确定、不严格的依存关系,即对于一个变量的某个数值,可以有另一变量的若干数值与之相对应 在这种关系中,对于变量的每一个数值,都有一个或几个确定的值与之严格对应 回归关系的几个例子回归关系的几个例子üü子女身高y与父亲身高x之间的关系üü收入水平y与受教育程度x之间的关系üü体重y与身高x1 、胸围x2 之间的关系üü体表面积y与体重x之间的关系üü商品销售额y与广告费支出x之间的关系 回归分析的基本概念l一、简单线性回归(一、简单线性回归(Regression)的意义)的意义 简单线性回归是用来分析一个变量(反应变量)如何随另一个变量(解释变量)变化而变化数量关系的一种方法 l回归分析(Regression￿analysis)1.从一组样本数据出发,确定变量之间的数学关系式;2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出具有统计学意义的变量; 自变量与因变量自变量与因变量 a)自变量自变量(independent variable)或解释变量: 影响因变量的变量,影响因变量的变量, 一般用一般用X表示表示b)因变量因变量(dependent variable)或响应变量或响应变量: 受其它变量影响的变量,一般用受其它变量影响的变量,一般用Y表示表示通常由给定的通常由给定的x x值来对值来对Y Y值进行推断,故值进行推断,故x x是给是给定的、非随机的,定的、非随机的,Y Y是随机变量。

      是随机变量 l直线回归分析的关键就是求出回归方程直线回归分析的关键就是求出回归方程 中中a a、、b b两个常数由数学知识可知,两点决定一条直线两个常数由数学知识可知,两点决定一条直线将容量为将容量为n n的样本标在的样本标在( (x,yx,y) )坐标平面上,可得到坐标平面上,可得到n n个点n n个点可确定许多直线,到底以哪条线作为回归线呢?个点可确定许多直线,到底以哪条线作为回归线呢?直线回归的主要应用是统计预测,即根据实测的直线回归的主要应用是统计预测,即根据实测的X X估算估算Y Y,当然是希望估算的,当然是希望估算的Y Y(称为(称为 )与实测之间的差值()与实测之间的差值(Y Y-- )越小越好越小越好最小二乘法建立回归方程最小二乘法建立回归方程 l故由样本资料决定回归线时,往往用数学上的最小二乘故由样本资料决定回归线时,往往用数学上的最小二乘法(法(least square methodleast square method)原理求解)原理求解a a和和b b两个系数两个系数((αα和和ββ的点估计值),即在所有直线中找出(残差平的点估计值),即在所有直线中找出(残差平方和方和 ,记为,记为SSSS残差残差)达最小值时所对应的直线)达最小值时所对应的直线作为回归线。

      作为回归线最小二乘法建立回归方程最小二乘法建立回归方程 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果高斯也计算了谷神星的轨道奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中 让所有点的让所有点的         的平方和最小 的平方和最小v用最小二乘法拟合直线,选择用最小二乘法拟合直线,选择a和和b使其残差(样本点到使其残差(样本点到直线的垂直距离直线的垂直距离)平方和达到最小平方和达到最小 系数估计公式:系数估计公式: 回归方程:回归方程: 二、回归分析的方法步骤二、回归分析的方法步骤绘制散点图绘制散点图求回归系数和常数项求回归系数和常数项列出回归方程,并进行假设检验列出回归方程,并进行假设检验回归方程的解释回归方程的解释 例例7-1l欲了解急性脑血管病患者血清IL-6与脑脊液IL-6含量之间的关系,某医师随机抽取了该院确诊的10例蛛网膜下腔出血患者,测量24小时内血清IL-6和脑脊液IL-6(pg/ml),问蛛网膜下腔出血患者脑脊液IL-6含量是否随血清IL-6含量的变化而变化? 表表7-1 蛛网膜下腔出血患者血清和脑脊液蛛网膜下腔出血患者血清和脑脊液IL-6(pg-ml)检测结果检测结果患者号12345678910血清22.451.658.125.165.979.775.332.496.485.7脑脊液134.0167.0132.380.2100.0139.1187.297.2192.3199.4 (一)散点图(一)散点图 (二)(二) 建立直线回归方程建立直线回归方程l解 例7-1可知:l由系数求解公式得: l故所求回归方程为:l回归系数b=72.96表示血清IL-6含量每增加一个单位,将会使脑脊液IL-6含量增加72.96ng lβ表示回归线性模型中的总体回归系数表示回归线性模型中的总体回归系数l参数参数β的意义:若自变量的意义:若自变量X增加增加1个单位,反应变量个单位,反应变量Y的的平均值便增加平均值便增加β个单位。

      个单位 β=0,说明,说明Y与与X之间并不存性关系;之间并不存性关系; β≠0,说明,说明Y与与X之间存性关系之间存性关系l理由:从理由:从β=0的总体抽得样本,计算出的回归系数的总体抽得样本,计算出的回归系数b很很可能不为零可能不为零总体回归系数的统计推断总体回归系数的统计推断 t检验检验式式7-7式式7-8式式7-6 三、直线回归分析的统计推断Ø目的:检验求得的回归方程在总体中是否目的:检验求得的回归方程在总体中是否成立;成立;Ø方法:单因素方差分析方法:单因素方差分析 x xy yy y{ {} }} } SS总 = SS回归 + SS残差总平方和总平方和总平方和总平方和( (SSSS总总总总) ){回归平方和回归平方和回归平方和回归平方和( (SSSS回归回归回归回归) )残差平方和残差平方和残差平方和残差平方和( (SSSS残差残差残差残差) ){{ 变异的分解:变异的分解:变异的种类变异的种类 产生原因产生原因解释解释SS总总::Y的离均差平方和的离均差平方和 没有利用没有利用X的信息时,的信息时,Y 观察值的变异观察值的变异 反映因变量反映因变量Y的总变异的总变异SS回归回归:: (回归平方和)(回归平方和) 当自变量当自变量X引入引入 模模型后所引起的变异型后所引起的变异反映在反映在Y的总变异中,的总变异中,可用可用Y与与X的线性关系解释的那部的线性关系解释的那部分变异分变异。

      SS回归回归越大,说明回越大,说明回归效果越好归效果越好SS残差残差:: (残差平方和)(残差平方和) 总变异中无法用总变异中无法用X和和Y的回归关系解释的那的回归关系解释的那部分变异部分变异反应自变量反应自变量X以外因素对以外因素对Y的的变异的影响变异的影响表示考虑回归表示考虑回归之后,之后,Y的随机误差的随机误差 回归方程假设检验的步骤回归方程假设检验的步骤l(1) 建立假设H0:β=0(方程无统计学意义)l(2)计算lxx、lxy、lyy,再计算SS回归、SS残差的值:l(3)计算检验统计量的F值: l(4) 对给定检验水准α,查F分布表(附表4),得临界值Fα(1,n-2);l(5)统计判断:F>Fα时,则P<α,拒绝H0 ; Fα,不拒绝H0 例例7-1 l对例7-1中数据,试检验Y对x的线性回归方程的统计学意义α=0.05)l查F分布表,得临界值F0.05(1,8)=5.32,因F>Fα , 则P<0.05,拒绝H0,认为方程有统计学意义 方差分析表方差分析表 决定系数决定系数l描述回归拟合效果l取值0~1之间,取值说明在Y的总变异中回归关系能解释的比例。

      l本例:说明说明SAH患者脑脊液患者脑脊液IL-6含量含量52.31%的变异的变异与血清与血清IL-6有关 四、线性回归分析的前提条件四、线性回归分析的前提条件l回归模型的基本假设1.线性(linear)2.独立(independent)3.正态 (normal)4.等方差(equal variance) ü线性(线性(linear)指反应变量Y的总体平均值与自变量X呈线性关系ü独立(独立(independent)指任意两个观察值互相独立ü正态正态 (normal)指X取某值时,对应的应变量Y服从正态分布ü等方差(等方差(equal variance)是指在自变量X取值范围内,不论X取什么值,Y都具有相同的方差 直线回归方程的应用直线回归方程的应用l(一)定量描述两变量之间的依存关系一)定量描述两变量之间的依存关系l(二)利用回归方程进行预测二)利用回归方程进行预测l(三)利用回归方程进行统计控制三)利用回归方程进行统计控制 五、回归分析的注意事项l1.回归分析中,自变量可以是随机变量或确定性的量,但因变量必须是随机变量且应服从正态分布l2.回归方程的适用范围是有限的使用回归方程计算估计值时,一般不可把估计的范围扩大到建立方程时自变量的取值范围之外。

      六、相关与回归的区别与联系l1.相关与回归的区别相关与回归的区别相关系数的计算只适用于两个变量都服从正态分布的资料,表示两个变量之间的关系是双向的;而回归分析中,因变量是随机变量,自变量可以是随机变量也可以是给定的量回归反映两个变量之间的单向关系 2.相关与回归的联系l((1)方向一致:对一组数据若能同时计算相关系数)方向一致:对一组数据若能同时计算相关系数和回归系数和回归系数,它们的符号一致它们的符号一致l((2)假设检验等价:对同一样本,相关系数和回归)假设检验等价:对同一样本,相关系数和回归系数的假设检验得到的值相等,即系数的假设检验得到的值相等,即 l((3))r2恰好是回归平方和在总离差平方和中所占比重恰好是回归平方和在总离差平方和中所占比重相关系数相关系数r的绝对值越大,回归效果越好,即相关和回的绝对值越大,回归效果越好,即相关和回归可以互相解释归可以互相解释 p 变量间的依存关系(1)函数关系:变量保持着严格的依存关系,呈现出一一对应的特征2)相关关系:变量保持着不确定的依存关系,即“若即若离”也p 相关分析:借助于相关系数衡量变量间关系的紧密程度。

      p 回归分析:用函数表达式来表达各变量之间的相互关系函数关系、回归分析与相关分析的区别函数关系、回归分析与相关分析的区别 。

      点击阅读更多内容
      相关文档
      【全国硕士研究生入学统一考试政治】2020年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2015年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2010年考研政治真题.docx 【全国硕士研究生入学统一考试政治】1996年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2001年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2016年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2000年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】1997年政治考研真题(理科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2007年考研政治真题.doc 【全国硕士研究生入学统一考试政治】1997年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2004年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2003年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2019年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2009年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2001年政治考研真题(文科)及参考答案.doc 【全国硕士研究生入学统一考试政治】2021年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2014年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2018年考研政治真题.docx 【全国硕士研究生入学统一考试政治】2008年考研政治真题.doc 【全国硕士研究生入学统一考试政治】2011年考研政治真题.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.