
卫生统计学课件:第12章 简单回归分析.ppt
65页简单回归分析简单回归分析 第十二章第十二章引言引言:n身高与体重存在相关身高与体重存在相关n可否通过身高预测体重的平均水平?可否通过身高预测体重的平均水平?n新生儿的体重与体表面积存在相关新生儿的体重与体表面积存在相关n可否通过体重预测体表面积?可否通过体重预测体表面积?n线性回归(线性回归(linear regression),又称简单回归),又称简单回归((simple regression),),n非线性回归(非线性回归(nonlinear regression)) 第一节第一节 线性回归线性回归1、线性回归的概念及其统计描述线性回归的概念及其统计描述 在上一章中,对在上一章中,对14名名40~60岁的健康妇女的体岁的健康妇女的体重(重(X)与基础代谢()与基础代谢(Y)数据计算了相关系数)数据计算了相关系数 ,定量地描述了变量,定量地描述了变量X与与Y间的线性关联性现在间的线性关联性现在试用回归分析的方法,从预测的角度来描述基础代试用回归分析的方法,从预测的角度来描述基础代谢(谢(Y)如何依存体重()如何依存体重(X)的变化而变化的规律)的变化而变化的规律性。
性 引例:引例:线性回归模型(线性回归模型(linear regression model):): :截距(:截距(intercept)) β:斜率(:斜率(slope),又称回归系数(),又称回归系数(regression coefficient)) 样本线性回归方程样本线性回归方程(regression equation) ::图图12-1 14例中老年健康妇女的基础代谢与体重的回归直线例中老年健康妇女的基础代谢与体重的回归直线 II型回归型回归I型回归型回归 图图12-2 IgG浓度与沉淀环直径数据的散点图浓度与沉淀环直径数据的散点图 二、线性回归模型的适用条件二、线性回归模型的适用条件(1) 线性线性(Linear)(2) 独立性独立性(Independent)(3) 正态性正态性(Normal distribution) (4) 方差齐性方差齐性(Equal variance) LINE图图12-3 线性回归模型的适用条件示意图线性回归模型的适用条件示意图三、回归参数的估计三、回归参数的估计(一一) 回归参数估计的最小二乘原则回归参数估计的最小二乘原则 图图12-4 基础代谢与体重的回归直线的最小二乘原则的直观表达基础代谢与体重的回归直线的最小二乘原则的直观表达由于考虑到所有点的由于考虑到所有点的( )有正有负,通常变成考察所有点有正有负,通常变成考察所有点的的( )平方和最小,这就是平方和最小,这就是最小二乘原则(最小二乘原则(least squares method)。
( (二二) ) 回归参数的估计方法回归参数的估计方法 例例12-1 计算例11-1的基础代谢(Y)关于体重(X)的线性回归方程 为了直观分析或实际需要,可按求出的回归方程作回归直线图在X的实测全距范围内,任取相距较远且易读数的两个X值,代入方程得到两个 值,以直线连接两点即得回归直线本例可取X1=37.1,得 ;取X2=67.3,得 连接点即得本资料的回归直线注意:注意:回归直线的适用范围一般以自变量的取值回归直线的适用范围一般以自变量的取值范围为限,若无充分理由证明超过自变量的取值范围为限,若无充分理由证明超过自变量的取值范围还是直线,应该避免外延(即范围还是直线,应该避免外延(即不要超过不要超过自变自变量取值范围计算量取值范围计算 值)四、总体回归系数四、总体回归系数β的统计推断的统计推断 H0: β= 0 即基础代谢与体重之间无线性回归关系H1: β≠0 即基础代谢与体重之间有线性回归关系α= 0.05 ( (一一) ) 方差分析方差分析图图12-5 回归前后因变量回归前后因变量Y残差的示意图残差的示意图H0:β= 0,,H1:β≠0例例12-212-2 试对例11-1资料的样本回归方程作假设检验(用方差分析) H0: β= 0 即基础代谢与体重之间无线性回归关系H1: β≠0 即基础代谢与体重之间有线性回归关系 α= 0.05 已知ν1=ν回= 1,ν2=ν残= n-2=12,查F界值表(附表3.1)得 =4.75,今求得F = 158.361>4.75,则P<0.05,按α=0.05水准拒绝H0,差异有统计学意义。
可认为体重与基础代谢之间有线性回归关系(二二) t 检验检验例例12-312-3 试对例11-1资料的样本回归方程作假设检验(用t 检验) 注意:注意:对同一资料作总体回归系数对同一资料作总体回归系数ββ是否为是否为零的假设检验,方差分析和零的假设检验,方差分析和t t检验是等价的,检验是等价的,并且有并且有 的关系 上一章对总体相关系数 的假设检验计算出的 等于这里的 ,这并不是巧合当 Y与X两者都是随机变量时,我们既可以计算Y与X的相关系数,又可以做Y关于X的回归(II型回归); 对同一资料作总体相关系数 的假设检验和作总体回归系数β的假设检验分别得到 和 ,可以证明,二者相等二者相等( (三三) ) 总体回归系数总体回归系数ββ的置信区间的置信区间( (四四) ) 决定系数决定系数取值在0到1之间,且无单位它反映了回归贡献的相对程度,即在因变量Y的总变异中回归关系所能解释的比例 2024/8/25公共卫生学院 医学统计与流行病学系35 在实际应用中,通过用决定系数来反映回归的实际效果。
如例12-1, =0.930,说明40~60岁健康妇女的体重信息大约可以解释自身基础代谢信息量的93%,还有剩余的7%的信息则通过体重以外的其它因素来解释说明用体重来预测基础代谢量的实际效果较佳 第二节第二节 线性回归的应用线性回归的应用n统计预测;n统计控制 统计预测:统计预测: n均数的置信区间均数的置信区间: 当X为某定值和在给定置信度的情况下,欲知Y的总体均数的分布如何?我们可以估计总体中当X为某定值 时,Y的总体均数 的 置信区间 的(1- )置信区间为 (12-15) (12-16) 49.9991 当X1=50.7时,Y 的总体均数的95%置信区间为 4220.7842.179×49.9991=(4111.84,4329.73) 统计预测(续):n个体的容许区间:个体的容许区间: 预测是回归分析的重要应用之一,医学上常用在给定X值(预报因子)时,计算个体Y值的容许区间所谓个体Y值的容许区间是指总体中X为某定值时,个体Y值的波动范围 (12-17) (12-18) 仍然以第一观测点数据(X1=50.7)为例,利用上例计算结果,该点预测Y值的标准差为 172.5346 代入(12-18)式,得第一数据点Y值的95%的预测区间为:4220.7842.179×172.5346=(3844.83,4596.737)图图12-6 基础代谢依体重的回归直线的基础代谢依体重的回归直线的95%置信带与置信带与Y个体值的个体值的95%预测带预测带统计控制统计控制n例例12-6 在硝酸钠的溶解试验中,测得在不同温度( )X下,溶解于100份水中的硝酸钠份数Y的数据见表12-3。
若要求溶解于100份水中的硝酸钠份数在80份以上,温度应如何控制?设置信度为95% 由原始数据计算可知 , , , , =0.05, ,查t界值表得单侧 本例要求溶解于100份水中的硝酸钠份数Y在80份以上,对应于个体Y值的95%预测区间单侧下限值: 当 时,通过上式解得Xp=16.56(℃ ),即把温度控制在16.56℃以上,就有95%的可能使溶解于100份水中的硝酸钠份数在80份以上第三节第三节 残差分析残差分析 残差分析残差分析(residual analysis)旨在通过残差分布深入了解实际资料是否符合回归模型假设(如正态性、等方差),尤其在识别离群点(outlier)方面,有着重要作用•标准化残差(标准化残差(standardized residual) • 残差分析常通过标准化残差图(standardized residual plot)来进行。
若以因变量取值Y为横坐标,以标准化残差为纵坐标,构成的散点图即是标准化残差图,见图12-7类似地,也可以自变量取值X为横坐标, 以标准化残差为纵坐标作标准化残差图 图图12-7 基础代谢依体重数据回归的标准化残差图基础代谢依体重数据回归的标准化残差图 当标准化残差图中散点的分布,绝大部分在2倍标准差之间,在以0参考线的上下随机且均匀地散布时,可以认为模型与数据拟合得较好一般认为在3标准差以外区域出现的点所对应的原始数据为离群点,在2标准差以外、3标准差以内区域出现的点所对应的原始数据可能为离群点 abcd不满足方差齐性不满足方差齐性非线性关系非线性关系可能漏掉了另外的自变量可能漏掉了另外的自变量图图12-8 不同类型的残差图不同类型的残差图 ef模型恰当模型恰当第四节第四节 非线性回归非线性回归图图12-9 1995年中国年中国0~22岁居民身高均数随年龄的变化情况岁居民身高均数随年龄的变化情况 在医学科研实践中,两个连续型变量间并非都呈现在医学科研实践中,两个连续型变量间并非都呈现线性关系线性关系 例如:考虑人出生后的整个生命期,身高(例如:考虑人出生后的整个生命期,身高(Y)与年)与年龄(龄(X)之间是明显的非线性关系,在生命的早期,生长)之间是明显的非线性关系,在生命的早期,生长很快,而成年期却几乎恒定(见图很快,而成年期却几乎恒定(见图12-9)。
因此,要想建立非线性关系的回归模型,需要借助因此,要想建立非线性关系的回归模型,需要借助非非线性回归线性回归(non-linear regression)或称或称曲线拟合(曲线拟合(curve fitting))来实现 本节主要讨论非线性回归分析的基本策略和介绍简单本节主要讨论非线性回归分析的基本策略和介绍简单的处理方法的处理方法一、非线性回归分析的基本策略一、非线性回归分析的基本策略 首先绘制两个变量的散点图,观察点的分布趋势,根据首先绘制两个变量的散点图,观察点的分布趋势,根据分布趋势的形状,可选择如下不同的分析过程:分布趋势的形状,可选择如下不同的分析过程: 1. 曲线直线化(曲线直线化(linearization)) 当散点分布的形状接近某些常当散点分布的形状接近某些常见的函数曲线时,我们可以尝试采取变量变换的方法,使变换见的函数曲线时,我们可以尝试采取变量变换的方法,使变换后的两个变量之间呈直线关系(通过散点图判断)求出直线后的两个变量之间呈直线关系(通过散点图判断)求出直线回归方程后,再将方程中的变量还原,便得到曲线回归方程。
回归方程后,再将方程中的变量还原,便得到曲线回归方程2. 非线性回归非线性回归 当不能通过变量变换的方法使曲线直线化或直接当不能通过变量变换的方法使曲线直线化或直接进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭进行曲线拟合时,需利用非线性最小二乘估计的原则,采用迭代计算方法获得非线性回归方程代计算方法获得非线性回归方程 幂函数幂函数Y=aX±b 对数函数对数函数Y=a±bln(X) 指数函数指数函数Y=ae±bX Logistic函数函数 二、曲线直线化二、曲线直线化 1. 绘制原始数据绘制原始数据Y与与X的散点图,观察散点分布形态类似于何的散点图,观察散点分布形态类似于何种常用函数类型;种常用函数类型;2. 按照所选定的函数进行适宜的变量变换,得到按照所选定的函数进行适宜的变量变换,得到X’与与Y’;;3. 绘制变换后数据绘制变换后数据Y’与与 X’的散点图,观察散点分布形态是否的散点图,观察散点分布形态是否呈直线趋势,从而确定曲线类型,否则重复呈直线趋势,从而确定曲线类型,否则重复1、、2步直至满步直至满足散点分布呈直线趋势;足散点分布呈直线趋势;4. 作作Y’关于关于X’的线性回归方程并进行假设检验;的线性回归方程并进行假设检验;5. 根据第根据第2步的变量变换式进行反变换,得到原始数据步的变量变换式进行反变换,得到原始数据Y与与X的曲线方程。
的曲线方程 当原始数据当原始数据X与与Y的散点分布形态较难判断的散点分布形态较难判断是直线趋势还是曲线趋势时,一般拟合多个相近是直线趋势还是曲线趋势时,一般拟合多个相近的模型,然后通过对各个模型的拟合优度(常用的模型,然后通过对各个模型的拟合优度(常用决定系数决定系数)评价挑选较为合适的模型评价挑选较为合适的模型例例12-7 某研究者测得某女童某研究者测得某女童1~9月的身高数据,如表月的身高数据,如表12-4所示试用所示试用合适的回归模型描述该月龄段女童的身高随时间变化的规律合适的回归模型描述该月龄段女童的身高随时间变化的规律 ((1)以身高为)以身高为Y,时间为,时间为X,绘制散点图,如图,绘制散点图,如图12-10所示,呈现非所示,呈现非线性趋势,形似对数函数曲线线性趋势,形似对数函数曲线 ((2)利用对数函数曲线变换式()利用对数函数曲线变换式( ),令),令X’ =ln X,计,计算算X’ 数值计算结果见表数值计算结果见表12-53)以)以Y和和X’ 绘制散点图,如图绘制散点图,如图12-11所示,二者呈直线趋势。
所示,二者呈直线趋势 图图12-10 某女童某女童1~9月的身高与时间的散点图月的身高与时间的散点图 图图12-11 身高与取对数的时间的散点图身高与取对数的时间的散点图 ((4)作)作Y 关于关于X’ 的线性回归方程,得方程的线性回归方程,得方程 方差分析结果(方差分析结果(F=632.15, P<0.001)表明回归方程)表明回归方程具有统计学意义,决定系数具有统计学意义,决定系数R2=0.989 ((5)将)将X’ =ln X代入上式,得代入上式,得Y 关于关于X 的曲线回归方程的曲线回归方程 本例只涉及对自变量本例只涉及对自变量X进行变换,然后以变换后的数进行变换,然后以变换后的数据用标准最小二乘法求解模型的参数估计据用标准最小二乘法求解模型的参数估计当涉及到对因当涉及到对因变量变量Y实施非线性变换实施非线性变换 [如如Z=ln(Y)] 时,因为最小二乘原则时,因为最小二乘原则只保证变换后的只保证变换后的Z [即即ln(Y)] 的残差平方和最小,并不能保的残差平方和最小,并不能保证原变量证原变量Y的残差平方和也最小,的残差平方和也最小,所以在此情况下,所以在此情况下,建议建议用统计软件来完成非线性拟合用统计软件来完成非线性拟合。
非线性回归非线性回归由于迭代计算量较大,需要借助电由于迭代计算量较大,需要借助电脑及相关的软件脑及相关的软件SAS和和SPSS均提供了非线性回均提供了非线性回归分析的功能,具体请参见相关的参考书归分析的功能,具体请参见相关的参考书THE ENDThanks。












