电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本
换一换
首页 金锄头文库 > 资源分类 > PPT文档下载
分享到微信 分享到微博 分享到QQ空间

第十章__双变量回归与相关两变量之间关系

  • 资源ID:44956749       资源大小:3.13MB        全文页数:100页
  • 资源格式: PPT        下载积分:10金贝
快捷下载 游客一键下载
账号登录下载
微信登录下载
三方登录下载: 微信开放平台登录   支付宝登录   QQ登录  
二维码
微信扫一扫登录
下载资源需要10金贝
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

 
账号:
密码:
验证码:   换一换
  忘记密码?
    
1、金锄头文库是“C2C”交易模式,即卖家上传的文档直接由买家下载,本站只是中间服务平台,本站所有文档下载所得的收益全部归上传人(卖家)所有,作为网络服务商,若您的权利被侵害请及时联系右侧客服;
2、如你看到网页展示的文档有jinchutou.com水印,是因预览和防盗链等技术需要对部份页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有jinchutou.com水印标识,下载后原文更清晰;
3、所有的PPT和DOC文档都被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;下载前须认真查看,确认无误后再购买;
4、文档大部份都是可以预览的,金锄头文库作为内容存储提供商,无法对各卖家所售文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;
5、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据;
6、如果您还有什么不清楚的或需要我们协助,可以点击右侧栏的客服。
下载须知 | 常见问题汇总

第十章__双变量回归与相关两变量之间关系

1第十章两变量之间关系的分析回归与相关Linear Regression and CorrelationLinear Regression and Correlation2问题引出对两个变量之间关系的研究,例如糖尿病病人的血糖与胰岛素水平的关系如何?分析资料涉及每个病 人的两个变量值(血糖、胰岛素水平),称为双变量 资料(Bivariate data),记作:(X1,Y1), (X2,Y2), , (Xn,Yn)分析目的:研究X和Y之间的数量关系分析方法:简单线性回归和简单线性相关。3第一节简单线性回归Simple Linear regression 4十九世纪英国人类学家 F.Galton(1822-1891)在由父亲身高与儿子身高的关系的观察分析中,提出了著名的“相关”(correlation)与“回归”(regression)理论。历史背景:5最初,Galton是将子代身高趋向于种族稳定的自然现象称之向均数“回归”。目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。6一、线性回归的概念 目的:如果以某个变量X作为自变量,研究另一个变量Y (应变量)对自变量X的数量依存关系,就是线性回归。特点:线性回归关系是统计关系,不同于一般数学上的X 和Y的函数关系。7例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。8表9-1 8名正常儿童的年龄 (岁)与尿肌酐含量 (mmol/24h) 102910在定量描述儿童年龄与其尿肌酐含量数量上的依存关系时,将年龄称为自变量(independent variable),用 X 表示;尿肌酐含量称为应变量(dependent variable),用 Y 表示。11由图9-1可见,尿肌酐含量 Y 随年龄 X 增加而增大且呈直线趋势,但并非8个散点恰好都在一条直线上,这与两变量间严格的直线函数关系不同,称为直线 回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。双变量直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。12直线回归方程的一般表达式为 为各X处Y的总体均数的估计。131a 为回归直线在 Y 轴上的截距。Øa > 0,表示直线与纵轴的交点在原点的上方;Øa 0XY14Øb>0,直线从左下方走向 右上方,Y 随 X 增大而 增大;Ø b0b<0b=0151021617二、直线回归方程的求法 Ø残差(residual)或剩余值, 即实测值Y与假定回归线上 的估计值 的纵向距离 。Ø求解a、b实际上就是“合理地 ”找到一条能最好地代表数据点分布趋势的直线。最小二乘法(least sum of squares)原则:即保证各实 测点至直线的纵向距离的 平方和最小。(X,Y)181920例9-1 某地方病研究所调查了8名正常儿童的尿肌酐含量(mmol/24h)如表9-1。估计尿肌酐含量(Y)对其年龄(X)的回归方程。21表9-1 8名正常儿童的年龄 (岁)与尿肌酐含量 (mmol/24h) 22解题步骤232425此直线必然通过点( , )且与纵坐标轴相交于截距 a 。如果散点图没有过坐标系原点,可在自变量实测范围内远端取易于读数的 X 值代入回归方程得到一个点的坐标,连接此点与点( , )也可绘出回归直线。 1022627三、直线回归中的统计推断28(一)回归方程的假设检验 建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,研究者还须回答它所来自的总体的直线回归关系是否确实存在,即是否对总体有 ?1022930311方差分析 10232(X,Y)33数理统计可证明:34上式用符号表示为 式中 3536上述三个平方和,各有其相应的自由度 ,并有如下的关系: 37如果两变量间总体回归关系确实存在,回归的贡献就要大于随机误差,大到何种程度时可以认为具有统计学意义,可计算统计量 F。38式中:392. t 检验40例9-2 检验例9-1数据得到的直线回归方程是否成立? 41(1)方差分析42表9-2 方差分析表 列出方差分析表如表9-2。43(2)t 检验44注意:45(二)总体回归系数 的可信区间利用上述对回归系数的t检验,可以得到的1双侧可信区间为46例9-3 根据例9-1中所得b=0.1392,估计其总体回归系数的双侧95%可信区间。47(0.1392-2.447×0.0304,0.1392+2.447×0.0304)=(0.0648,0.2136)48(三)利用回归方程进行估计和预测 49(9-15) (9-14) 反映其抽样误差大小的标准误为50(9-16) (9-17) 51两条实曲线总体均数的可信区间;两条虚曲线个体Y值的预测区间,范围更宽。二者都是中间窄,两头宽;都在X= 处最窄。52例9-4 用例9-1所得直线回归方程,计算当X0=12时, 的95%可信区间和相应个体值的95%预测区间。53计算步骤例9-1、例9-2已计算出 54线性回归小结56决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,计算公 式为:(9-23) 取值在0到1之间且无单位,其数值大 小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的百分比。 57线性回归的应用条件四、SPSS软件实现l线性(Linear)过程:用于一元或多元线性回归 分析,包括自变量的筛选。lSPSS操作与界面说明:P344 1) 图形(Graphs) 散点图(Scatterplot) 简单 散点图(Simple) 2)分析(Analyze) 回归(Regression) 线性 (Linear)实例及SPSS过程l例10.1:某医生共测定了21名肝癌患者血清中胆固醇(mmol/L)和三酰甘油的含量,数据集为例10-01.sav。问肝癌患者血清中胆固醇与三酰甘油是否具有线性回归关系?实例及SPSS过程界面说明界面说明界面说明界面说明界面说明界面说明界面说明界面说明SPSS分析结果l拟合过程中变量进入/退出模型的情况记录SPSS分析结果l所拟合模型的情况简表SPSS分析结果l回归模型检验的方差分析结果l结论:F=5.856,P=0.026<0.05,提示所建立的线性 回归模型有统计学意义。SPSS分析结果l回归模型系数估计及t检验结果l结论:t=2.42,P=0.026<0.05,提示血清胆固 醇与甘油三酯具有线性回归关系,可建立两者 的回归方程 。74第二节简单线性相关 Simple Linear correlation75线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图9-6散点图直观的说明。目的:研究两个变量X,Y数量上的依存(或相关)关系。特点:统计关系一、线性相关的概念76二、相关系数的意义与计算1. 意义:相关系数(correlation coefficient)又 称Pearson积差相关系数,用来说明具有直线关系的 两变量间相关的密切程度与相关方向。相关系数没有单位,其值为-1 r 1。r值为正 表示正相关,r值为负表示负相关,r的绝对值等 于1为完全相关,r=0为零相关。 10277782. 计算:样本相关系数的计算公 式为(9-18) 79由例9-1算得,按公式(9-18) 例9-5 对例9-1数据(见表9-1),计算8名 儿童的尿肌酐含量与其年龄的相关系数。80三、相关系数的统计推断(一)相关系数的假设检验(9-19)81例9-6 对例9-5所得 r 值,检验尿肌酐含量与年龄是否有直线相关关系?82检验步骤本例n=8,r=0.8818,按公式(9-19)83(二)总体相关系数的可信区间 10284具体步骤如下85例9-7 对例9-5所得r值,估计总体相关系数的95%可信区间。 再按公式(9-22)将z作反变换,得到年龄与尿肌酐含 量的总体相关系数95%可信区间为(0.4678,0.9971)。 86四、线性回归与相关应用的注意事项871根据分析目的选择变量及统计方法Ø 直线相关用于说明两变量之间直线关系的方向和密切程度,X与Y没有主次之分;Ø 直线回归则进一步地用于定量刻画应变量Y对自变量X在数值上的依存关系,其中应变量的定夺主要依专业要求而定,可以考虑把易于精确测量的变量作为X,另一个随机变量作Y,例如用身高估计体表面积。Ø 两个变量的选择一定要结合专业背景,不能把毫无关联的两种现象勉强作回归或相关分析。88892进行相关、回归分析前应绘制散点图第一步(1) 散点图可考察两变量是否有直线趋势; (2) 可发现离群点(outlier)。散点图对离群点的识别与处理需要从专业知识和现有数据两方面来考虑,结果可能是现有回归模型的假设错误需要改变模型形式,也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差,或者通过重复测定确定是抽样误差造成的偶然结果,才可以谨慎地剔除或采用其它估计方法。903资料的要求 直线相关分析要求 X与Y 服从双变量正态分布;直线回归要求至少对于每个 X 相应的 Y 要服从正态分布,X可以是服从正态分布的随机变量,也可以是能精确测量和严格控制的非随机变量;* 对于双变量正态分布资料,根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X ,一般情况下两个回归方程不相同)。91Ø 反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数或相关系数的绝对值,而不是假设检验的P值。Ø P值越小只能说越有理由认为变量间的直线关系存在,而不能说关系越密切或越“显著”。另外,直线回归用于预测时,其适用范围一般不应超出样本中自变量的取值范围。4结果解释及正确应用 五、SPSS软件实现l双变量(Bivariate)过程:用于进行两个或多个 变量间的参数或非参数相关分析。lSPSS操作与界面说明:P332 1) 图形(Graphs) 散点图(Scatterplot) 简单 散点图(Simple) 2)分析(Analyze) 相关(Correlate) 双变量 (Bivariate)相关系数:pearson实例及SPSS过程l例10.2:某医生共测定了21名肝癌患者血清中胆固醇(mmol/L)和三酰甘油的含量,数据集为例10-01.sav。问肝癌患者血清中胆固醇与三酰甘油是否具有线性相关关系?实例及SPSS过程Spearman秩相关系数 属于非参数统计方法Kendall等级相关系数l用于反映分类变量相关性的指标,适用于两个 变量均为有序分类的情况。l指标说明:P336l属于非参数统计方法SPSS分析结果SPSS分析结果l结论:血清中胆固醇和甘油三酯的线性相关系 数r=0.485, P=0.026<0.05,提示两变量间具 有线性相关关系。99思考与练习:医学统计学贺佳主编: P179四、计算分析题:第1题100

注意事项

本文(第十章__双变量回归与相关两变量之间关系)为本站会员(小**)主动上传,金锄头文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即阅读金锄头文库的“版权提示”【网址:https://www.jinchutou.com/h-59.html】,按提示上传提交保证函及证明材料,经审查核实后我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.