
16临床流行病学数据的分析与结果解释.ppt
68页第16讲临床流行病学数据的分析与结果解释,2,背景资料,本案例分析的数据来自一个虚拟的前瞻性研究研究的问题是:吸烟是否可以引起高血压?研究共包括1967人其中男性941人,女性1026人;年龄范围为15~90岁,平均年龄44.3岁,标准差为15.6岁,<33岁、33~43岁、44~54岁、55岁以上(55+)年龄组的人数分别为:487、494、468、518人;吸烟者559人,非吸烟者1408人;高血压患者452人,非患者1515人数据分析软件:SPSS 16.0分析的主要目的是:考察吸烟与高血压的关系性别和年龄是可能的混杂因子,年龄还可能是效应修饰因子分析的重点在于展示如何利用Logistic回归分析,估计效应大小、控制混杂、分析剂量反应关系、(通过异质性检验)识别交互作用3,SPSS16.0原始数据表,4,SPSS16.0数据表的Variable View窗口,点击SPSS数据表左下角的“Variable View”,即可查看变量的属性并对其进行编辑:,Name为变量名;Type为变量的表达方式,Numeric意思是用数字表达;Values是变量值的含义,如在“性别”变量中,“0”表示“女”,“1”表示“男”;Measure是变量类型,其中:Nominal为分类变量;Scale为连续变量;Ordinal为等级变量(分级变量或有序分类变量),包括二分变量(如“血压”);其余属性对本分析无实质性的影响,在此不做赘述。
5,变量的赋值及含义,性别: 分类变量,0 =“女”,1 =“男”年龄: 连续变量,以岁为单位年龄组: 等级变量(除非在分析时特别注明要设置成其他类型的变量,如“categorical covariates”,即多分类变量),1=“<33”, 2=“33-43”,3=“44-54”,4=“55+” 吸烟: 分类变量,0=“非吸烟者”,1=“吸烟者”血压: 分类变量,0=“血压正常人”,1=“高血压患者”,,6,分析的问题(1~6),估计粗比值比:用2X2四格表描述吸烟与高血压的关系,并估计其粗比值比(odds ratio,OR)及其95%置信区间(95%CI)一致性检验:按年龄组分层,分别计算不同年龄组的吸烟与高血压的OR值,作M-H一致性检验?根据一致性检验结果判断,不同年龄组间吸烟与高血压的关系是否存在异质性?用一个总的OR值来表示吸烟与高血压的关系的强弱是否合理?估计无年龄混杂的比值比:估计无年龄混杂的M-H总OR值及其95%CI,然后判断吸烟与高血压的粗OR值是否存在年龄因素导致的混杂?为什么?用Logistic回归回答问题1用Logistic回归回答问题2用Logistic回归回答问题3。
7,分析的问题(7-11),用Logistic回归进行更敏感的异质性检验,即检验随着年龄的增加,吸烟与高血压的OR是否存在下降的趋势?与问题2和5的结果是否相似?为什么? 应如何处理相应的结果?检验剂量反应关系,分析年龄与高血压的剂量反应关系,即检验高血压的发病危险是否随年龄的变化而变化用Logistic回归分析回答问题8用Logistic回归分析比较性别与年龄对吸烟与高血压的OR的混杂作用的大小用Logistic回归估计调整了性别与年龄后吸烟与高血压关系的OR值?结果是否提示吸烟为为高血压的独立危险因素?为什么?,,8,另外,SPSS的选项将以蓝色底色或红圈或红框标注,选择按照从上到下、从左到右的顺序进行,必要时加上文字注释;有关的结果将以淡蓝底色标注,并加上文字注释问题的分析步骤,,,,,,以下将每个问题逐一分析和讨论,每个问题的内容分为三个部分1)问题的分析重点及其细节陈述(深蓝色 幻灯片)2)该问题分析的SPSS选项及注释(纯白色 幻灯片)3)该问题分析的主要结果和解释(淡蓝色 幻灯片),,9,,问题1及其分析和解释,估计粗比值比 用2X2四格表描述吸烟与高血压的关系,并估计其粗比值比(Odds Ratio,OR)及其95%置信区间(95% Confidence Interval,CI)。
10,,问题1的SPSS选项(一),依次选择AnalyzeDescriptive Crosstabs以制作四格表、进行组间率差别的显著性检验和估计主效应及其可信区间,,11,,确定暴露和结局变量:在左图Rows(行)内添加因变量“血压”,在Columns(列)内添加自变量“吸烟”;右图的选择用于输出组间比较的卡方检验和危险度估计的结果问题1的SPSS选项(二),12,,问题1的主要结果,3. 粗效应值的多种显著性检验,包括精确检验如,Pearson Chi-square检验的P值为0.589,精确双侧检验的P值为0.5932. 粗效应值的估计 吸烟对高血压危险的粗效应值(OR)为1.066,95%CI:0.846~1.3431. 吸烟和高血压的四格表数据 高血压组452人中有133人吸烟,正常组1515人中有426人吸烟13,,问题2及其分析和解释,一致性检验 按年龄组分层,分别计算不同年龄组吸烟与高血压的OR值,并进行M-H一致性检验?根据一致性检验的结果判断:1)不同年龄组间吸烟与高血压关系的OR值是否存在异质性?2)用一个总的OR值来表示吸烟与高血压关系的强弱是否合理?,14,,问题2的SPSS选项,,,左图:确定暴露、结局和效应修饰因子:在问题1选项的基础上,左边添加年龄组为分组的变量,即效应修饰变量;右图:选择用于输出一致性检验等结果。
15,,问题2的主要结果(一),不同年龄组中高血压患者及吸烟者的分布,16,,问题2的主要结果(二),估计不同年龄组吸烟和高血压关系的OR值:<33岁、33~43岁、44~54岁、55+年龄组吸烟和高血压关系的OR值及其95%CI分别为:2.576(1.024~6.480)1.079(0.599~1.945)0.915(0.598~1.400)0.756(0.516~1.108),,17,,问题2的主要结果(三),一致性检验(或曰“异质性检验”)结果:以Breslow-Day检验为例,卡方值=6.448,自由度=3,P=0.092结果解释:不同年龄组的OR不存在统计学显著意义的异质性(P>0.05),说明不同年龄组的真实OR值是一样的,组间OR值的差别是由抽样误差引起的,可以用一个总的OR代表 不同年龄组的OR18,,问题3及其分析和解释,估计无年龄混杂的比值比 估计无年龄混杂的M-H总OR值及其95%CI,然后判断吸烟与高血压关系的粗OR值是否存在因年龄导致的混杂?为什么?,19,,问题3的SPSS选项,,在问题2的SPSS输出结果中可找到M-H法合并的总OR值,对应的菜单选项如图中红圈所示。
20,,问题3的主要结果,用M-H法估计的合并OR值为0.927,该合并的OR是各年龄组OR值的加权平均数,是无年龄混杂的净OR值从问题1中已知粗OR值为1.066,二者有区别,说明年龄在粗比值比估计上引起了混杂21,,问题4及其分析和解释,用Logistic回归分析回答问题1:估计粗比值比 问题1:用2X2四格表描述吸烟与高血压的关系,并估计其比值比(Odds Ratio,OR)及其95%置信区间(95%CI)22,,问题4的SPSS选项(一),依次选择AnalyzeRegressionBinary Logistic以进行吸烟和高血关系的Logistic回归分析:估计主效应及其可信区间,,23,,问题4的SPSS选项(二),,左图:输入因变量和自变量Dependent(因变量):血压Covariates(协变量/自变量):吸烟,右图:要求给出95%CI,24,,问题4的主要结果,在Logistic回归分析的结果中,吸烟项的回归系数(B)(即LnOR) =0.064,Wald卡方检验值=0.292,P值=0.589吸烟项系数的反自然对数Exp(B)(即OR)=1.066,95%CI的下限和上限分别为0.846和1.343。
与问题1的结果完全一致25,,问题5及其分析和解释,用Logistic回归分析回答问题2:一致性检验 问题2:按年龄组分层,分别计算不同年龄组的吸烟与高血压的OR值,作M-H一致性检验根据一致性检验结果判断,不同年龄组间吸烟与高血压的关系是否存在异质性?用一个总的OR值来表示吸烟与高血压的关系的强弱是否合理?,26,,问题5的SPSS选项(一),27,,问题5的SPSS选项(二),前页和本页选项的用途是在下面分析过程中以年龄组分层分别进行Logistic回归分析,28,,问题5的SPSS选项(三),同上,这些选项的用途是进行血压和吸烟的Logistic回归,并在结果中显示效应估计及可信区间,29,,问题5的主要结果(一),,,,,不同年龄组吸烟与高血压的OR值及其95%CI如上图中蓝色方框所示与问题2的结果完全一致30,,问题5的SPSS选项(四),此选项意在取消按照年龄组的分层分析,将所有年龄组放入一个Logistic回归方程进行分析31,,左上图:在Logistic回归中纳入3个协变量:吸烟、年龄组、吸烟*年龄组(即它们的乘积项)吸烟*年龄组乘积形成的新变量又叫年龄和性别交互作用项,以检查二者间统计学交互作用(即异质性)。
右下图:在“Categorical”变量中加入年龄组,以将分级变量的年龄组转换成为Categorical Covariates(多分类变量),问题5的SPSS选项(五),,,32,,问题5的主要结果(二),结果:对吸烟与年龄组的乘积项的显著性检验:Wald卡方值=6.067,自由度=3,P=0.108解释:不同年龄组吸烟与高血压的OR不存在统计学显著意义的异质性,说明可以用一个总的OR值来表示吸烟与高血压的关系与问题2的一致性检验结果基本一致两种方法在异质性P值上差别是由于检验方法的不同的结果33,,问题6及其分析和解释,用Logistic回归分析回答问题3:估计无年龄混杂的比值比 问题3:估计无年龄混杂的M-H总OR值及其95%CI,然后判断吸烟与高血压的粗OR值是否存在年龄因素导致的混杂?为什么?,34,,问题6的SPSS选项,在Logistic回归中纳入两个协变量:吸烟、年龄组,并用Categorical 菜单将年龄组定义为多分类变量35,,控制了年龄组混杂作用的影响后,吸烟与高血压关系的OR值为0.926,95%CI:0.721~1.189从问题1中可知,粗OR值为1.066,二者有区别,说明年龄在粗比值比估计上有混杂。
与问题3的结果基本一致问题6的主要结果,,36,,问题7及其分析和解释,用Logistic回归进行更敏感的异质性检验 即检验随着年龄的增加,吸烟与高血压的OR值是否存在下降的趋势?与问题2和5的结果是否相似?为什么? 应如何处理相应的结果?,37,,问题7的背景介绍,由问题2的Crosstabs及问题5的Logistic回归分析的结果可知:<33岁、33-43岁、44-54岁、55+年龄组吸烟和高血压关系的OR值分别为:2.576、1.079、0.915、0.756,随年龄增加呈明显下降趋势这时,应使用趋势性检验来检查吸烟与血压OR值与年龄的趋势关系(即一种特殊的异质性),以提高异质性检验的灵敏度不同于问题5使用的常规异质性检验(年龄组用作分类变量),在趋势检验里,年龄必须是连续或等级变量,可用三种方式表达:连续变量、等级变量、“分级连续变量”连续变量就是使用每一个人的原始实际年龄;等级变量就是用1、2、3、4分别表达四个年龄组的年龄及其差别的大小;“分级连续变量”为非正式的专用名词,在此指用每组的平均年龄替代该组每一个人的年龄(四个组的平均年龄取值分别为25.1、37.7、48.8和64.8岁),其产生过程见后。
