371编号《循证医学》第五章循证医学常用统计学方法
第五章 循证医学实践中常用的统计学方法,临床证据的数据资料类型,分类变量资料 数值变量资料 等级变量资料,无序分类 有序分类,二项分类 多项分类,等级变量资料,正态分布 偏态分布,集中趋势 离散趋势,单个研究证据资料的方法学质量判断,资料完整性的判断 组间基线资料的可比性 重复性检验 缺失值分析 精确度分析 样本量分析,单个研究证据资料的方法学质量判断,资料的完整性判断 纳入分析的研究对象数量以及重要的指标数前后一致 即:试验前后组例数是否一致? 丢失率1(终末例数/入组例数)100 或(丢失例数/入组例数)100 判断标准: 丢失率0 证据资料完整 丢失率20: 证据质量差 不宜使用,证据资料的质量判断,资料组间基线资料是否可比 试验组和对照组之间的重要的临床基线资料是否相对一致,即除了研究的干预措施外,其他影响研究结果的因素在两组间分配是否均衡。 判断方法:均衡性检验 结果判定:组间无显著性差异,均衡性好,试验结果可信 组间差异显著,均衡性差,需做分层分析 如有分层分析结果,试验结论可信度高 如无分层分析结果,试验结论可信度低,重复性检验 多次重复观察或测量的情况下,观测或试验结果是否一致?,证据资料的质量判断,观察结果的Kappa一致性检验: 无Kappa一致性检验结果,证据可信度低,不可靠 Kappa0.7 证据质量好,测量数据的一致性判断:差异度<5% 批内差异度(第一次测量值第二次测量值)/第一次测量值 批外差异度(第一批测量值第二批测量值)/第一批测量值,证据资料的质量判断,缺失值分析 因各种原因不能得到观测指标的具体测量值,出现数据丢失。,随机性缺失:与组别、干预措施等无关,随机产生,无规律 非随机性缺失:受实验因素的影响,导致实验组和对照组出现非对称性数据丢失。,证据资料的质量判断,对于缺失值的处理 1、分类变量资料的缺失值处理-敏感性分析 如:试验组和对照组各丢失了10例。 将试验组丢失的10例作为“无效病例”,对照组丢失的10例作为“有效病例”,重新做统计学分析。如果结论与原证据结论一致,资料可靠;结论不一致,资料不可靠。 2、数值变量资料的缺失值处理均数差值的可信区间 可信区间窄,数据精度高,资料可靠性大,结果可信 可信区间宽,数据精度差,资料可靠性小,说明有可能丢失数据或者样本量较少。,证据资料的质量判断,精确度分析 可信区间(CI)是按照预先给定的概率(1)去估计未知总体参数的可能范围。 如:95可信区间:指该区间有95的可能性包含了被估计的总体参数,有5(小概率事件)可能性不包含被估计的总体参数。 可信限:可信区间的上下界限值 抽样误差小,可信区间窄,估计的可靠性高,精确度大 抽样误差大,可信区间宽,估计的可靠性低,精确度小,证据资料的质量判断,样本量分析 样本量:能够最真实反应实际试验效果的观察对象的适宜量。 样本量大小的影响因素:预期的试验率差d;显著性水平,检验把握度1-。 如:预期治疗组有效率80%,对照组60%,d=20% =0.05,1-=0.9 则:n=110人,统计学方法的正确抉择,不同的资料类型所选用的统计学方法不同,只有正确的选择适合的统计学方法,才能得出正确的结果。 统计分析时,应首先要明确相关的条件。 如:数据资料的分布类型(正态分布、偏态分布、二项分布等);是否满足方差齐性;理论频数是否足够大等。,统计学方法的正确抉择计量资料统计描述,表53 数值变量资料常用描述指标,均数 描述一组数据的平均水平、集中位置 正态分布或近似正态分布 中位数 同均数 偏态、开口资料或分布未知 几何均数 同均数 对数正态分布、等比资料 标准差 描述一组资料的变异大小、离散程度 正态分布或近似正态分布 四分位数间距 同标准差 偏态、开口资料或分布未知 极差 同标准差 任何资料类型 变异系数 比较各组资料的变异度大小 单位不同、均数相差悬殊,指标名称 作 用 适用资料, 均数标准差 中位数四分位数间距 几何均数标准差,统计学方法的正确抉择计数资料统计描述,表54 分类变量资料常用描述指标,指标名称 作 用 适用资料,率 事件发生例数/观测总例数 分析事件发生的强度和频率 构成比 单个事件发生例数/多个事件例数总和 总事件数的各个事件所占比重 相对比 甲事件发生率(数) /乙事件发生率(数) 甲事件发生是乙事件的多少倍,不同类型资料常用指标及可信区间的计算,一、分类变量资料,1、EER、CER及可信区间 EER (Experimental Event Rate):试验组中采取干预措施后事件的发生率 如对某病采取某种防治措施后该病的发生率。 CER (Control Event Rate) :对照组中未采取或采取对照措施后事件的发生率 如对某病不采取防治措施的该病的发生率。,死亡 未死亡 例数 阿司匹林组 15 110 125 对照组 30 90 120 合计 45 200 245,表51 阿司匹林治疗心肌梗死的效果,EER=15/125=12% CER=30/120=25%,总体率()的95%可信区间:p1.96sp 即(p-1.96Sp,p+1.96Sp),阿司匹林组:Sp2.91 对 照 组:Sp3.95,分类变量资料EER、CER及可信区间,阿司匹林组心梗死亡率95的可信区间:,p1.96sp121.962.91 即(6.30,17.70),对照组心梗死亡率的95可信区间:,p1.96sp251.963.95 即(17.26,32.74),分类变量资料EER、CER及可信区间,分类变量资料RR及可信区间,2、相对危险度(RR)及可信区间,RR (Relative Risk):是暴露组(试验组)的事件发生率p1与非暴露组(对照组)的事件发生率p0的比值,用以说明前者是后者的多少倍,常用来表示暴露因素与疾病之间的联系强度及在病因学上的意义大小。,RR=p1/p0=EER/CER,表52 RR计算四格表,组别 发生数 未发生数 总例数 率 暴露组 a b n1 p1 非暴露组 c d n2 p0,RR意义:,如p1和p0是死亡率、病死率、患病率等指标时: RR1表示暴露因素(试验因素)对疾病有影响。 RR1,表示暴露因素是疾病的有害因素,且RR越大,暴露因素对疾病的不利影响越大; RR<1,表示暴露因素是疾病的有益因素,且RR越小,暴露因素对疾病的有益作用越大; RR1,表示暴露因素与疾病无关。,分类变量资料RR及可信区间,RR意义:,如p1和p0是有效率、治愈率等指标时: RR1表示暴露因素(试验因素)对疾病有影响。 RR1,表示暴露因素是疾病的有益因素,且RR越大,暴露因素对疾病的有利影响越大; RR<1,表示暴露因素是疾病的有害因素,且RR越小,暴露因素对疾病的有害作用越大; RR1,表示暴露因素与疾病无关。,分类变量资料RR及可信区间,分类变量资料RR及可信区间,RR可信区间计算,先计算RR的自然对数值ln(RR)和ln(RR)的标准误SE(lnRR) ,计算公式如下:,表52 RR计算四格表,组别 发生数 未发生数 总例数 暴露组 a b n1 非暴露组 c d n2,分类变量资料RR及可信区间,例:前述阿司匹林治疗心肌梗死的效果,试估计其RR的95可信区间。,死亡 未死亡 例数 阿司匹林组 15 110 125 对照组 30 90 120 合计 45 200 245,表51 阿司匹林治疗心肌梗死的效果,治疗组病死率p1=15/125;对照组病死率p030/120,分类变量资料OR及可信区间,3、比值比(OR)及可信区间,OR (Odds Ratio):是病例组暴露率与非暴露率比值和对照组暴露率与非暴露率比值之比。多用于回顾性研究,作为RR的估计值。,表53 OR计算四格表,组别 暴露数 未暴露数 总例数 病例组 a b n1 对照组 c d n2,分类变量资料OR及可信区间,OR可信区间计算,先计算OR的自然对数值ln(OR)和ln(OR)的标准误SE(lnOR) ,计算公式如下:,例:前述阿司匹林治疗心肌梗死的效果,试估计其OR的95可信区间。,死亡 未死亡 例数 阿司匹林组 15 110 125 对照组 30 90 120 合计 45 200 245,表51 阿司匹林治疗心肌梗死的效果,分类变量资料OR及可信区间,分类变量资料OR及可信区间,该例OR95可信区间为(0.207,0.807),该区间小于1,可认为阿司匹林治疗心肌梗死有效。,分类变量资料RRR及可信区间,4、相对危险度减少率(RRR)及可信区间,RRR (Relative Risk Reduction):反映试验组与对照组某病发生率增减的相对量的比值。,计算公式:,RRR可信区间可由1RR可信区间得到:,分类变量资料ARR及可信区间,5、ARR及可信区间 绝对危险度减少率ARR(Absolute Risk Reduction) :试验组与对照组之间率的差值,反映两组疾病发生率增减的绝对量,说明试验效应的大小。 ARR可信区间可用于推断两个率差别有无统计学意义。 ARR0,表明干预措施无试验效应 ARR0,考虑可信区间范围 可信区间不包含0,两个率差异有统计学意义 可信区间包含0,两个率差异无统计学意义,分类变量资料ARR及可信区间,计算公式: 可信区间:,(p1-p2)u*S(p1-p2),如前例阿司匹林治疗心梗效果:ARR=CER-EER=25%-12%=13%,ARR95可信区间:,(p1-p2)u*S(p1-p2),(0.250.12)1.960.049(0.03,0.23) 即(3%,23),分类变量资料NNT及可信区间,6、NNT及可信区间,NNT (the Number of patients who Need to be Treated.):对患者采取某种防治措施后,得到一例有利结果所需要的防治病例数。,计算公式:,意义:NNT值越小,该防治措施效果越好,临床意义越大。,如:一种防治措施的ARR11,则NNT1/11%9,即只需防治9个病例就可得到一例额外的有利效果。,分类变量资料NNT及可信区间,NNT可信区间计算: 可利用ARR的可信区间计算。,NNT95可信区间上限:ARR95可信区间下限的倒数值。 NNT95可信区间下限:ARR95可信区间上限的倒数值。,如前例阿司匹林治疗心梗效果: ARR95%可信区间为(3,23), 则NNT95可信区间为(1/23,1/3),即(4.3,33.3)。,7、其他指标,NNH (the Number Need to Harm .):对患者采取某种防治措施后,出现一例副作用所需要的防治病例数。,计算公式:,ARI (Absolute Risk Increase):绝对危险增加率,即试验组中某不利结果发生率与对照组中该结果发生率的差值。反映采用某干预措施后,患者不利结果增加的绝对值。,计算公式:,例:某治疗措施引起副作用发生率64,对照组为37,ARI=27%,NNH=4,即该治疗措施每治疗4个病例就会有一例发生副作用。,分类变量资料其他指标,意义:NNH值越小,说明某治疗措施引起的副作用越大。,数值变量资料可信区间,1、均数的可信区间,计算公式:,样本含量小时 样本含量大时,2、均数差的可信区间,计算公式:,假设检验方法的选择数值变量资料比较,表55 数值变量资料比较的假