
随访时间资料分析PPT课件.ppt
47页第十五章第十五章 随访时间资料的分析随访时间资料的分析 p253生存分析(survival analysis)生存分析(survival analysis)n为什么要引入生存分析方法?n什么是生存(随访)时间资料及相关的基本概念?n临床科研工作中如何收集生存分析资料?n生存分析方法有哪些?n如何估计生存率?n如何作生存曲线(kaplan-meier chart) ?n如何比较不同疗法的疗效(生存曲线log-rank检验)?n如何进行生存时间的影响因素分析?nSAS程序如何编程和结果如何解释?n一个典型的生存分析科研项目演示为什么要引入生存分析方法?n临床上有许多资料在判断治疗效果时,不能简单地比较治愈率或死亡率大小来判断疾病愈后好坏n如用甲(手术组)、乙(手术+放疗)两种疗法治疗肺癌,其生存率均为60%,能说明两疗法的疗效一致吗?什么是生存时间资料?n所以疾病预后的好坏或其它因素,不但要看结局如何,而且要看多长时间出现这种结局n慢性疾病 如恶性肿瘤、糖尿病、高血压、心血管等疾病疗效的分析,单纯的治愈率或生存率不能敏感地反映出治疗的效果n有一类资料含有结局和时间两方面的信息,它源于寿命统计,通过随访收集,特称为随访#生存时间资料(survival data)n生存时间资料的分析方法简称为生存分析第一节 生存分析中基本概念一、基本概念l生存时间(survival time):是任何两个有联系事件之间的时间间隔,常用符号t表示。
狭义的生存时间指的是患某种疾病的病人从发病到死亡所经历的时间跨度;广义的生存时间定义为从某种起始事件到终点事件所经历的时间跨度l要明确规定事件的起点、终点及时间的测量单位l失效事件(failure event):指反映治疗效果特征的事件,又称死亡事件或终点事件如肾移植病人因肾功能丧失引起的死亡、急性白血病患者的复发、癌症患者的死亡在研究中必须明确规定l起始事件(initial event):是反映生存时间起始特征的事件如确诊时间、某种疾病开始治疗时间l生存资料的类型 n完全数据:是指在整个随访研究期间能够观察到终点事件 n截尾数据(不完全数据):(censored data)指在随访过程中,由于某种原因未能观察到病人的明确结局(终点事件)或称删失、终检 l原因n 病人失访:搬迁,拒访;n 中途退出:退出研究、其它原因死亡;n 病人的生存期超过研究的终止期几种随访研究模式l研究起点相同,多见于队列研究,动物实验l观察对象逐个进入研究,即研究起始时间不同,多见于临床随访研究生存率与死亡概率 l生存函数(survival function): 叫累积生存率,简称生存率。
表示具有协变量X的观察对象其生存时间T大于t时刻的概率,常用S( t, X )=P(T>t, X)表示在实际工作中,如无截尾数据是用生存时间大于t的病人数对总病人数的比例来估计的l死亡概率:表示观察对象从开始到时间t为止的死亡概率,是一个随时间上升的函数,常用F(t)=P(T≤t)死亡概率与生存率的关系是:S(t)=1-F(t)当t =0时,死亡概率为0;当观察期为无穷大时,其死亡概率为1 l死亡密度函数(death density function) 死亡密度函数是死亡概率函数的导数,表示所有观察对象在t时刻的瞬时死亡率 l风险函数(hazard function):表示具有协变量X已生存到时间t的观察对象, 每个观察对象从生存时间t到t+Δt这一非常小的区间内死亡的极限概率,即生存时间已达到t的一群观察对象在t时刻的瞬时死亡率生存函数、死亡密度函数和风险函数的区别 二、生存分析研究的主要内容二、生存分析研究的主要内容 l描述生存过程 l比较生存过程 l影响生存时间的因素分析 三、生存分析的基本方法三、生存分析的基本方法 n非参数法:乘积限法和寿命表法 n参数法:指数分布法、Weibull分布法、对数正态回归分析法和对数logistic回归分析法 n半参数法:COX模型 生存时间资料的特点l与一般的统计资料相比,其效应变量有两个:一个是生存时间,另一个是结局l存在截尾数据l分布类型非常复杂:生存资料一般通过随访获得,因观察时间长且难以控制混杂因素,故其分布常呈偏态,影响因素较多,规律难以预测。
l因此,生存资料不宜简单地计算死亡率或治愈率,也不能简单地计算生存时间的平均数,必须将两者结合起来才能准确地反映疗效和预后的好坏程度,即必须用生存分析统计方法作统计分析临床科研工作中如何收集生存分析资料?第二节 生存率的估计l小样本资料生存率的小样本资料生存率的Kaplan-Meier估计估计l当随访的病例数较少时,不需要对病人当随访的病例数较少时,不需要对病人的随访时间进行分组,而是直接计算生的随访时间进行分组,而是直接计算生存率生存率的计算常采用乘积极限法存率生存率的计算常采用乘积极限法((product-limited method),该法),该法由由Kaplan-Meier于于1958年提出,故又年提出,故又称为称为Kaplan-Meier法它利用条件概率法它利用条件概率及概率乘法的原理来计算生存率及概率乘法的原理来计算生存率 n例15-2 在儿童急性淋巴细胞白血病(ALL)的生存研究中,有21例高危儿童ALL的临床随访资料生存时间定义为确诊日期到病人死亡日期的时间跨度,得到的生存时间(月),见表15-3第(1)栏,其中有“+”者是截尾数据,表示病人仍生存或失访试计算其生存率与标准误。
生存曲线 l以生存时间为横轴、生存率为纵轴绘制一条生存曲线,用以描述其生存过程这种生存曲线又称为K-M曲线l中位生存时间(median survival time)又称为生存时间的中位数,是生存分析中最常用的概括性统计量,表示刚好有50%的个体其存活期大于该时间 图1 甲种手术生存曲线(月)SAS程序二、大样本资料的生存分析二、大样本资料的生存分析l在样本较大时,随访病例的生存时间常可按年、月或日进行分组,得出具有若干时间段的频数表对于分组的生存数据可按寿命表(life table)法计算生存率,其基本原理是首先求出研究对象在起始事件后各个时期的生存概率,然后根据概率的乘法原理,将各时期生存概率相乘,即可得到自观察开始到各时点的生存率并对生存率或生存分布之间的差别进行假设检验 SAS程序第三节 生存曲线的比较l两组及多组生存曲线的比较一般用log-rank检验log-rank 检验是以生存时间的对数为基础推导出来的,其基本思想是实际死亡数与期望死亡数之间的比较l用log-rank检验对样本生存率进行比较时,要求两组生存曲线不能交叉,生存曲线的交叉提示有某种混杂因子存在此时应采用分层的方法或多因素的方法来校正混杂因素。
SAS程序及解释第四节第四节 Cox比例风险模型比例风险模型l医学临床随访资料具有一定的特殊性,主要表现在生存时间的分布种类繁多且难以确定,存在截尾数据,需要考虑多个协变量的影响等1972年英国统计学家Cox提出了比例风险模型(Cox’s proportional hazard regression model),简称Cox模型,解决了上述问题Cox回归是生存分析中最重要的方法之一,它主要用于肿瘤和其他慢性病的预后分析,也可以用于队列研究的病因探索一一、、Cox模型的相关概念模型的相关概念1. 模型的基本形式 n生存分析的主要目的在于研究协变量x与观察结果即生存率之间的关系,当S(t)受到协变量的影响时,传统的方法是考虑回归分析,即各协变量对S(t)的影响由于生存分析的数据中包含截尾数据,用一般的方法难以解决以上问题Cox模型不直接考察生存函数S(t)与协变量的关系,而是用风险率函数h(t,x)作为应变量,并假定 l 是具有协变量X的个体在时刻t时的风险函数,又称瞬时死亡率 l 是所有协变量为0时的基础风险率l满足等比例风险的条件(proportional hazards )l Cox模型的回归系数,是一组未知的参数,需要根据实际的数据来估计 2. 二、参数估计与假设检验二、参数估计与假设检验 l建立偏似然函数(Partial likelihood function)来估计 参数l假设检验n似然比检验 n得分检验 nWald检验 三、因素的初步筛选与最佳模型的建三、因素的初步筛选与最佳模型的建立立n因素的筛选因素的筛选 n最佳模型的建立最佳模型的建立四四、、Cox模型的统计描述模型的统计描述l回归系数和标准回归系数 l个体预后指数 (PI)一个典型的生存分析科研项目演示n例例15-5 为了探索影响儿童急性淋巴细胞白血病(为了探索影响儿童急性淋巴细胞白血病(ALL)长期生)长期生存的预后因素。
采用回顾性队列研究,对存的预后因素采用回顾性队列研究,对1990年年1月月1日至日至1995年年12月月30日期间在苏州大学附属儿童医院血液科就诊日期间在苏州大学附属儿童医院血液科就诊, 治疗时间治疗时间大于大于2周周,年龄年龄<15周岁获得有效随访的周岁获得有效随访的118例例ALL初诊患儿进行初诊患儿进行生存分析通过设计调查表调查:人口学特征资料如性别、年龄、生存分析通过设计调查表调查:人口学特征资料如性别、年龄、家庭年收入;临床资料包括家庭年收入;临床资料包括ALL类型、初诊白细胞数等,可通过类型、初诊白细胞数等,可通过摘录病史获得;而调查对象的存活状态及死亡时间通过随访的方摘录病史获得;而调查对象的存活状态及死亡时间通过随访的方式获得,本研究通过信访、和上门采访相结合的方式,以提式获得,本研究通过信访、和上门采访相结合的方式,以提高应答率(高应答率(92%)表15-6显示了部分调查对象的关键变量调显示了部分调查对象的关键变量调查信息本研究的起始时间为查信息本研究的起始时间为ALL的确诊日期,终点日期为病人的确诊日期,终点日期为病人的死亡日期;如果研究对象仍存活,研究的截尾日期设定为的死亡日期;如果研究对象仍存活,研究的截尾日期设定为2000年年6月月30日。
日 (一)建立数据库(一)建立数据库n一般可用EXCEL、Epidata或foxpro建立数据库,数据库的格式类似表15-6需要强调的是变量名应设定成具有相应含义的英文字母,不能用中文变量,否则在用SAS统计软件进行分析时非常不便;另外为保证输入质量,要求数据两遍输入,并进行逻辑检查本例已建立了一个名为的永久性数据集(二)分析变量的产生(二)分析变量的产生n一般先用proc freq和proc univariate过程步对各个变量的频数(分类变量)或四分位数(连续性变量)进行分析,以了解各个变量的分布情况进行了解在Cox模型分析中,连续性变量可按专业知识或数据分布情况转化成分类变量本例我们就将年龄<1或>9岁定义为1,1-9岁的定义为0,因为从临床上讲ALL发病年龄很小或很大预后可能不佳;另外初诊白细胞、脾肿大(肋下)也进行了分类变量的转变其他各个变量的赋值见表15- 7 (三)单因素(三)单因素Cox模型分析结模型分析结果果(四)多因素(四)多因素Cox模型分析结模型分析结果果 l逐步回归法 l强迫进入法六、六、 注意事项注意事项n样本量是协变量的10~20倍左右 n要尽量避免观察对象的失访 n注意共线性的问题 nCox模型要求病人的风险函数与基础风险函数呈比例 nCox模型分析有两种分析思路七、Cox模型有效性检验n绘制协变量在不同水平时的生存率曲线图,如果曲线相交,则等比例风险不成立。
n直接绘制协变量不同水平时log(-log(生存率))与时间的趋势图,如果几条线是平行的,则等比例风险成立n在模型中增加协变量与时间的交互项,考察该交互作用项是否有统计学意义如果有统计学意义,则说明等比例风险条件不成立;如果无统计学意义,则说明等比例风险条件成立。












