好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

2024疾病预测模型技术.docx

8页
  • 卖家[上传人]:周哈****孩子
  • 文档编号:595270240
  • 上传时间:2024-11-05
  • 文档格式:DOCX
  • 文档大小:65.57KB
  • / 8 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 疾病预测模型技术规范目 次1 范围 12 规范性引用文件 13 术语和定义 14 疾病预测模型构建步骤 2 研究问题提出 2 研究设计和数据质控 2 预测因子编码 2 模型构建 3 参数估计 3 模型评价 3 模型验证 3 模型展示 45 模型性能的评价指标 4 概述 4 A:全局校准 4 B:斜率校准 4 C:C 统计量 5 D:决策曲线 5I 疾病预测模型技术规范1 范围本文件确立了疾病预测模型构建的过程和步骤,给出了衡量模型性能的多维度评价指标本文件适用于疾病预测模型的构建、评价与改进 2 规范性引用文件本文件没有规范性引用文件 3 术语和定义下列术语和定义适用于本文件 研究设计 study design为构建疾病预测模型而涉及的队列研究设计 疾病预测模型 disease prediction model一种使用统计或机器学习方法构建的模型,旨在根据一组输入变量(如基因型、生活方式、生物标记、环境因素等)来预测个体在未来某一时期内患某种疾病的概率 预测因子 predictor经过精选的,具有一定临床意义和公共卫生意义的可干预指标,以及与疾病相关的年龄、性别等不可干预因子。

      队列数据 cohort data通过队列研究设计所获得的数值变量和分类变量的观察值 疾病风险 disease risk通过疾病预测模型所预测的结局发生的可能性 人群平均基准风险 average baseline hazard在人群队列中随访观察到一定时期内(如5年、10年等)各年龄别发病率(或发病密度),可代表同性别同年龄的人群期内发生某种健康/疾病结局的平均风险水平 绝对风险 absolute risk具备某特定危险因素集的某个体在年龄α时未发生所研究的结局(如脑卒中)而在年龄(α+τ) 时段内发生该结局的概率,其中τ是人为规定的随访时间 注:也称粗风险(crude risk)或累积风险(cumulative risk)相对绝对风险 relative absolute risk特定危险因素组合下,个体年龄别绝对风险与群体中相同年龄的平均绝对风险之比,以反映每个个体的绝对风险是同年龄组所有人的平均绝对风险的倍数 超额绝对风险 excess absolute risk特定危险因素组合下,个体年龄别绝对风险与群体中相同年龄的平均绝对风险(即人群平均基准风险)之差,以反映每个个体的绝对风险与同年龄组所有人的平均绝对风险的差。

      6 竞争风险 competing risk在研究对象的整个生存期内,除了会出现所关心的结局(如脑卒中发生等)外,还会出现其它竞争性结局(如死亡等) 内部有效性 internal validity在研究预测模型的样本中,能够在完全相同的研究过程中复现研究结果的程度 外部有效性 external validity预测模型类推到目标人群的有效性(普遍适应性) 结局 ending预测因子(3.3)通过预测模型所预测的结局,以绝对风险形式显示 列线图 alignment diagram将模型中的多个预测指标整合,采用刻度线段,按一定比例绘制在同一平面上,以表达预测模型中各个变量之间的相对权重大小,同时为使用者提供简洁的风险计算方式也称诺莫图(Nomogram) 校准度 calibration评价一个疾病模型预测未来某个个体发生结局事件概率准确性的重要指标,反映了模型预测风险与实际发生风险的一致程度 4 疾病预测模型构建步骤研究问题提出4.1.1 首先应确定研究问题,即对结局和对应预测因子的选择对预测因子的选择应具有可干预性、科学性、可行性、效益性 4.1.2 预测因子的选择,应由临床专家和统计学专家共同商定。

      4.1.3 结局的选择:首选死亡、发病、转归等“硬结局”,次选病情加重等不易确切判断的“软结局” 4.1.4 建模样本的选择,根据不同的研究设计,如队列研究设计、巢式病例对照研究设计等,选择相应的研究对象,并计算样本量 4.1.5 若使用既往临床试验的历史数据,也可为建立模型提供数据 4.1.6 在样本的选择中,根据实际情况选择采用合适的抽样方法,如整群抽样、简单随机抽样、复杂抽样等 研究设计和数据质控4.2.1 综合考虑不同类型研究设计的优缺点并结合实际情况确定研究设计,宜使用人群队列研究设计, 在特殊的情况下可以使用巢式病例对照研究设计、基于随机临床试验的队列设计或者以人群为基础的病例对照研究设计 4.2.2 疾病预测模型应使用队列数据,而不是横断面数据 4.2.3 数据集应拆分为训练队列数据集、验证队列数据集,训练队列数据集用于模型训练,验证队列数据集用于模型的评估和调优 4.2.4 应对队列数据进行质量控制,包括数据测量的准确性,以及对数据的预处理,比如离群值、缺失值、不平衡和共线性等问题的处理 预测因子编码预测因子的编码应从以下方面考虑: a) 候选预测因子宜包括人口统计学特征、临床病史、体格检查、疾病特征、实验室结果以及既往的治疗方法和基因组生物标记等。

      除了年龄和性别等不可干预的预测因子,尽量选择具有临床意义且可干预的指标作为预测因子; b) 应首选因果链上的指标作为候选预测因子,且离结局越近的指标,预测效果越好; c) 分类变量和数值变量都可以作为预测因子,根据临床需要选择数值变量或者将数值变量转化为分类变量; d) 对于预测因子的缺失数据,要慎用统计学填补法,建议采用不确定性推理 模型构建4.4.1 预测因子选择在模型构建之前应选择合适的预测因子,宜根据需求遵从以下几个方面确定纳入模型的预测因子: a) 根据现有的医学文献筛选预测因子; b) 单因素分析筛选预测因子; c) 多因素分析筛选预测因子; d) 根据临床实际需要筛选预测因子; e) 对于预测因子筛选,高维数据宜用 lasso 回归,低维数据宜用向后逐步回归; f) 在保证预测效果前提下,纳入的预测因子越少越好 4.4.2 模型选择根据研究目的及研究设计选择合适的模型,应从以下方面考虑: a) 在保证预测效果的前提下,尽量选择简单的预测方法而非复杂的预测方法; b) 合理选择参数模型(Weibull 回归模型等)、半参数模型(Cox 回归模型等)、非参数模型(单因素加权模型等)、生存机器学习模型(生存随机森林模型等)、不确定推理模型(贝叶斯网络等)等; c) 当存在竞争风险时,应选择竞争风险模型(如原因别竞争风险模型、部分分布竞争风险模型等),以消除竞争风险对结局预测的影响; d) 各种模型均有其特定的建模假设,选择模型时应考虑队列数据是否符合模型假设。

      例如,Cox 模型的等比例风险假设等 参数估计模型确定之后,应对模型参数进行估计,即估计模型的回归系数对于logistic回归模型和Cox等比例风险回归模型,通常用似然方法估计系数 模型评价对于一个被提议的模型,研究人员应确定其预测能力应从模型校准(全局校准(A,见5.2)、斜率校准(B,见5.3))、C统计量(C,见5.4)以及决策曲线(D,见5.5)四个方面分析评价,即ABCD四个评价指标评价指标参考本文件第5章 模型验证4.7.1 概述预测模型应具备内部有效性和外部有效性,应对模型进行内部验证和外部验证外部验证的效果优于内部验证 4.7.2 内部有效性内部有效性指模型的ABCD四个评价指标在研究样本中的表现内部有效性宜通过分离样本验证、交叉验证、重采样等验证方法来评估 4.7.3 外部有效性外部有效性指模型的ABCD四个评价指标在外推验证样本中的表现外部验证通常被认为是比内部验证更强的测试,因为它处理的是可移植性而不是可重复性外部有效性宜通过研究新近的样本(时间验证)、来自其他地区的样本(空间验证)或在差异较大的环境下(强外部验证)来评估 模型展示4.8.1 概述为了让疾病预测模型得到更好地应用,宜选择适宜的模型呈现方式,以实现风险可视化,便于决策支持。

      宜选择列线图、风险映射图、打分卡等方式 4.8.2 列线图列线图的绘制应遵循以下要求: a) 将模型中的多个预测指标整合,采用刻度线段,按一定比例绘制在同一平面上,以表达预测模型中各个变量之间的相对权重大小; b) 根据预测模型中各个预测因子对结局的贡献程度,给每个预测因子的每个取值水平进行赋分, 再将各个评分相加得到总评分,最后通过总评分与结局事件发生概率之间的函数转换关系, 计算出个体结局事件的风险预测值 4.8.3 风险映射图风险映射图的绘制应遵循以下要求: a) 绘制各年龄组人群的基准风险图,以人群平均基准风险为界,将其划分为高低风险人群; b) 个体绝对风险映射到基准风险图,计算相对绝对风险、超额绝对风险和个体相对绝对风险 5 模型性能的评价指标 概述模型性能的评价标准包括模型校准(全局校准、斜率校准)、C统计量和决策分析曲线,其中模型校准用于评估模型的预测概率与观测结果的一致性,C统计量用于评估分类模型的性能,决策曲线用于权衡不同决策阈值下的预测准确性和效用这些评价指标可以帮助我们了解和选择合适的模型,并在实际应用中做出决策 A:全局校准即Alpha校准(Alpha calibration-in-the-large),校准度是评估预测的概率与实际观察到的概率的一致性,宜采用校准曲线进行评估。

      按预测的概率将人群分为10等份,以每等份预测概率的均值为横坐标X,实际结局发生的概率为纵坐标Y,即校准图的横轴是预测发病风险(𝑅̂),纵轴是实际发病风险(R) 校准曲线公式如下: 𝑅 = 𝐴 + 𝐵𝑅̂··········································································· (1) 式中:R ——实际观察到的结局发生的概率; A ——截距(Alpha); B ——斜率(Beta); 𝑅̂ ——预测结局发生的概率 参考线是R=𝑅̂,即A=0,B=1, 预测风险与实际风险完全重合 A为校准曲线的截距截距A与大范围校准有关,它将所有预测风险的平均值与观测风险的平均值进行比较因此,该参数表明预测值系统地过低或过高的程度当A接近于0时,预测模型的校准良好 B:斜率校准即Beta校准(Beta calibration slope),B为校准曲线斜率如果预测风险大于实际风险,即高估了风险,则校准曲线在参考线以下,即B小于1;如果预测风险小于实际风险,即低估了风险,则校准曲线在参考线以上,即B大于1。

      当B接近于1时,模型预测的校准良好 C:C 统计量C统计量(Concordance statistic),C统计量用来衡量模型的判别度,也称为区分度区分度是指模型区分是否发生预期结局(预测模型)的能力宜采用AUC、一致性指数C-index作为区分度衡量指标 C-index常应用于评价生存模型的预测能力,它估计了预测结果与实际观察到的结果相一致的概率C-index计。

      点击阅读更多内容
      相关文档
      云南省红河州河口县语文二年级下学期期末试题+2020-2021学年.pdf 八年级生物开学摸底考(人教版)(答题卡).pdf 云南省文山州砚山县数学四年级下学期期末试题 2020-2021学年 (2).pdf 八年级生物开学摸底考(辽宁专用)(答题卡).pdf 八年级生物开学摸底考(海南专用)(答题卡).pdf 云南省昆明市五华区数学四年级第二学期期末考试 2020-2021学年.pdf 八年级生物开学摸底考(南京专用)(答题卡).pdf 八年级生物开学摸底考(湖南专用)(答题卡).pdf 云南省德宏州语文五年级下学期期末试题 2020-2021学年答案zq.pdf 八年级生物开学摸底考(武汉专用)(答题卡).pdf 2022年盐城市中考化学试卷答案.pdf 云南省德宏州语文四年级下学期期末试题 2020-2021学年.pdf 云南省德宏州数学四年级下学期期末试题 2020-2021学年.pdf 云南省德宏州数学五年级下学期期末试题 2020-2021学年数学答案zq.pdf 八年级生物开学摸底考(福建专用)(答题卡).pdf 八年级生物开学摸底考(全国通用)(答题卡).pdf 八年级生物开学摸底考(广西专用)(答题卡).pdf 八年级生物开学摸底考(广州专用)(答题卡).pdf 云南省昆明市盘龙区数学四年级第二学期期末考试 2020-2021学年.pdf 云南省昆明市盘龙区语文二年级第二学期期末考试 2020-2021学年(人教部编版无答案PDF).pdf
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.