好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基于人工智能的基因组自动注释应用服务V1.pptx

41页
  • 卖家[上传人]:莫****
  • 文档编号:238595105
  • 上传时间:2022-01-12
  • 文档格式:PPTX
  • 文档大小:15.42MB
  • / 41 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 基于人工智能的基因组基于人工智能的基因组自动注释自动注释一、后基因组时代的挑战一、后基因组时代的挑战l 大型高通量测序仪Illumina X Ten 每次产出18TB数据(18块硬盘)l 中型高通量测序仪 HiSeq2500l小型化高通量测序仪,MiSeq 2.0 通量1G,可测序24个大肠杆菌或72个幽门螺杆菌通量 600G , 4个人类基因组, 或150个小鼠转录组l 低成本高通量测序仪Illumina Novaseq 每次最多产出167G数据快速提升的基因测序能力基因组分析成为现代医学的重要支撑人类基因组计划(HGP)千人基因组计划(1K)万人基因组计划(10K)十万人基因组计划(100K)人类基因组计划(HGP)1990年10月启动,2005年完成千人基因组计划2008年启动,2012年数据开放,最终将包含来自全球27个族群的2500个人的基因组信息英国万人基因组计划:历时3年l 2012年英国启动万人基因组计划(UK 10K),旨在分析与疾病相关联的风险因素l 2015年9月14日,最大规模群体基因组测序结果发表于Nature,预示着UK 10K计划收获里程碑式成果l 基于UK 10K计划成功找到骨质疏松症相关突变基因EN1。

      后基因组时代的基因组注释后基因组时代的基因组注释l 排出人类基因组30亿碱基序列仅仅是人类探索自身遗传奥秘的开始,更为重要的是破译这些遗传密码,理解各种生命现象的本质l 97%的非编码区、调控元件及功能域、表观信号编码、基因组高级结构多组学时代的到来后基因组时代多组学研究的代表ENCODEl ENCODE“DNA元件百科全书”计划l 由美国国立人类基因组研究所(简称NHGRI)领导,全世界11个国家的35个小组参加l 包括了147 种细胞中1600项实测数据(涵盖DNA甲基化、组蛋白修饰、转录因子结合位点等).l 总数据量达到300TB,花费1.85亿美元l ENCODE计划揭示出基因组上基因和调控元件共同构成的复杂网络关系,将基因组研究引向深入Nature 2012.9l 目的:绘制正常人类细胞和组织表观遗传系列参考图谱,并且研发新型的研究工具l 数据量:花费1.9亿美元,150个细胞系/组织,2345项测序,250TB原始数据 ,30个组蛋白,38种数据类型表观路线图计划:Roadmap Epigenomics Program“大数据+人工智能” 的基因组解析之路传统神经网络深度学习神经网络l 深度学习将低层特征非线性组合形成更加抽象的高层特征,在人机对弈、自动驾驶等领域取得了举世瞩目的成功应用l 深度学习等人工智能方法是解析复杂生物调控机理的重要手段人机对弈自动驾驶二、DNA复制时间域的识别与注释基于基于深度学习的深度学习的DNADNA复制时间域复制时间域的识别与注释研究的识别与注释研究De novo Identification of replication-timing domains in the human genome by deep learningDNA复制时间域l 真核生物细胞周期的S阶段,每个细胞中的DNA都会复制一个拷贝。

      l 高等真核生物存在成百上千个复制起始区域,从染色质中不同复制域按特定顺序进行复制l 测量复制时间能够用来识别复制的起始与终止区域l DNA复制起始与终止的错误,与疾病(包括癌症)密切相关细胞周期示意图复制时间谱复制时间域复制时间的动态图研究方法基于深度学习的DNA复制时间域的识别DNN-HMM算法及其性能评估l 提出了一种新的、结合了预训练的深层神经网络和隐马尔科夫模型(DNN-HMM)的混合结构l 结合了HMM和DNN两者的优点,具有极强的染色质状态识别的潜力l 识别了4种类型的复制时间域(ERD、LRD、UTZ和DTZ)l 相较于经典DNN和两种经典HMM,DNN-HMM能够有效解决过拟合,具有最优的准确性、稳健性和可再现性主要结果DNN-HMM混合模型的性能评估MethodDomain typeperformance indicatorsAccuracyGMF1-scoreReproducibilityDNN-HMMERD84.62%88.22%79.93%83.47%LRD76.59%81.64%48.53%89.57%TTR87.26%74.76%49.67%79.04%Hansen et al.ERD82.84%78.70%71.41%71.33%LRDNullNullNullNullTTRNullNullNullNullRyba et al.ERDNullNullNullNullLRDNullNullNullNullTTR89.67%62.56%44.66%56.78%Pope et al.ERD82.23%83.72%75.19%65.29%LRD78.23%79.62%48.12%79.58%TTR75.64%62.18%29.04%41.25%HMMSegERD82.79%84.08%75.73%59.32%LRD76.22%78.02%45.61%46.29%TTR73.40%66.26%30.83%47.53%ChromHMMERD81.24%81.83%73.14%75.33%LRD79.12%81.40%50.08%63.54%TTR68.78%59.82%24.70%64.08%SegwayERD82.81%84.09%75.75%57.43%LRD81.15%80.53%51.16%73.68%TTR73.14%65.64%30.27%50.85%Performance indicatorsDomain typeDNNHMMHansen et al.Ryba et al.Pope et al.HMMSegChromHMMSegwayAccuracyERD1275463LRD4663521TTR2713465GMERD1674352LRD1664523TTR1745263F1-scoreERD1674352LRD3664521TTR1725364ReproducibilityERD1374526LRD1662543TTR1736524OVERALL RANKING1st (18), 1.506th (69), 5.755th (62), 5.174th (49), 4.084th (49), 4.083rd (48), 4.002nd (37), 3.08DNN-HMM算法与其他已有方法的性能比较DNN-HMM算法与其他已有方法的性能排序l 比较DNN-HMM与其他6种方法在3种复制时间域、4种指标的性能l 评估7种方法在12种检验中的整体性能,发现DNN-HMM在7种方法中有着最优的性能。

      l 识别了ENCODE计划下15个人类细胞系的4种类型的复制时间域l 4种类型的复制时间域在基因组覆盖、基因组位置、功能域个数和大小、基因个数、进化保守性、细胞特异性和复制时间等性质方面都有显著的差别l 发现复制时间功能域在TF模式序列、TF结合位点、辅助因子、组蛋白修饰、DNA甲基化、基因表达、 DNA超敏位点、核纤层蛋白等多方面的显著差异,发现ERD是活性、高转录开放区域,离核膜远;LRD是抑制性、低转录关闭区域,离核膜近;UTZ和DTZ是ERD和LRD之间的过渡区域DNA复制时间域的基因组注释4种类型复制时间域的性质描述TF模式序列的富集显著性不同的染色质注释的密度谱DNA复制时间域的染色质3D结构复制时间域和Hi-C地图的关系复制时间域的染色质3D相互作用l 发现整个基因组分隔成不同状态的复制时间单元l 相邻DTZ-UTZ对紧密的相互作用在一起,形成染色质环l ERD松散地缠绕在一起,偏向于形成短程相互作用,LRD紧密地缠绕在一起,偏向于形成长程相互作用l 提出了DNA复制时间域的环结构调控模型复制时间域调控模型Bioinformatics, 32(5), 2016, 641649.增强子的识别l DNA调控序列是DNA中一段包含启动子、增强子及其他可与调节蛋白(如转录因子)结合的位置片段。

      这些序列调控了基因的表达,进而影响蛋白质的产生基因特异性表达众多DNA调控元件相关背景相关背景增强子l 增强子是一类远端的顺式作用的DNA调控元件,它在控制基因的细胞/组织类型特异性表达方面具有核心作用l 形成启动子-增强子环的相互作用来指导包括发育与分化、细胞身份维护以及应对刺激等重要的生物过程同时,增强子内的遗传变异和扰乱与疾病和癌症密切相关l 缺乏共有的序列特征、离靶基因较远以及具有高度细胞/组织特异性利用ChIP-Seq、RNA-Seq、DNase-Seq等多组学数据建模HistoneDNaseTFMachine LearningEnhancer Predict数据建模预测方法基于机器学习的增强子预测基于机器学习的增强子预测研究方法基于深度学习的增强子预测PEDLA单细胞PEDLA框架PELDA利用异构数据预测增强子l 提出了一种基于深度学习的增强子预测算法PEDLAl 使用了9种不同类别、共1114维的异构数据作为分类特征来识别增强子l 通过5倍交叉验证,达到了97.7%的准确性, 97.0%的GM (geometric mean of sensitivity and specificity)。

      l 识别了20,689个增强子,发现其中42.3%(13.0%)、16.8% (1.1%)和32.4% (4.2%)的这些预测的增强子分别与远端DHS、p300以及TF重叠主要结果PEDLA具备无偏地处理类别不平衡数据的能力l 类别不平衡问题,即增强子的数目远远小于非增强子的数据在预测增强子时是极其常见的阳性样本和阴性样本比例为1:10l 发现对于PEDLA,随着数据的不平衡性的增加,3种指标几乎没有变化(无偏)l 对于DNN、SVM,随着数据的不平衡性的增加,灵敏性和GM快速降低,而特异性却缓慢增加(有偏) PELDA处理类别不平衡数据的性能DNN、SVM处理类别不平衡数据的性能PEDLA与其它方法的性能比较l 公平比较PEDLA与5种顶尖机器学习方法在9种指标中,PEDLA的7种指标都显著地优于所有其他方法,并且整体性能也优于其他方法l 比较各种算法在各种不同训练集中的性能,发现PEDLA同样显著地优于其他方法l 综上,与同类方法相比, PEDLA方法取得了state-of-the-art性能PEDLA RFECSCSI-ANNDELTAChromHMMSegwayPEDLA(all features)Number of prediction2269175084301731120442686913169820689Performance metricsAccuracy96.30%93.67%95.58%87.78%94.03%91.01%97.65%Sensitivity95.72%64.19%65.50%73.56%37.67%12.89%96.16%Specificity96.37%97.89%98.63%89.84%99.75%98.94%97.80%GM96.02%79.26%80.34%81.29%61.30%35.71%96.97%F1-score83.01%71.71%73.06%60.40%53.74%20.90%88.31%Validation rateDHS40.68%31.85%30.65%12.25%38.86%40.61%42.29%P30015.25%7.26%10.83%1.57%9.89%3.52%16.82%TFs28.89%17.71%19.72%5.75%19.14%6.42%32.37%Misclassification rate7.53%3.09%16.46%3.01%6.42%14.53%6.59%Performance metricsPEDLARFECSCSI-ANNDELTAChromHMMSeg。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.