
基于癌症基因组图谱数据对结肠癌预后相关长链非编码RNA的筛选研究.docx
5页基于癌症基因组图谱数据对结肠癌预后相关长链非编码RNA的筛选研究结肠癌是常见的消化道恶性肿瘤之一,近些年来,欧美发达国家结肠癌发病率呈下降趋势,而中国由于经济水平的发展、饮食结构的改变等因素,结肠癌发病率和病死率明显呈上升趋势,未来中国结肠癌的负担将越来越重[1,2,3]目前,手术仍是治疗结肠癌的主要方式,结肠癌的转移或术后复发是影响患者长期生存的关键因素[4]寻找结肠癌的预后分子标志物不仅有利于评估患者的预后,而且有望发现新的诊断或治疗靶点长链非编码RNA(longnon-codingRNA,lncRNA)是一类长度大于200bp的非编码RNA[5]众多研究结果表明,lncRNA在调节一系列的生物学过程包括基因转录与翻译、表观遗传修饰、细胞增殖与分化、细胞周期与凋亡等过程中发挥重要作用已经证实一些lncRNA在肿瘤中异常表达,异常表达的lncRNA在肿瘤发生发展中起着促进或抑制的作用,其有望成为肿瘤的诊断或治疗分子标志物[6,7]此外,相对于编码基因或微小RNA(microRNA,miRNA),lncRNA组织特异性分布及肿瘤特异性表达的特性使其更有利于作为肿瘤分子标志物[8]本研究利用癌症基因组图谱(TheCancerGenomeAtlas,TCGA)中结肠癌转录组测序数据,筛选具有预后意义的差异表达lncRNA分子,并通过共表达分析及功能富集分析初步揭示这些lncRNA可能参与的生物学过程,为进一步研究其功能提供理论依据。
1、资料与方法1.1一般资料1.2数据处理采用R软件进行数据处理首先去除TNM分期数据缺失的患者,并对重复取样的肿瘤个体组织取其表达值的平均值作为最终表达值依据GENCODE数据库中有关lncRNA和编码基因的注释信息将其从分别转录组表达数据中筛选出来[9];去除在所有样本中表达值缺失大于20%的lncRNA,共得到4105个lncRNA采用edgeR包筛选在结肠癌和癌旁组织中差异表达的lncRNA,筛选标准为:|logFC|>2且FDR<0.05将差异表达lncRNA表达值取以log10为底的对数,采用gplots包绘制热图,并对所有样本进行聚类采用survival包中Coxph模型进行单因素Cox回归分析以筛选预后lncRNA,采用Kaplan-Meier法绘制患者生存曲线,以lncRNA表达值的中位数作为分界值,低于该值为低表达组,高于该值为高表达组计算编码基因与预后lncRNA表达值之间的Pearson相关系数,相关系数大于0.4即认为该编码基因是lncRNA的共表达基因;利用数据库DAVID对共表达基因进行京都基因与基因组百科全书(KyotoEncyclopediaofGenesandGenomes,KEGG)分析[10],FDR<0.05即认为共表达基因明显富集于该通路。
1.3统计学分析所有统计分析均在R软件中进行,采用Waldtest检验Coxph模型中lncRNA是否与预后有关,以P<0.05为差异有统计学意义2、结果2.1结肠癌数据集特征从TCGA数据库中获得结肠癌数据集转录组数据和相应的临床数据,去除TNM分期数据缺失的患者,获得443例结肠癌及41例相应的癌旁组织样本,其中年龄≤60岁236例,>60岁207例;男性233例,女性210例;结肠癌Ⅰ期75例,Ⅱ期176例,Ⅲ期128例,Ⅳ期64例;存活346例,死亡97例2.2差异表达lncRNA筛选采用edgeR包筛选在结肠癌及癌旁组织中差异表达的lncRNA,结果显示,Ⅰ、Ⅱ、Ⅲ、Ⅳ期中差异表达lncRNA分别有294、289、277、318个,有227个lncRNA在肿瘤各期中均呈差异表达(图1A),其中169个在结肠癌中表达上调(图1B),58个表达下调(图1C),可以看出在肿瘤各期中差异表达的lncRNA基本一致聚类分析结果显示,这些差异表达的lncRNA能够将癌组织和癌旁组织区分开(图2),表明这些差异表达lncRNA在癌组织和癌旁组织中具有明显不同的表达模式图1在结肠癌Ⅰ-Ⅳ期中异常表达的lncRNA韦恩图图2结肠癌与癌旁组织中异常表达的lncRNA热图2.3生存分析鉴定具有预后意义的lncRNA在上述结肠癌数据集中进一步去除无随访数据或生存时间(随访时间)小于30天的患者,得到420例具有完整生存资料的结肠癌样本。
生存分析鉴定出15个lncRNA与预后显著相关(P<0.05),其中高表达且预后差的有AC020891.2、AFAP1-AS1、AC105219.2、LINC02081、PTGES2-AS1、SLCO4A1-AS1、AC004988.1、AC022784.1、C2orf48、DUXAP8、LINC01836、BX470102.1、H19;高表达且预后好的有AC104823.1、LINC01555(表1、图3)表1结肠癌组织中具有预后意义的差异表达lncRNA图3Kaplan-Meier法分析lncRNA表达水平与患者生存的关系2.4KEGG通路分析由于大多数lncRNA的功能目前并不清楚,因此采用与lncRNA共表达的编码基因来预测其可能参与的信号通路或生物学过程KEGG分析显示,AC020891.2、PTGES2-AS1、AC004988.1三个lncRNA共表达基因具有明显富集的通路;AC020891.2共表达基因主要富集在剪接体、真核生物核糖体合成、核糖体、mRNA监视通路及RNA转运通路;PTGES2-AS1所涉及的通路主要是mRNA监视通路;AC004988.1主要参与的通路主要是嗅觉传导和味觉传导(表2)。
表2lncRNA共表达基因KEGG通路分析3、讨论随着二代测序技术的普及和数据分析水平的进步,众多研究结果表明约70%的人类基因组被广泛地转录,编码基因转录本只占约2%,大部分转录产物不具有编码蛋白的功能,这些非编码RNA的生物学功能特别是在肿瘤中的作用正越来越受到重视[11,12]lncRNA是非编码RNA(ncRNA)的一大类,可以通过表观遗传调控、转录调控、转录后调控等多种形式作用于靶基因而发挥调控作用[13,14]表观遗传调控涉及组蛋白修饰、基因组印记、DNA甲基化和ncRNA关联,如lncRNAPRC1和PRC2可以通过与作用于组蛋白修饰复合体而抑制某些基因如Hox的表达[15]lncRNA也可以在转录水平干扰基因的表达,如DNA损伤时肿瘤抑制因子p53可以诱导lncRNATUG1的表达,TUG1通过结合PRC2而抑制细胞周期相关基因的表达;lncRNAHOTAIR是一个HOX转录本的反义RNA,可以抑制HOXC基因的转录[16,17]不成熟的转录RNA产物通过转录后处理才能成为成熟的RNA如mRNA、tRNA和rRNA一些lncRNA通过作用于剪接过程或与剪接因子相互作用而在转录后水平发挥调控作用,多聚嘧啶结合蛋白1(PTBP1)是一种剪接调控因子,Pnky是一个神经系统特有的lncRNA,Pnky通过结合PTBP1在神经干细胞中调节神经发生关键基因的可变剪接[18]。
lncRNA也可以通过作用于激素受体或作为小RNA前体发挥调控作用目前,在GENCODE数据库中已经注释了超过1.5万条lncRNA[9]大部分lncRNA功能未知,通过大样本数据预测lncRNA的功能可为进一步探索lncRNA在肿瘤中的作用奠定基础,并有望发现新的肿瘤特异性分子标志物TCGA数据库是科学界广泛使用的开放数据库,目前含有33类肿瘤的超过1.1万例的多维度基因测序数据,是临床肿瘤研究者可以利用的大样本肿瘤资源库[19]本研究利用TCGA数据库中结肠癌及癌旁组织的RNA测序数据,首先从表达数据中挑选出lncRNA转录本,共纳入4105个lncRNA结肠癌各TNM分期中筛选出一致性差异表达lncRNA227个,其中169个在肿瘤样本中表达上调,58个表达下调采用单因素Cox回归模型筛选出15个差异表达的lncRNA与预后显著相关,其中3个lncRNA,即AFAP1-AS1、DUXAP8及H19,与已发表文献所得结果一致[20,21,22,23,24,25,26,27,28,29],其余lncRNA功能目前暂无相关研究报道AFAP1-AS1(actinfilament-associatedprotein1antisenseRNA1)在多类肿瘤中的作用已经被证实,AFAP1-AS1在胃癌、结肠癌、非小细胞肺癌、视网膜细胞瘤等肿瘤中高表达,干扰AFAP1-AS1表达可抑制肿瘤细胞的增殖、迁移和侵袭[20,21,22,23]。
荟萃分析表明AFAP1-AS1在多类肿瘤中的高表达与患者较短的无病生存期、无复发生存期、无进展生存期及总生存期显著相关,此外高表达AFAP1-AS1的患者倾向于有较晚的临床分期、较大的肿瘤体积和较早的远处转移等[24,25]DUXAP8(doublehomeoboxApseudogene8)在食管癌、胃癌和非小细胞肺癌中过表达并与患者较差的预后相关,抑制DUXAP8表达可抑制肿瘤细胞增殖、侵袭和克隆形成能力,分子水平上可能是通过调控Wnt/β-catenin通路或影响PLEKHO1表达或抑制肿瘤抑制因子EGR1、RHOB表达而发挥促肿瘤作用[26,27,28]H19是一个发现较早的lncRNA,在胚胎组织中表达较高,并在胚胎发育中起着重要作用,而在成人的多数组织中表达降低或缺乏,众多研究表明H19有望成为一些肿瘤诊断或治疗的分子标志物[29]H19可以通过作为竞争性内源RNA(competingendogenousRNA,ceRNA)抑制miRNA或结合表观遗传调控因子等多种形式行使功能,目前对于H19在肿瘤中的作用仍有争议,H19在多数肿瘤包括胃癌、结肠癌、膀胱癌等中高表达并起促癌作用,而在某些肿瘤如甲状腺乳头状癌中起抑癌基因的作用[29,30]。
本研究通过生物信息学方法筛选所获得的具有预后意义的lncRNA,大部分功能目前尚没有报道,因此,我们通过共表达分析,获得与lncRNA表达相关性较高的编码基因,进而通过基因富集分析初步探索这些lncRNA的作用KEGG通路分析显示,仅有AC020891.2、PTGES2-AS1、AC004988.1三个lncRNA共表达基因能够明显富集于某些通路,主要涉及核糖体生物合成、mRNA监视通路等癌细胞中核糖体数量及核糖体生物合成功能均明显增加,以维持其不受控制的增殖能力,相比于正常细胞,抑制细胞核糖体生物合成对肿瘤细胞的生存影响更大,干扰这一通路被认为是治疗癌症的有效靶点,目前已经有针对该通路的药物进入临床试验[31]真核生物mRNA传递基因信息从DNA到蛋白质是一个复杂的过程,包括基因转录、前mRNA剪接、细胞内转运、蛋白质翻译及降解等多个生物学过程,细胞有许多监视机制来控制生成的mRNA质量,以确保合成正确的蛋白质[32]mRNA监视机制在调节基本的生物学过程中发挥重要作用,这一机制中的某些缺陷可以引起多发性骨髓瘤、腺瘤等疾病[33]综上所述,本课题组通过分析TCGA结肠癌数据集,发现了一批在结肠癌中差异表达的lncRNA,生存分析鉴定出一些差异表达lncRNA与预后显著相关。
这些lncRNA为后续深入研究其功能提供了线索,并有望成为结肠癌诊断或治疗的新的分子标志物参考文献:[2]张玥,石菊芳,黄慧瑶,等.中国人群结直肠癌疾病负担分析[J].中华流行病学杂志,2015,36(7):709-714.[3]姚婷婷,郝吉庆.398例左、右半结肠癌患者的临床特点及生存分析[J].现代肿瘤医学,2018,26(13):2068-2072.[4]韦金磊.结直肠癌的临床治疗进展[J].中国临床新医学,2018,11(2):202-208.闫军浩,郭魁元,吴万庆,罗昭峰,杨战锋,王冬阳,王争.。












