
基因进化树分析.ppt
39页第五章 序列比对分析--基因进化树分析基因进化树的定义p进化树是概括各种生物间亲缘关系的树状分枝图,也称为种系发生树p基因进化树是基于核酸或蛋白质序列或结构构建的进化树——分子进化树p树干为远古始祖,子代为树的分支分子进化的理论基础p种系发生的分析方法:器官比较、化石等;p物种基因组被认为携带了该物种进化的全部信息和历史记录,通过比较分析现有物种的基因信息可以回溯进化历史及物种间的亲缘关系;p包括基因序列,基因组的排列方式,二级结构,编码的蛋白序列及高级结构等9/16/20243现实与历史的差异•根据是否考虑不同位点突变频率是否不同、碱基间置换和颠换的频率是否不同、是否考虑回复突变和平行突变等,科学家们提出了不同的分析模型,这些模型对真实情况的模拟能力各不相同•目前对核酸序列的分析一般选择Kimura 2-parameter(Kimura-2参数)模型;对蛋白质序列一般选择Poisson Correction(泊松修正)模型9/16/20245观察到3个位点的差异A • AC • AA • TG •GG • TG • GA • AT • TA • AACTGACGTA共12次突变AC ® ® A TGA ®® TC ®® GG ®® ATA ®® T ®® AACT ®® C ®® AGA ®® GC ®® GG ®® C ®® ATA平行突变回复突变进化树重建的方法9/16/20246pDistance-based methods 基于距离的方法–Unweightedpair group method using arithmetic average (UPGMA) 非加权分组平均法–Minimum evolution(ME)最小进化方法–Neighbor joining(NJ)邻位归并法pCharacter-based methods 基于特征的方法–Maximum parsimony(MP)最大简约法–Maximum likelihood method(ML)最大似然法p首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。
进化树的构建则是基于这个矩阵中的进化距离关系基于距离的建树法•根据距离矩阵各序列的距离,将距离最近的两个序列聚合起始于二者距离1/2的一个分支点•将这两条序列从矩阵中去除,代以此分支点重新计算距离矩阵,然后重复第一步,直到最后•当沿树上各分支突变频率相同时,UPGMA能得到较好的结果UPGMA-非加权分组平均法•ME法的理论基础是Rzhetsky和Nei的数学证明:即当适用无偏的进化距离计算时,真实拓扑结构的分支总长的预期值会达到最小•ME法列出所有可能的拓扑结构,然后挑选分支总长的拓扑结构作为最优树ME-最小进化法•该方法基于ME的原则,寻找树枝总长最短的树形,但是不对所有可能的树进行分析,而是利用启发性方法推算出符合的树形,将最接近的序列依次连接,所获得的结构通常与ME树形相差不远,但是所需要的计算时间却大为缩短•构建无根树NJ-邻位归并法从星状开始,首先连接两个相邻的序列,并筛选出分支总长最短的树,直到最后p不计算序列间的距离,而是将序列中有差异的位点作为单独的特征,并根据这些特征来建树基于特征的建树方法•解释一个过程的最好理论是所需假设数目最少的那一个对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。
•最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用•在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树MP-最大简约法•选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树•最大似然法的建树过程是个很费时的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性ML-最大似然法进化树重建方法的选择•用截然不同的距离矩阵法与简约法分析一个数据集,如果能够产生相似的系统发生树,这样的树可以认为是可靠的•用Bootstrap(自展法)检验系统发生树的可靠性•从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列•重复上面的过程,得到多组新的序列•对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性•一般Bootstrap重复取样次数要大于100,根据每个分支在不同此取样时出现的频率赋予该分支一个百分比•如果严格根据统计学概念,该百分比要大于95%采认为该分支的较为可信。
在实际应用中该值大于75%就认为可信Bootstrap-自展法A.重新取样重新取样(100-1000 time). 12345 1001 : ATCTG…A 2 : ATCTG…C3 : ACTTA…C 4 : ACCTA…T 12345 1001 : AATTT…T2 : AATTT…G3 : AACTT…T4 : AACTT…T 11244 x 12345 1001 : TTTAT…T2 : TAACC…G3 : TAACC…T4 : TGGGA…T 47789…x 12345 1001 : AGGTA…T2 : AGGAC…G3 : AAAAC…A4 : AAAGG…C 15578…xB. 每组取样重建进化树每组取样重建进化树. 12345 1001 : AATTT…T2 : AATTT…G3 : AACTT…T4 : AACTT…T 11244 x 12345 1001 : TTTAT…T2 : TAACC…G3 : TAACC…T4 : TGGGA…T 47789…x 12345 1001 : AGGTA…T2 : AGGAC…G3 : AAAAC…A4 : AAAGG…C 15578…xSp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4C. 计算各分支出现的可信度计算各分支出现的可信度Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp4Sp1Sp2Sp3Sp467%100%In 67% of the data sets, the split between SP1+SP2 and the rest of the tree was found.进化树的基本概念距离没有意义无比例:进化分枝图,仅体现树的拓扑结构与序列间的变化成正比:进化树与进化时间成正比:系统发育树•怎样确定树根?无根树:只表明序列间的差异有根树:表明序列间的差异,同时表明进化的方向•节点可以自由旋转分子进化与系统发育分析软件基因进化树的生物学意义基因进化树的生物学意义p种系发生(亿万年的变化)n对传统进化树的补充n同一物种内系统进化n低等生物(细菌、病毒等)的种系分析p物种变异(较短期内的变化)Ø病毒的准种Ø病毒分子流行病学 Influenza Virus…………病毒分子流行病学p病毒的流行状况n指导疾病的预防(HEV Genotype I、IV)n指导疾病的临床治疗(HCV)p病毒传播途径n地理路线n物种途径p监控和预测nInfluenza Virus 疫苗的选定WHO每年流感推荐疫苗pWHO在全球有6个人流感reference Lab,2个动物流感reference Lab。
p对当年流行的毒株进行序列分析(人流感/动物流感)p选定当年主要流行分支的数种根部毒株为预选疫苗p评价预选疫苗的免疫原性和免疫保护性——确定推荐疫苗株谢谢大家!对传统进化树的补充p科学家欲据基因分析重写爬行动物科学家欲据基因分析重写爬行动物进化史进化史 n距今一亿多年前蛇从蜥蜴家族中分化出来的时候,就带有毒腺系统早先科学界认为,蛇的毒腺系统是它们与蜥蜴“分家”之后进化而来而基因分析显示,蛇和鬣蜥、巨蜥等共同拥有的毒液基因 n不少看似“无毒”的蜥蜴,实际上都带有毒液基因和毒腺n爬行动物中原先被认为很原始的鬣蜥,实际上出现的时间相当晚早先科学界认为,鬣蜥是有鳞目爬行动物中最原始的一种,而蛇和巨蜥比较“现代”但基因分析显示,鬣蜥亲缘最近的却是蛇和巨蜥,它们拥有同一起源的毒液基因因此研究人员建议,将它们并为一个“有毒亚目”,而且鬣蜥在这一类爬行动物中处于较顶端的位置 同一物种内系统进化分析Y染色体分析人类起源16s rRNA用于细菌分类p其分子机构具有高度保守性,只在某些位置有少量的核苷酸序列改变,且这些改变具有种属特异性p许多细菌的16S-rRNA基因序列已测定完成p长度适中,基因在细胞内有多拷贝,易于扩增。
p可用于传统培养不能生长的菌种,生长较慢的菌种,或古化石……病毒的准种p所谓准种,即是一组自身复制的分子,它们彼此不同,但有密切相关准种的演变是从一个原始的特定病毒序列开始的,该病毒的每一轮复制均导致变异株的出现自身免疫压力和治疗药物会加快病毒变异p诊断试剂、治疗药物和疫苗需要重新审视,以跟上基因变异的步伐p鸡尾酒疗法HEV基因型对预防策略的影响p净化环境,保持水源清洁p给易感者免疫HEV疫苗p净化环境,保持水源清洁p给易感者免疫HEV疫苗p免食生肉p给猪免疫HEV疫苗,切断传染源头基因分型对HCV临床治疗的指导意义HCV基因分型及血清HCV RNA定量测定对于预测疗效及决定治疗方案有重要意义l非基因1型(2、3型)感染者用干扰素加小剂量利巴韦林800mg/d治疗24周即可获得较好的疗效l而基因1型者疗效较差(特别是病毒负荷较高者),应给予更长的疗程(48周),并需更大剂量的利巴韦林(1000~1200mg/d)Ø基因1型HCV用干扰素治疗的效果不佳HEV 动物 人欧 洲: □ ■澳 洲: □ ■美 洲: □ ■非 洲: △ ▲亚洲(除中国、日本): △ ▲日 本: △ ▲中中 国国 动物 人东北: ○ ●西北: ○ ●华北: ○ ●华中: ○ ●华东: ○ ●东南: ○ ●华南: ○ ●Genotype ⅣGenotype ⅠGenotype ⅢGenotype Ⅱ2006年春季AIV的全球传播中国南部鄱阳湖青海湖(斑头雁)俄罗斯东、南欧西欧非洲H3N8 Influenza Virus从马到狗的传播p2004年Florida赛狗场的狗爆发流感p经鉴定为H3N8,与马流感高度同源pHA的突变可能适应在狗中传播p狗H3N8较大的地理范围和数年的持续表明马流感以成功的传播到狗。
