
系统进化树的构建方法与软件应用ppt课件.ppt
36页单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,,,,,,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,*,,*,系统进化树的构建方法与软件应用,姓名:张镜悬,,E-mail,:,J.,1,,什么是系统进化树,系统进化树又称为演化树,是表明被认为具有共同祖先的各物种间演化关系的树,.,在树中每个节点代表其各个分支的最近共同祖先,而节点的线段长度对应了其演化的距离。
),,2,,直系同源和旁系同源,直系同源:同源的基因是由共同的祖先基因进化而产生的旁系同源:同源的基因是由于基因复制产生的这也就告诉我们用于分子进化分析中的序列必须是直系同源的才可以真实的反映其进化的过程3,,系统进化树的分类,根据树是否有根,进化树可以分为有根树和无根树两类4,,有根树和无根树的进化层面上的意义,有根树反应了树上物种或者基因进化的时间顺序,,,通过分析有根树的长度,可以了解不同的物种或者基因以什么方式和速率进化无根树只反映分类单元之间的距离,,,而不涉及谁是谁的祖先问题,,,做有根树需要指定,outgroup,所谓,out group,, 就是你所分析的东西之外的一个,group,比如你分析人类的不同人种,就选个,chimpanzee,,你要分析哺乳动物,就选个鳄鱼乌龟之类,总之保证它在 你要分析的,group,之外,但又不太远就行了将你选定的东西指定为,outgroup,,做出来的树就是有根树out group,可以不只一个,它是一个,group,5,,系统进化树的结构,node,branch,进化树的结构主要分为三部分:,,,树叶,,树枝,,节点,,其中我们把从同一个节点上分出的两个分支叫做,sister group.,,Sister group,从结构上可以理解为从进化史上看两者非常接近,其次两者拥有唯一的共同的祖先。
6,,系统进化树的结构,c,d,b,,a,,d,c,b,,a,,d,b,,c,a,,从结构上看,我们认为这三个树是等价的,7,,构建系统进化树的理论方法,最大简约法,(maximum parsimony,,,MP),最早源于形态性状研究,现在已经推广到分子序列的进化分析中最大简约法的理论基础是奥卡姆哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树优点,:最大,简约法对于分析某些特殊的分子数据如插入、缺失等序列有用,在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树缺点:在,分析序列上存在较多 的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果8,,构建系统进化树的理论方法,最大似然法,(maximum likelihood,ML),,,最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法当样本量很大的时候,似然法可以获得参数统计的最小方差。
最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构 作为最优树最大似然进化模型,,简单假设所有核苷酸(或者氨基酸)之间相互转变的概率是一样的,,程序会把所有可能的核苷酸轮流置于进化树的内部节点上,并且计算每个这样的序列产生实际数据的可能性所有可能再现的几率被加总,产生一个特定点的似然值,然后这个数据集的所有比对位点的似然值的加和就是整个进化树的似然值9,,构建系统进化树的理论方法,,,邻近法(,Neighbor-Joining Method,,,NJ,),,,该方法通过确定距离最近,(,或相邻,),的成对分类单位来使系统树的总距离达到最小相邻是指两个分类单位在某一无根分叉树中仅通过一个节点,(node),相连通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树10,,构建系统进化树的所涉及的工具,PHYLIP,,MEGA,,R,,Matlab,,BioEdit,,TreeView,,PHYML,,ClustalX,11,,构建系统进化树的所涉及的工具,PHYLIP,由美国华盛顿大学,Felsenstein,开发,可以免费下载,适用于绝大多数操作系统,PAUP,由美国,simthsonion institute,开发,仅适用于,Apple-Macintosh,和,UNIX,操作系统,MEGA,美国宾夕法尼亚州立大学,MasatoshiNei,开发的分子进化遗传学软件,图形化,集成的进行分析工具,不包括,ML,MOLPHY,日本国立统计数理研究所开发,最大似然法构树,PAML,英国,University college London,开发,最大似然法构树和分子进化模型,12,,构建系统进化树的所涉及的工具,PUZZLE,应用,quarter puzzling,方法(一种最大简约法)构建系统树,TreeView,英国,University of Glasgow,开发,进化树显示工具,Phylogeny,欧洲生物信息研究所(,EBI,)的系统发育分析软件,PHYML,快速的ML建树工具,MrBayes,基于贝叶斯方法的建树工具,MAC5,基于贝叶斯方法的建树工具,13,,构建NJ树,可以用,PHYLIP,或者,MEGA,,,构建,MP,树,可以使用,PHYLIP,或者,MEGA,,,构建,ML,树可以使用,PHYML,,速度快,同时构建,ML,树还可以用,PHYLIP,,或者可以使用,BioEdit,,,贝叶斯的算法以,MrBayes,为代表,不过速度比较慢,,,关于系统发育分析的更多知识请参阅:,,软件的选择,14,,构建系统进化树的主要步骤,大体来说构建系统进化树的步骤有三步:,,序列比对,(ClustalX2),,15,,构建系统进化树的主要步骤,2.,掐头去尾 选取所需序列 转换格式(,BioEdit or ClustalX2,),,Example,:,3.,利用相关软件绘制系统进化树(,BioEdit,,,MEGA,),,16,,实例讲解,下面的内容将教大家如何来构建自己的系统进化树。
首先我们需要弄清楚一个很重要的问题,什么是,Fasta,格式,?,在生物信息学中,,FASTA,格式(又称为,Pearson,格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释序列文件的第一行是由大于号,“>”,或分号,“;”,打头的任意文字说明(习惯常用,“>”,作为起始),用于序列标记从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号17,,,构建我们自己的,Fasta,文件,很多情况下,,Fasta,文件是直接可以从数据库中下载得到的,但是根据实际要求的不同,有时候我们需要自己构建,Fasta,文件,如果您已近有了想用来构建进化树的序列,您可以如右图所示构建自己的文件,文件的保存格式是: 文件名,.txt,18,,实例讲解,下面我们以禽流感病毒为例,构建系统进化树首先我们要下载我们所需的序列19,,实例讲解,请在,Define search set:,中选择我们想要的禽流感病毒的,Type, Host, Country/Region, Subtype.,这里我们选在了,A,型禽流感病毒,当然在这次练习中您喜欢的任意类型。
20,,实例讲解,请在,Define search set:,中选择我们想要的禽流感病毒的,Type, Host, Country/Region, Subtype.,这里我们选在了,A,型禽流感病毒,当然在这次练习中您喜欢的任意类型当您确定之后请点击,Show results,21,,实例讲解,当您点击完,Show results,之后你要做的就是选在我们所需的序列了,22,,实例讲解,因为禽流感病毒不像别的很多别的病毒只有核苷酸序列,它拥有八个或者七个,Negative -sense RNA,23,,实例讲解,这里我们只要选中其中一种就可以了,比如说HA,我们可以选择20个样本来构建系统进化树样本选择完之后请点击,Download,, 文件类型选择,Nucleotide (Fasta),,并把文件保存在计算机您熟悉的地方当然根据需求的不同您也可以选在蛋白序列),,,24,,实例讲解,文件下载完之后,下载的,Fasta,文件直接用,ClustalX 2.0.12,打开,25,,实例讲解,在进行多序列比对之前我们需要对软件进行一些设置,1.,选择,Alignment,标签,,2.,选择,Output format options,请将,Clustalw sequences numbers,选项设置为,On,,之后点击,Ok,,在返回主界面之后请点击,Alignment,标签选择,Do Complete Alignment,选项,选择保存路径之后点击,ok,,剩下的时间可以去喝点咖啡休息一下。
26,,实例讲解,从图中我们可以发现起始序列最短的是从位置,22,开始的,而尾端序列最短的是在位置,1738,,通过设置我们可以保存这样一批已经经过掐头去尾后的序列,,,保存格式为:文件名,.aln,当然我们也可以直接保存为,Fasta format,,如果选择前者我们需要用,BioEdit,转换格式,如果是后者我们可以直接进入建树阶段点击主界面中的,File,标签选择,Save as,选项,并按照例子设置参数,27,,实例讲解,经过,ClustalX2,掐头去尾后的序列可以用,BioEdit,软件打开,选择,File,Save as,保存类型为,:,文件名,.fasta.,当我们查询结果的时候可以发现这和用,ClustalX2,保存的,fasta,文件是一致的28,,实例讲解,下一步我们将介绍如何用,MEGA,构建我们的进化树,首先请大家用,MEGA,软件将我们之前保留的,Fasta,文件打开,29,,实例讲解,下一步我们将介绍如何用,MEGA,构建我们的进化树,首先请大家用,MEGA,软件将我们之前保留的,Fasta,文件打开这时候会有两个窗口,,选择,File,标签,-->Convert to Mega.,30,,实例讲解,选择,File,标签,-->Convert to Mega.,当给出相应的文件路径之后点击,ok ,,然后制定输出文件格式:文件名,.meg,31,,实例讲解,双击刚才保存的,meg,文件,.,选择数据类型,在本次测试中我们用的是核苷酸序列,对于右边的参数信息请点击,help,按钮。
更具实际的情况我们这里选择,No,选项,32,,实例讲解,下一步进入建树的最后阶段,在,Plylogeny,中选择建树方法,这里我们选择,NJ,法参数设置好之后点击,compute.,蛋白质序列一般选择,Poisson Correction,(泊松校正),,,对于核苷酸序列一般采用,Kimura-2,模型,33,,实例讲解,根据,Mega,的计算最终我们得到了序列中的进化关系Mega,软件还可以自动提供一份简要的分析报告,你只需要点击,Caption,按钮报告便可以自动生成,如果,Bootstrap Value >70,我们认为这个分支是可靠的,,34,,进化树评估优化方法简介:常用的两种方法就是,Bootstrap,和,Jackknife, 所谓,Bootstraping,法 就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列这样,一个序列就可以变成了许多序列,一个多序列组也就可以变 成许多个多序列组根据某种算法(最大简约性法、最大可能性法、邻位相连法)每个多序列组都可以生成一个进化树将生成的许多进化树进行比 较,按照多数规则(,majority-rule,)我们就会得到一个最“逼真”的进化树。
其数值反应了该树枝的可信的百分比 所谓,Jackknife,则是另外一种随机选取序列的方法它与,Bootstrap,法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列,Double Check,,,通常情况下当我们用建树的一种方法获得了树图之后,我们建议大家可以通过另外的方法建树,如果先后的两个树图大体一致,我们认为之前构建的树是相对可靠的实例讲解,35,,Thanks,36,,。
