
系统发育树.pdf
54页Fujian Agriculture and Forestry University 系统发育分析 Phylogenetic Analysis 2014.01.15 RAINDYOK@.COM 生物信息学 目录 什么是系统发育?1 1 为什么做系统发育分析?2 2 如何进行系统发育分析?3 3 CONTENTS (四种常见的建树方法) 什么是系统发育? 系统发育(Phylogeny),也叫系统发生,是指任何实体 (基因、个体、种群、物种等)的起源和演化关系 将进化论的原理拓展到核苷酸水平和蛋白质序列水平,通 过多重序列比对,研究一组相关的基因或蛋白质,推断和评估 不同基因间的进化关系 系统发育的定义 多重序列比对 重建系统发育树 (最大似然法) 建树方法 邻接法(Neighbor-Joining, NJ) 最大似然法(Maximum Likehood, ML) 最大简约法(Maximum Parsimony, MP) 贝叶斯法( Bayesian inference, BI) 信息位点: 在两个及以上分类单元(序列)中存在差异,且其中至少有两种变异 类型在该位点出现两次及以上 序列位点及性状 Pos123456789 Seq1AAGAGTGCA seq2AGCCGTGCG seq3AGATATCCA seq4AGAGATCCG 3个 ≥2 特点: NJ 法是基于最小进化原理(序列同源性)一种算法,构建的树相对准确, 假设少,计算速度快 ,只得一颗树。
缺点: 序列上的所有位点等同对待,且所分析的序列的进化距离不能太大 适用: 进化距离不大,信息位点少的短序列 邻接法(Neighbor-Joining, NJ) 123 原理: 将每个位点所有可能出现的残基替换概率进行累加,产生特定位点的似 然值,对所有可能的系统发育树都计算似然函数,似然函数值最大的那颗树 即最可能的系统发育树 优点: 在进化模型确定的情况下,ML法是与进化事实吻合最好的建树算法 缺点: 计算强度非常大,极为耗时 最大似然法(Maximum Likehood, ML) 特点: 基于进化过程中碱基替代数目最少这一假说 缺点: 推测的树不是唯一的,变异大的序列可能会导致建树错误 适用: 序列残基差别小,具有近似变异率,包含信息位点比较多的长序列 最大简约法(Maximum Parsimony, MP) 12 34 特点: 基于进化模型的统计推论法,具有完整而坚实的数学和统计学基础,可以处理 复杂而接近实际情况的进化模型,可以将现有的系统发育知识整合或体现在先验概 率中,通过后验概率直观反映出各分支的可靠性而不需要通过自举法检验 缺点: 对进化模型比较敏感,BI法中指定的每个氨基酸的后验概率建立在许多假说条 件下,在现实中可能不成立。
适用: 大或复杂的数据集 贝叶斯法( Bayesian inference, BI) 为什么做系统发育分析? 病原鉴定、物种分类的辅助工具 Neighbor-joining tree showing expansions of ABC transporter genes 怎么进行系统发育分析? 如何规范进行系统发育树的重建? 避免犯一些常识性的错误 严谨的科学方法 严肃的科学结论 (Virology Journal, IF=2.09) 关键词:马铃薯 Y 病毒;ELISA;外壳蛋白基因;分子变异;贝叶斯法 原因:NJ法和序列同源性密切相关 遗传距离计算 不适合 NJ 平均距离1 0MAFFTClustalWT-Coffee 准确性:MAFFTMuscleT-CoffeeClustalW Karen M. Wong et al., Science (2008) ClustalW(Codons) in MEGA 序列保守区的选择 Gblock 0.91b 2nd 提交:http://www.phylogeny.fr/version2_cgi/one_task.cgi?task_type=gblocks 饱和度检测 3rd (建树的前提) • PAUP 软件验证替换饱和; • DAMBE 软件验证替换饱和; • PAUP 软件验证替换饱和: 在PAUP中分别计算p距离和GTR+I+G距离,然后在Excel中做散点图。
如果散点分布在y=x直线上,就说明没达到饱和,如图; • DAMBE 软件验证替换饱和: 若ISS小于ISS.c 且p=0.0000,极其显著?就说明没序列替换未饱和,可以建树 转换/颠换比率(Ts/Tv ratio)2 未饱和 系统发育树重建及评估4 th MP NJ ML/BI MEGA5主界面 MP 法重建系统发育树 0 0.193 1 NJ 法重建系统发育树 核苷酸替代模型的选择 MrMTGui ( PAUP + ModelTest / MrModelTest) Jmodeltest ML、BI 法重建系统发育树 最后出现两个运行结果,一个是hLRT得出的结果,另一个是AIC给出的结果 模型参数(for PAUP) ML 法重建系统发育树及评估 模型参数(for PAUP) PAUP的DOS命令控制台 依次输入命令: set criterion=likelihood bootstrap nreps=1000 keepall=yes brlens=yes describetrees 1/plot=both brlens=yes savetrees from=1 to=1000 将 模型参数(蓝色)及运行脚本(黑色) 添加 *nex 文件尾部 Begin mrbayes; outgroup seqname; lset nst=6 rates=gamma; Prset statefreqpr=dirichlet(1,1,1,1); mcm ngen=2000000 printfreq=1000 samplefreq=100 nchains=4 savebrlens=yes; sumt contype=allcompat burnin=5000; end; 模型参数(for MrBayes) BI 法重建系统发育树 MrBayes 主界面 exe test.nex 在运行1000代后都会显示 “Average standard deviation of split frequencies” 当这个值 0.01 时,说明两次运行的结果差异很少,Convergence 已经达到; 系统发育树查看与美化5 th Figtree Treeview (科学出版社,2012)(科学出版社,2010) 延伸阅读:Yang Z, Rannala B. Molecular phylogenetics: principles and practice. Nature Reviews. Genetics 2012, 13: 308-314. 《系统发育分析》 E-mail: raindy@ Net disk: 。












