
六生物信息学和进化的研究方法.doc
9页生物信息学和进化的研究方法蛋白质序列清楚地反映出生物的进化关系Jane Goodall和一•只黑猩猩互动提示人类与黑猩 猩亲缘关系近血红蛋白的氨基酸序列也证明人类与黑猩猩的亲缘关系在血红蛋白153 个氛基酸残基中,人血红蛋白(红色)与黑猩猩血红蛋白(蓝色)只有一个氨基酸残基不同[左边,Kennan Ward/Corbis.J如同人类家族的成员一样,分子家族的成员有一些共同的特征比较蛋白质的三维结构 (即与蛋白功能关系最密切的参数),我们很容易鉴定蛋白家族成员我们在蛋白质折叠章 节介绍过的牛核酸酶,其三维结构与人核酸酶的三维结构颇为类似(图6.1)虽然这种类似 性在意料之中(因为这两个蛋白质的功能是-•样的),但是有些情况下这种比较却获得了我们 意料之外的结果例如血管生成素(angiogenin)是能够刺激血管生成的蛋白质但是血管生 成素的三维结构与核酸酶三维结构非常相似,说明血管生成素和核酸酶属于同一蛋白家族 (图6.2)因此它们肯定来自同一祖先分子图6.1牛和人核酸酶结构功能类似性的蛋白质常常具有结构类似[Drawn from 8RAT.pdb. and 2RNF.pdb]图6.2血管生成素的结构。
该蛋白质能促进血管生长,具有与核酸酶非常相似的三维结构遗憾的是,知道三维结构的蛋白质数量有限我们知道很多蛋白质的编码基因序列或氨 基酸序列(得益于DNA克隆和DNA序列测定)在蛋白质氨基酸序列水平就能观测到蛋白 质的进化关系例如牛核糖核酸酶和血管生成素的氨基酸序列有35%的氨基酸残基是一致 的那么这种相似性水平是否足以保证蛋白质的进化关系?如果不够,需要多高的相似性才 能说明蛋白质有进化关系?本章介绍氨基酸序列比较的方法和推测蛋白质进化美联的方法序列比较已经成为现代生物化学研究的最有力工具之一最新鉴定的新序列与数据库比 较,确定与该序列相关的分子利用这些信息,能够研究具有这种新近测序分子功能和机制 如果三维结构也清楚,我们能比较三维结构、证实序列比较的结论,还能揭示那些序列比较 没有发现的成员考察现有蛋白序列的脚印,生化学家成了分子考古学家,能了解分子进化史所发生的事 件序列比较能够确定进化途径、估计特定进化事件发生的时间利用这些信息能够构建特 定蛋白质或核酸从古生菌和细的到真核生物(包括人类)的进化树也可以用实验方法研究 分子进化有些化石的DNA分子也可以进行PCR扩增和测序,直接观察古代的分子序列。
此外科研人员也川以进行一些核酸复制实验观察实验室的分子进化.这些研究的结果能揭示 更多的分子进化机制6.1同源物来自同--祖先生物化学进化的研究主要是确定蛋白质、其它生物分子、以及生物化学途径如何随着时 间发生的变化来自同一祖先的两个物体就是同源关系同源(homologus)分子或同源物 (homologs)可以分为两类(图6.3)侧向同源物(paralogs)指同种生物的同源物直向同源 物(orthologs)指不同物种间具有非常相似甚至―-致功能的同源物了解分子间的同源性能够 揭示分子的进化历史和它们的生物功能如果新近测序的蛋白质与功能已知蛋白具有同源 性,那么这个新近测序的蛋白质也可能具有这样的生物功能如何确定人类两种蛋白质具有侧向同源?如何确定人类蛋白和酵母蛋白具有直向同 源?我们在6.2节要介绍这方面的内容核酸序列或氨基酸序列之间有显著的类似性常常表明这些物质之间有同源性当然,三维结构比较更能揭示生物分子的同源性图6.3两类同源蛋白不同生物体内执行类似甚至相同功能蛋白质属于垂直同源物 (ortholog)o而同一物种内执行不同功能的相似蛋白叫侧向同源蛋白(paralog)o6.2序列比对的统计分析检测同源性(homology)两个分子之间有显著的序列类似性提示这两个分子可能有共同的进化祖先,因此有同样 的三维结构、生物功能和作用机制。
虽然核酸序列和蛋白质序列都可用来进行序列比对,但 是蛋I【质氛基酸序列比对更好最显著的原因是构建蛋白质的单体有20利而构建核酸的 单体只有4种为了解释蛋白质比较的方法,我们先考察球蛋白肌红蛋白是肌肉组织的敏结合蛋白, 而血红蛋白是血液的载氧蛋白(第7章)这两种蛋白质都有血红素辅基(一种有铁的有机 分子,能结合氧)人血红蛋白有4个多肽链,符个多肽链结合一个血红素辅基这四个多 肽链分别是两个完全一样的??链和两个完全一致的??链此处我们仅考察??链研究人血红 蛋白??链的氨基酸序列与人肌红蛋白氨基酸序列之间的类似性(图6.4)为了确定这两个序 列之间的类似性,建立了序列比对方法图6.4人血红蛋白??链和人肌球蛋白进行序列比对链血红蛋白有141个氨基酸,肌红蛋 白有153个氨基酸如何比对两个序列?最简单的方法是将一个蛋白质的氨基酸序列与另一•个蛋白质的氨 基酸序列进行所有可能的比对,记录各种比对所获得的一致残基的数目这种比对不难,只 需每次将一个序列沿着另一个序列滑行一位,计算匹配氨基酸残基的数量(图6.5)图6.5人血红蛋白??链和人肌球蛋白进行序列比对o (A) 一条序列沿另一条序列滑行,进 行序列比对(每次滑行一个敏基酸位点),统计两条多肽链中敏基酸一致的位点数量。
B)匹 配数量最多的比对模式(上),将一•致氨基酸位点数量(纵轴)与滑行位点(横轴)作图(下)链和肌红蛋白最佳比对只有23个位点是一•致的,分散在多肽链中央区域但是,相 近的比对有22个一致位点,而且这些位点集中于蛋白质的N-端如果在比对过程中引入缺 口,就能将上述两种比对的大多数一•致位点都囊括进来(图6.6)0在比对过程中需要添加这 种缺口以补偿基因进化过程中出现的插入或缺失图6.6添加缺口的比对人血红蛋白??链和肌红蛋白在加入缺口后的序列比对但是用缺口的办法增加了序列比对的复杂性,因为序列比对时所选择的缺口大小有人为 因素现在已建立了计算机自动进行序列比对时添加缺口的方案这种方法采用打分系统评 估各种比对方案,利用缺口惩罚来排除序列比对时出现的不合理缺口例如一致位点加10 分,一个缺口(无论缺口大小)扣25分图6.6的比对方案得355分(38个一致位点和一个 缺口,38xl0.lx 25 = 355)这样,这两个蛋白质之间氨基酸一•致性就达到25.9% (两 个蛋白质平均长度是147氨基酸残基,有38个一致位点)下而的问题是,这样的一致性是 否属于明显类似? 用重排的方法估计比对的统计学意义图6.5展示的序列类似性似乎是显著的,但是不能排除偶然出现了这些一•致性的可-能。
如何评估这些偶然性?采用的策略是将某-•蛋白质的氨基酸序列进行随机重排(shutfling), 然后将重排所得蛋白序列与目标序列比对(图6.7)重复这一过程,构建出各种重排蛋白的 得分采用这种策略,肌红蛋白和血红蛋白??链之间权威比对就凸现出来(图6.8)o权威比对 的数值远高于随机重排蛋白的平均值随机重排1020次,才出现一次这种比对值因此我 们可以轻松地认为这两个序列确实是类似的最简单的解释是这两种蛋白序列来自同一祖 先,属于同源物图6.7重排产生的一个新序列图6.8比对计分的统计比较计算重排序列比对的计分值,产生该计分值出现的次数用出 现次数对比对计分值作图该图表示随机重排序列比对的积分分布链和肌红蛋白序列比 对计分(红色)远远高于随机重排的计分,强烈提示这两个蛋白序列相似性明显采用替代矩阵确定进化关系上述打分方案只关心一致位点和缺口,没有考虑那些不一致的位点但是,并不是所有 不一致位点(即替代位点)都是等效的有些替代是保守替代,即用性质和结构相似的宴基 酸进行的替代保守替代对蛋IT质功能影响最小有些替代用性质和结构完全不同的氨基酸 进行替代此外,有些替代只需更换一个核昔酸,有些替代要更换两个或三个核昔酸。
保守 替代或单核昔酸替代发生频率比非保守性替代的频率高那么,当我们进行序列比对时,如 何评价不同的替代?要解决这个问题,首先要考察有进化关系的蛋白质分子中已经存在的氨 基酸替代基于序列适当比对的数据,人们提出了替代矩阵在该矩阵中,那些发生频率高的替代, 得分高;那些发生频率非常少的替代,失分就多图6.9是Blosum-62替代矩阵从该表可 以看出半胱氛酸和色氨酸比丝熨酸和内氨酸保守得多而且结构上保守的替代,如赖氨酸替 代精氨酸、异亮氨酸替代颉氨酸,得分就比较高在进行两个序列比对时,要给每个替代打 分对缺口的打分也细化了一个氨基酸残基缺口扣12分,在此基础上缺口每增加一•个残 基加扣2分采用这种打分方式,图6.6比对就能够获得115分大多数替代是保守替代(得 分是正值),极少数替代是稀有替代(得分是负值)(图6.10)图6.9 Blosum-62替代矩阵考察同源蛋白各种替代发生的机会,制定该打分方案氨基酸 归为四类:带电氨基酸(红色);极性氛基酸(绿色);大的非极性敏基酸(蓝色);其它氨 基酸(黑色)只需要改变一个核甘酸的替代用阴影标出当你寻找一种替代应该给出的打 分时,你在顶部寻找原来的氨基酸(在每列的顶部),然后向下寻找替代氨基酸,从表格左 边查找相应的得分。
图6.10考虑保守替代的序列比对链和肌红蛋白序列比对,保守替代用黄色涂出,相同 敏基酸用桔子颜色涂出(在框内)这种打分系统在比对那些序列缺乏明显相关性的蛋白质方面,其灵敏度比仅仅依靠一致 性位点打分系统高例如豆血红蛋白(leghemoglobin)是一些植物根部的氧结合蛋白,其氨基 酸序列与人血红蛋白氨基酸序列进行比对重复重排和打分的分布值见图6.11o基于一•致性 进行的打分,用重排打分评价是20次重排就有一•次机会产生的得分与一•致性打分系统得分 相同,因此是一种偶然性类似相反用替代矩阵打分系统打分,用重排打分评价是300次才 有一次机会得分与替代矩阵打分系统相同的得分因此用矩阵打分系统得出的蛋「I进化关联 性结论更可靠(图6.12)基于序列分析的经验得到了一些简单的评估原则对于长度超过100氨基酸的两个蛋白 质,序列—•致性超过25%就不可能是偶然的,很可能是同源物相反,序列-•致性低于15% 的两个蛋白质仅仅依靠匹配比较显示的类似性没有显著的统计意义而序列一致性在15% ~ 25%之间的蛋白质,需要进一步分析以确定比对的统计意义必须指出,序列相似性在统计 上不明显的蛋白质也有可能是同源物。
从同一祖先进化而来的很多蛋白质差异化程度高至序 列比对无法看出它们的同源性这类同源蛋白的三维结构相似图6.11 一致性比对和Blosum 62矩阵比对重复重排打分对豆血红蛋白和人肌红蛋白序列 比对进行评估,简单一致性比对(A)和Blosum 62矩阵打分比对(B)红色显示真正序列的比 对,说明Blosum矩阵打分的统计意义明显图6.12人肌红蛋白和豆血红蛋白进行的序列比对(采用Blosum 62替代矩阵打分系统)保 守替代用黄色涂出,相同氛基酸加框,用桔子颜色涂出搜寻数据库、确定同源序列确定一个蛋白序列后,首先要做的事情就是将这个蛋白质的氨基酸序列与所有已经鉴定 的蛋白序列比较,从而了解这种蛋白质的进化、结构与功能就是采用前面介绍的比对方案 将这个蛋白质的氨基酸序列与序列已知蛋白数据库的所有成员进行比对最常用的同源序列搜寻可以在国立生物技术信息中心网站(www.ncbi.nih.gov)完成所用 的方法是BLAST搜寻(基本局部比对搜寻工具,basic local alignment search tool)氛基酸 序列可以打印或粘贴到网站上,进行搜寻最常用的是进行所有已知序列非冗余数据库搜寻。
截至2004年,该数据库有300多万序列BLAST搜寻产生一个序列比对表,每。
