好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

BLOSUM矩阵及其在生物信息学中及应用.doc

11页
  • 卖家[上传人]:豆浆
  • 文档编号:19081032
  • 上传时间:2017-11-18
  • 文档格式:DOC
  • 文档大小:110KB
  • / 11 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • [生工 0902]BLOSUM 矩阵及其在生物信息学中的应用生物信息学齐阳,汪锴,袁理2011/11/25什么是 BLOSUM 矩阵?BLOSUM 矩阵有什么应用?BLOSUM 矩阵及其在生物信息学中的应用齐阳 汪锴 袁理摘要 BLOSUM 矩阵是一种蛋白质序列对比的算法,在生物信息学领域中被广泛应用本文综述了 BLOSUM 矩阵的由来、如何构建 BLOSUM 矩阵和其打分规则、应用以及现代算法并指出了 BLOSUM 矩阵的发展前景关键词 BLOSUM 矩阵;生物信息学;应用0 引言序列比对是现代生物学最基本的研究方法之一, 最常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的 Dayhoff 矩阵只能用来进行相似度 85%以上的序列对比 「1」 ,为了满足大量生命科学研究的需求,1992 年 Henikoff 夫妇从蛋白质模块数据库 BLOCKS 中找出一组替代矩阵,即 BLOSUM 系列,很好的解决了序列的远距离相关的问题,此后十几年来 BLOSUM 及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法。

      1 BLOSUM 矩阵概况序列比对是现代生物学最基本的研究方法之一,常见的比对是蛋白质序列之间或核酸序列之间的两两比对,通过比较两个序列之间的相似区域和保守性位点,寻找二者可能的分子进化关系,进而可以有效地分析和预测一些新发现基因的功能在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,这两个方面都可能意味着突变 「2」 在序列比对中,需要找到最优的比对即将匹配的数量最大化,将空格和不匹配的数量最小化为了确定最优的比对,必须为每个比对进行评估和打分,于是引入了打分函数 「3」 当根据打分函数假定两序列同源时,可以发现某些替换比其它替换要常见的多,比较保守的替换比起较随机替换更能维持蛋白质的功能,而且不容易被淘汰因此,在为比对打分时,更倾向为保守基团如丙氨酸、缬氨酸等比对位点多谢奖励,而对于那些大而带点氨基酸如赖氨酸的比对位点则相反一旦和概算或氨基酸残基可能的两两比对得分都确定了,那么得到的打分矩阵就可以用来为比对中每个非空位位点进行评分为了获得打分矩阵,最常用的方法是统计自然界中各种氨基酸残基的相互替换率 「3」 。

      目前各种蛋白质序列对比算法主要利用一种替代矩阵来计算序列间的相似性,过去所普遍使用的 Dayhoff 矩阵只能用来进行相似度 85%以上的序列对比 「1 」 ,为了满足大量生命科学研究的需求,1992 年 Henikoff 夫妇从蛋白质模块数据库 BLOCKS(Box 1. BLOCKS 基本概念)中找出一组替代矩阵,即BLOSUM 系列,很好的解决了序列的远距离相关的问题,此后十几年来BLOSUM 及其衍生替代矩阵已经成为蛋白质多序列对比的常用方法2 BLOSUM 矩阵的构建2.1 多序列比对定义:一个多序列比对A 是一个二维字符矩阵,即A={ }(n∈[1,N],niai∈[1,I]),其中 = 或‘-’,iis并且满足下面三个条件:(1)序列的数目等于矩阵的行数;(2)如果移去每行中的‘-’字符,将得到原来的序列;(3)将不同序列间相同或相似的残基放入同一列,即尽可能将序列间相同或相似残基上下对齐 「5」 从上面的定义可以看出,一个比对实际上是DNA 或蛋白质经过一系列突变事件(替代、插入、删除)的最后结果,它最近似地表示了所有的进化过程其中删除和插入没有区别,经过适当地插入删除(用insert,delete 表示),可以使相同地保守残基位于同一列上,并使所有的结果序列具有相同的长度。

      例如:VTISCTGSSSNIGAG-NHVKWYLPGVTISCTGTSSNIGS--ITVNWTLPGLRLSCSSSGFIFSS--YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG—2.2 BLOSUM打分规则 「6」BLOSUM中得分主要采用Log-odds得分,即同源与非同源的可能性的比率的对数在BLOSUM 中两个残基 i与j的得分s(a, b)按照log-odds方程计算,方程如下:-----------------------------------------------1(,)logabpsaf(1)其中, 是指假定残基对a与b是同源的, 在已有同源序列比对中出现的目p标频率: 是指假定残基a与b是非同源的与独立的 , 残基a与b出现在任何一,f个蛋白质氨基酸序列中的平均背景频率: 是尺度参数,每个得分四舍五人取整.如果残基对a 与b是同源的, 则它们出现在同源序列比对中目标频率 >abp,s(a,b)<0.f如果残基对a与b 是非同源的, 则它们出现在同源序列比对中目标频率

      可以根据序列的长度以及序列间的先验相似程度来选用特定的BLOSUM矩阵,低价BLOSUM 矩阵更多是用来比较比较亲缘较远的序列,一般来说,BLOSUM-62矩阵适于用来比较大约具有 62%相似度的序列,而 BLOSUM-80矩阵更适合于相似度为80%左右的序列 「3」 运用上述计算方法,就可得到BLOSUM62,见Table 1. Blosum62替代矩阵3 BLOSUM 矩阵的应用基于进化原理的氨基酸保守性打分矩阵BLOSUM,原本是用于两条多肽链比对时使用的,其起源于相同的氨基酸模式之间氨基酸的保守性,即某种氨基酸对另一种氨基酸的取代数据,广泛用于蛋白质数据库的搜索最近BLOSUM 被成功用于表面抗原分析、T 细胞抗原决定簇预测 「7」 、氨基酸定点突变后蛋白质的稳定性等多种重要科学研究中,对于常用的数据集经过严格的交叉验证,人们已经发现BLOSUM 矩阵明显优于目前通常采用的理化特性打分方法和单位打分方法 「8」 随着后基因组时代的到来,适与远亲分析的BLOSUM一定可以有更大的用武之地,以解决生命科学中的诸多难题3.1 表面抗原分析为分析 HBV 的表面抗原,对两个病人人群进行跟踪研究:一组是 52 位患病 1 年以上的慢性 HBV 感染携带者,另一组是 129 位新诊断的患者。

      获得这180 名患者乙肝表面抗原的 DNA 序列然后与来自于基因库的 168 个全长 HBV 序列比较序列一致性乙肝病毒表面抗原亲水区域的多态性用突变大师软件来分析参考文献和 BLOSUM 打分 「9」 被用来分析潜在改变的抗原性3.2 T 细胞抗原决定簇预测为进一步预测 T 细胞抗原决定簇的结构, Huang L 和 Dai Y 做了进一步研究,将 BLOSUM 矩阵 「10 」 和氨基酸指标向量结合,在 BLOSUM 矩阵中代替了氨基酸指标向量的每一个非零项,使相应的值出现在对角线项,这种方法可以把氨基酸的位置和相似度用 BLOSUM 打分 「9」 的形式简单表现出来3.3 磷酸化位点的预测磷酸化作用在多种真核细胞中具有重要的作用,例如有丝分裂、新陈代谢「1」 以及信号传导 「10 」 等蛋白激酶在蛋白底物中催化特定的受体氨基酸,每一种激酶只催化它特定的底物子集蛋白激酶的失活会导致疾病,因此了解特定蛋白激酶的磷酸化作用机制有重要意义而利用实验手段或质谱分析 「11」 、缩氨酸微阵列 「12」 和特定磷蛋白质水解 「13」 等方法分析磷酸化蛋白质组都有很多缺陷,但有一种方法在磷酸化位点预测上有明显优势-----基于 k 邻近的蛋白激酶特异性预测方法 「14」 ,此方法可以对不同激酶家族的磷酸化作用位点进行标注。

      由 BLOSUM62 打分矩阵得到的相似度函数作为系统的输入向量3.4 蛋白质定点突变稳定性预测准确率定点突变技术的潜在应用领域很广, 比如研究蛋白质相互作用位点的结构特性、酶学和酶工程中改造酶的不同活性或动力学特性、改造启动子或DNA 相互作用元件、研究蛋白质晶体结构, 以及药物研发、提高蛋白抗原性或稳定性和活性等何种程度的变异会影响野生型蛋白的稳定性, 以及突变后该蛋白质稳定性的改变, 是设计蛋白质或对蛋白质进行点突变分析时的关键但是实验测定的精确方法需要昂贵的设备和较长的实验时间,因此现在多使用生物信息学的方法有人使用BLOSUM62 预测氨基酸定点突变后蛋白质的稳定性,并对常用的数据集经过严格的交叉验证发现其明显优于目前通常采用的理化特性打分方法和单位打分法 「8」 4 BLOSUM 矩阵的挑战与发展4.1 BLOSUM矩阵与PAM 矩阵的比较(1)用于产生矩阵的蛋白质家族及多肽链数目,BLOSUM比PAM大约多20倍2)低价 PAM矩阵适合用来比较亲缘较近的序列,而低价BLOSUM矩阵更多是用来比较亲缘较远的序列3)在 BLOSUM中,通过统计聚类技术来对相关蛋白质的无空位比对进行分类,并且计算类间的替换率。

      当观察某对氨基酸得到的替换率很低时就会带来一些统计问题,而BLOSUM的方法正好能够避免此类问题4.2 基于 BLOSUM矩阵的一些现代算法由于BLOSUM 打分矩阵的上述优点,已被各种现代算法所利用,发挥不同领域的作用于功能下面将介绍几种使用BLOSUM 打分矩阵最多的算法,对它们的优缺点进行简单阐述4.2.1 动态规划算法其指导思想就是在多级过程的每一级上列出各种可行的局部解该方法由Needle-man 和Wunsch 于1970 年提出,最初用于求两个序列的最佳比对对于两两全局序列比对情况,该方法的关键是设计一个二维矩阵,该矩阵的两个轴就是要比对的两个序列Needle man-Wunsch 算法可以直接用于三个序列的比对多序列比对的积分是n 个序列中两两进行比对所得积分之和对于N 个序列的比对其运算时间呈指数增长,所以动态规划算法不是很适用4.2.2 渐进算法渐进算法最早由Feng 和 Doolittle 提出在算法中,首先采用Needleman-Wunsch 算法把需要比对的N 个序列进行彼此两两比对,其结果形成 个实体,然后对这些实体排序,进行全局比对这种方法一般在质量2NC尤其是计算速度、存储空间及可比对的序列数目方面比动态规划算法更优良。

      在比对过程中遵循“一旦有一个空位,总有一个空位”的规则渐进算法实际上从历史和进化的观点比对多个序列,准确地反映了导致现代序列的一系列歧异进化过程,并且可以直接用于构造进化树,其缺点是不能保证比对的结果是数学上的最优化比对4.2.3 随机算法 「16 」 (1)遗传算法。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.