好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

从质谱数据鉴定多肽蛋白质.ppt

67页
  • 卖家[上传人]:飞***
  • 文档编号:51962222
  • 上传时间:2018-08-17
  • 文档格式:PPT
  • 文档大小:1.10MB
  • / 67 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第四讲 从质谱数据鉴定多肽/蛋白质中科院自动化所 李伏欣开场白►在之前的讲座中,我们已经学到了关于蛋白 质组学中的重要工具—质谱仪的知识►蛋白质组学里,质谱仪的作用是鉴定混合物 中的蛋白质然而,没有数据分析的辅助, 它是做不到这一点的讲座大纲►本讲座中,将分别讲述两种鉴定蛋白质的方 法其一是质量纹鉴定法(Peptide Mass Fingerprinting),另外一种是二级质谱的数 据库搜索鉴定法(MS/MS Database Searching)►我们将简略的介绍质量纹鉴定法而用更多 的时间讨论用于二级质谱上的方法多肽质量纹鉴定►多肽质量纹(Peptide Mass Fingerprinting, PMF)是从一级质谱(MS)中鉴定多肽的主 要方法►多肽质量纹一般都是在MALDI-TOF仪器的结 果上进行►其原理就是利用了蛋白序列数据库中的多肽 质量的信息►我们下面的讨论,先假设一张质谱图对应一 个蛋白后面会讨论处理多个蛋白的情况一级质谱图►蛋白质经过酶解后,送入质谱仪,得到一级 质谱►目前来说,由MALDI-TOF质谱仪产生的质谱 图精度较高,而由ESI质谱仪产生的质谱图精 度相对较低。

      ►另一个问题是,ESI产生的质谱图中的离子通 常带有很多电荷,而MALDI质谱图中的离子 一般只带一个电荷,比较容易计算►所以从一级质谱鉴定蛋白质的算法(质量纹 )主要用在MALDI-TOF产生的质谱图上Sample MS Spectrum蛋白序列数据库►在美国国家生物信息中心的网站 http://ncbi.nlm.nih.gov上可以查询到最新的 蛋白序列数据库►NCBI上的数据库中,信息最丰富的是 Genpept格式,包括有蛋白的序列,各种性质 ,甚至于参考文献►但是对我们来说,我们只需要蛋白序列的信 息就够了Genpept示例GenpeptGenpept示例示例FASTA格式►FASTA格式就是蛋白的氨基酸序列虚拟酶解►对应于送进质谱仪的样品,我们可以对数据 库里的序列作一次虚拟的酶解质量排列►虚拟酶解的结果,产生了一系列的多肽,我 们可以计算每个多肽的质量►最后一个R的质量多加了18,这是因为我们 写在下面的是残基的分子量质量排列的►把所有多肽的质量排序质量纹►如此,质谱图上的质量就可以与多肽上的质 量相匹配质量纹►这就是多肽质量纹(PMF)的最基础的思路 ►但是,真正的将之作为一个鉴定蛋白质的方 法,还有很多需要考虑的问题。

      ►在讨论这些问题之前,我们先看一看目前常 用的质量纹算法常用的质量纹算法►现在试验中可用的算法有: Mascot: Profound: http://prowl.rockefeller.edu/cgi- bin/Profound Expasy tools: http://www.expasy.ch/tools/ PeptideSearch: http://mac-mann6.embl- heidelberg.dePMF中的问题►第一个问题:质量相近的多肽怎么处理?►在现实的蛋白数据库中,多肽的数量是很庞 大的这里面难保不会有质量非常相近的多 肽这样,就造成了质谱图上的一个峰可能 匹配不止一个多肽,于是我们就难以知晓这 张质谱图究竟代表哪个蛋白质量相近的多肽多肽[M+H+] DGAPLESSSR1019.0490 REGESTPSR1019.0520 DFPIANGER1019.0940 DPLASSSWR1019.0940 YVPLKDQR1019.1800 HLQLPAPSR1019.1830 VLFLNGIDK1019.2200Peak m/z: 1019.08解决方案►第一个解决的办法是限制用来搜索的数据库 。

      比如,你如果做的试验用的是小白鼠的组 织,那么你可以只在鼠类的数据库中搜索, 这样就可以减低出现这种情况的可能性►第二个解决的办法是要求必须有多个多肽和 数据库相匹配,才做出最后的蛋白质鉴定多匹配DFPIANGER 1019.09EPISVSSMLK 1347.56VLDALDSIK 974.13Carbonic anhydrase II SHHWGYGKHBGPZHWHKDFPIANGERQSPVNID TKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHF HWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAPDGLAVVGVFLKVGDANP ALQKVLDALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISV SSMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低随机匹配的概率,从而增加结 果的可信度长蛋白和短蛋白►第二个问题:长蛋白可能会更容易的被匹配 ►因为长蛋白里的多肽数目较多,即以概率来 算,匹配上的几率也会比较大。

      ►质量纹算法必须考虑这个问题,给短蛋白一 定的补偿多个蛋白的情况►第三个问题就是在一张质谱图中可能有多个 蛋白存在►通常,MALDI-TOF是与双向电泳连接使用 双向电泳的一个电泳点上可能有2-3个蛋白, 这样就增加了鉴定的难度►由于无法预知一个电泳点上有多少蛋白质, PMF的效果可能会受到很大的影响多肽质量纹:小结►质量纹算法是用一级质谱鉴定蛋白质的经典 方法►质量纹算法比较简单,一般使用较简单的统 计模型,速度一般较快►质量纹算法的效果受到很多方面的限制,首 先是仪器精度的限制,其次是样品中可能有 多个蛋白的限制这使得质量纹算法不是理 想的分析复杂混合物中蛋白成分的方法►返回利用二级质谱图►我们刚才谈到了,多肽质量纹有其先天的不 足其中,最糟糕的是它不能处理多个蛋白 的混合物►如果我们能够处理混合物,就可以减少很多 用于纯化上的时间和精力►那么,怎么才能从混合物中鉴定蛋白呢?这 就要用到二级质谱二级质谱图►在一级质谱图中,选择其中的一个峰,对其 进行CID过程,就得到一张二级质谱图►这里的假设是一级质谱中的一个峰就对应了 一个多肽,实际情况可能并不是这样►先看一张二级质谱图,然后我们来解释CID 过程。

      典型二级质谱图CID►CID,即Collision-induced Dissociation,是通 过撞击使得多肽的肽键断裂的过程►在做二级质谱的试验时,质谱仪选择一级质 谱中的一个峰,也就是对应质荷比的这些离 子,让这些离子高速撞击质谱仪中的惰性气 体,使其肽键断裂,这就是CID肽键及其断裂一些常见的特殊情况►除了普通的肽键断裂以外,还经常有一些特 殊的情况►Neutral loss: 某些酸性氨基酸可能会在CID中 丢失一个水分子(H2O),而碱性氨基酸会 在CID中丢失一个氨分子(NH3)►翻译后修饰:有时,二级质谱中需要考虑某 些氨基酸可能被修饰(磷酸化、糖基化等) ,这些修饰可能改变残基的分子量肽键断裂的说明►CID中,肽键的断裂方式有非常多的可能性 关于具体的断裂方式,可以去查询生物化 学方面的书籍这些问题超过了本课程的范 围►通常,我们只考虑b系列和y系列原因是我 们使用的电压较低,其他系列的离子不易产 生►但实际上,如果能够清楚的知道我们究竟需 要考虑什么样的断裂方式,对搜索算法的设 计会有很大的帮助通过残基鉴定多肽De-novo Sequencing►这种通过残基来鉴定多肽的方法被称为De- novo Sequencing。

      ►当我们拥有近乎完美的二级质谱图时,我们 可以采用这种De-novo Sequencing的办法►但是,实际情况中,我们并没有完美的二级 质谱图,而一点点的不完美,带来的误差是 惊人的氨基酸质量表Molecular weights used for calculations.Butt on codeSho rt cod eNameAverage mass of residueMonoisotop icmass of residueTwenty Naturally-Occurring Amino AcidsAlaAAlanine71.078871.03711CysCCysteine103.1448103.00919AspDAspartic Acid115.0886115.02694GluEGlutamic Acid129.1155129.04259PheFPhenylalan ine147.1766147.06841GlyGGlycine57.052057.02146HisHHistidine137.1412137.05891IleIIsoleucine113.1595113.08406LysKLysine128.1742128.09496LeuLLeucine113.1595113.08406MetMMethionine131.1986131.04049AsnNAsparagine114.1039114.04293ProPProline97.116797.05276GlnQGlutamine128.1308128.05858ArgRArginine156.1876156.10111SerSSerine87.078287.03203ThrTThreonine101.1051101.04768ValVValine99.132699.06841TrpWTryptophan186.2133186.07931TyrYTyrosine163.1760163.06333组合数(估计值)峰间质量距离 (Da)最低组合数 最高组合数平均值50 - 100010.089100 - 2000141.556200 - 300113624.871300 - 400371687386.23400 - 500586234815958.36500 - 6001409334038092016.7600 - 70024852148732601418510Database Searching►对于一张不完美的质谱图,有这么多的组合 可以生成之。

      但是,幸运的是,我们还有这 个蛋白序列数据库►虽然组合有那么多,但是在这个数据库的限 制之下,组合数就大大的减少了►所以我们可以从数据库里搜索最好的匹配质 谱图的多肽,这样就有了二级质谱的数据库 搜索算法数据库搜索的基础►数据库搜索的基础很简单,就是理论质谱图 和试验质谱图之间的一个比对►我们刚才讨论了CID的过程,所以我们知道 了残基产生的规律,那么,利用这些规律, 我们可以对每个多肽产生一张理论的质谱图 ,用来和试验质谱图进行比对,对它们“相似 ”的程度做一个评分,分数最高的多肽,我们 就认为它是试验质谱图代表的多肽理论质谱图和试验质谱图数据库搜索的流程►在一个蛋白序列数据库中,可以找出来的, 落在质谱仪质量范围以内的多肽多达数百至 数千万,如果每个多肽都拿来和试验质谱图 做比对的话,需要花费的时间是难以接受的 ►提高搜索速度的关键就是减少搜索的对象数 数据库搜索的流程►所以,基本上,所有的数据库搜索算法都包 括两个步骤►第一个步骤是筛选数据库里的多肽,找出所 有有可能与质谱图匹配的多肽►第二个步骤就是拿这些选出来的多肽去和质 谱图进行比对,并输出最高分值的多肽作为 一个PSM(Peptide-Spectrum Match)。

      常用的搜索算法►常用的二级质谱的数据库搜索算法包括: SequestMascot: Sonar, GutenTag, OLAV, ProbID, …………Sequest►我们用Sequest作为一个例子来讲解数据库搜 索算法的一般流程►Sequest是由Eng, Yates等人在1994年提出的 经典算法虽然目前。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.