您所在位置：网站首页 > 行业资料 > 其它行业文档 > 从质谱数据鉴定多肽蛋白质

从质谱数据鉴定多肽蛋白质.ppt

67页

卖家[上传人]：飞***

文档编号：51962222

上传时间：2018-08-17

文档格式：PPT

文档大小：1.10MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 67 举报版权申诉马上下载

文本预览

下载提示

常见问题

第四讲从质谱数据鉴定多肽/蛋白质中科院自动化所李伏欣开场白►在之前的讲座中，我们已经学到了关于蛋白质组学中的重要工具—质谱仪的知识►蛋白质组学里，质谱仪的作用是鉴定混合物中的蛋白质然而，没有数据分析的辅助，它是做不到这一点的讲座大纲►本讲座中，将分别讲述两种鉴定蛋白质的方法其一是质量纹鉴定法（Peptide Mass Fingerprinting），另外一种是二级质谱的数据库搜索鉴定法（MS/MS Database Searching）►我们将简略的介绍质量纹鉴定法而用更多的时间讨论用于二级质谱上的方法多肽质量纹鉴定►多肽质量纹（Peptide Mass Fingerprinting， PMF）是从一级质谱（MS）中鉴定多肽的主要方法►多肽质量纹一般都是在MALDI-TOF仪器的结果上进行►其原理就是利用了蛋白序列数据库中的多肽质量的信息►我们下面的讨论，先假设一张质谱图对应一个蛋白后面会讨论处理多个蛋白的情况一级质谱图►蛋白质经过酶解后，送入质谱仪，得到一级质谱►目前来说，由MALDI-TOF质谱仪产生的质谱图精度较高，而由ESI质谱仪产生的质谱图精度相对较低。

►另一个问题是，ESI产生的质谱图中的离子通常带有很多电荷，而MALDI质谱图中的离子一般只带一个电荷，比较容易计算►所以从一级质谱鉴定蛋白质的算法（质量纹）主要用在MALDI-TOF产生的质谱图上Sample MS Spectrum蛋白序列数据库►在美国国家生物信息中心的网站 http://ncbi.nlm.nih.gov上可以查询到最新的蛋白序列数据库►NCBI上的数据库中，信息最丰富的是 Genpept格式，包括有蛋白的序列，各种性质，甚至于参考文献►但是对我们来说，我们只需要蛋白序列的信息就够了Genpept示例GenpeptGenpept示例示例FASTA格式►FASTA格式就是蛋白的氨基酸序列虚拟酶解►对应于送进质谱仪的样品，我们可以对数据库里的序列作一次虚拟的酶解质量排列►虚拟酶解的结果，产生了一系列的多肽，我们可以计算每个多肽的质量►最后一个R的质量多加了18，这是因为我们写在下面的是残基的分子量质量排列的►把所有多肽的质量排序质量纹►如此，质谱图上的质量就可以与多肽上的质量相匹配质量纹►这就是多肽质量纹（PMF）的最基础的思路 ►但是，真正的将之作为一个鉴定蛋白质的方法，还有很多需要考虑的问题。

►在讨论这些问题之前，我们先看一看目前常用的质量纹算法常用的质量纹算法►现在试验中可用的算法有： Mascot: Profound: http://prowl.rockefeller.edu/cgi- bin/Profound Expasy tools: http://www.expasy.ch/tools/ PeptideSearch: http://mac-mann6.embl- heidelberg.dePMF中的问题►第一个问题：质量相近的多肽怎么处理？►在现实的蛋白数据库中，多肽的数量是很庞大的这里面难保不会有质量非常相近的多肽这样，就造成了质谱图上的一个峰可能匹配不止一个多肽，于是我们就难以知晓这张质谱图究竟代表哪个蛋白质量相近的多肽多肽[M+H+] DGAPLESSSR1019.0490 REGESTPSR1019.0520 DFPIANGER1019.0940 DPLASSSWR1019.0940 YVPLKDQR1019.1800 HLQLPAPSR1019.1830 VLFLNGIDK1019.2200Peak m/z: 1019.08解决方案►第一个解决的办法是限制用来搜索的数据库。

比如，你如果做的试验用的是小白鼠的组织，那么你可以只在鼠类的数据库中搜索，这样就可以减低出现这种情况的可能性►第二个解决的办法是要求必须有多个多肽和数据库相匹配，才做出最后的蛋白质鉴定多匹配DFPIANGER 1019.09EPISVSSMLK 1347.56VLDALDSIK 974.13Carbonic anhydrase II SHHWGYGKHBGPZHWHKDFPIANGERQSPVNID TKAVVQDPALKPLALVYGEATSRRMVNNGHSFNVEYDDSQDKAVLKDGPLTGTYRLVQFHF HWGSSBBQGSEHTVDRKKYAAELHLVHWNTKYGDFGTAAPDGLAVVGVFLKVGDANP ALQKVLDALDSIKTKGKSTDFPNFDPGSLLPNVLDYWTYPGSLTTPPLLESVTWIVLKEPISV SSMLKFRTLNFNAEGEPELLMLANWRPAQPLKNRQVRGFPK多匹配可以大大降低随机匹配的概率,从而增加结果的可信度长蛋白和短蛋白►第二个问题：长蛋白可能会更容易的被匹配 ►因为长蛋白里的多肽数目较多，即以概率来算，匹配上的几率也会比较大。

►质量纹算法必须考虑这个问题，给短蛋白一定的补偿多个蛋白的情况►第三个问题就是在一张质谱图中可能有多个蛋白存在►通常，MALDI-TOF是与双向电泳连接使用双向电泳的一个电泳点上可能有2-3个蛋白，这样就增加了鉴定的难度►由于无法预知一个电泳点上有多少蛋白质， PMF的效果可能会受到很大的影响多肽质量纹：小结►质量纹算法是用一级质谱鉴定蛋白质的经典方法►质量纹算法比较简单，一般使用较简单的统计模型，速度一般较快►质量纹算法的效果受到很多方面的限制，首先是仪器精度的限制，其次是样品中可能有多个蛋白的限制这使得质量纹算法不是理想的分析复杂混合物中蛋白成分的方法►返回利用二级质谱图►我们刚才谈到了，多肽质量纹有其先天的不足其中，最糟糕的是它不能处理多个蛋白的混合物►如果我们能够处理混合物，就可以减少很多用于纯化上的时间和精力►那么，怎么才能从混合物中鉴定蛋白呢？这就要用到二级质谱二级质谱图►在一级质谱图中，选择其中的一个峰，对其进行CID过程，就得到一张二级质谱图►这里的假设是一级质谱中的一个峰就对应了一个多肽，实际情况可能并不是这样►先看一张二级质谱图，然后我们来解释CID 过程。

典型二级质谱图CID►CID，即Collision-induced Dissociation，是通过撞击使得多肽的肽键断裂的过程►在做二级质谱的试验时，质谱仪选择一级质谱中的一个峰，也就是对应质荷比的这些离子，让这些离子高速撞击质谱仪中的惰性气体，使其肽键断裂，这就是CID肽键及其断裂一些常见的特殊情况►除了普通的肽键断裂以外，还经常有一些特殊的情况►Neutral loss: 某些酸性氨基酸可能会在CID中丢失一个水分子（H2O），而碱性氨基酸会在CID中丢失一个氨分子（NH3）►翻译后修饰：有时，二级质谱中需要考虑某些氨基酸可能被修饰（磷酸化、糖基化等），这些修饰可能改变残基的分子量肽键断裂的说明►CID中，肽键的断裂方式有非常多的可能性关于具体的断裂方式，可以去查询生物化学方面的书籍这些问题超过了本课程的范围►通常，我们只考虑b系列和y系列原因是我们使用的电压较低，其他系列的离子不易产生►但实际上，如果能够清楚的知道我们究竟需要考虑什么样的断裂方式，对搜索算法的设计会有很大的帮助通过残基鉴定多肽De-novo Sequencing►这种通过残基来鉴定多肽的方法被称为De- novo Sequencing。

►当我们拥有近乎完美的二级质谱图时，我们可以采用这种De-novo Sequencing的办法►但是，实际情况中，我们并没有完美的二级质谱图，而一点点的不完美，带来的误差是惊人的氨基酸质量表Molecular weights used for calculations.Butt on codeSho rt cod eNameAverage mass of residueMonoisotop icmass of residueTwenty Naturally-Occurring Amino AcidsAlaAAlanine71.078871.03711CysCCysteine103.1448103.00919AspDAspartic Acid115.0886115.02694GluEGlutamic Acid129.1155129.04259PheFPhenylalan ine147.1766147.06841GlyGGlycine57.052057.02146HisHHistidine137.1412137.05891IleIIsoleucine113.1595113.08406LysKLysine128.1742128.09496LeuLLeucine113.1595113.08406MetMMethionine131.1986131.04049AsnNAsparagine114.1039114.04293ProPProline97.116797.05276GlnQGlutamine128.1308128.05858ArgRArginine156.1876156.10111SerSSerine87.078287.03203ThrTThreonine101.1051101.04768ValVValine99.132699.06841TrpWTryptophan186.2133186.07931TyrYTyrosine163.1760163.06333组合数(估计值）峰间质量距离 (Da)最低组合数最高组合数平均值50 - 100010.089100 - 2000141.556200 - 300113624.871300 - 400371687386.23400 - 500586234815958.36500 - 6001409334038092016.7600 - 70024852148732601418510Database Searching►对于一张不完美的质谱图，有这么多的组合可以生成之。

但是，幸运的是，我们还有这个蛋白序列数据库►虽然组合有那么多，但是在这个数据库的限制之下，组合数就大大的减少了►所以我们可以从数据库里搜索最好的匹配质谱图的多肽，这样就有了二级质谱的数据库搜索算法数据库搜索的基础►数据库搜索的基础很简单，就是理论质谱图和试验质谱图之间的一个比对►我们刚才讨论了CID的过程，所以我们知道了残基产生的规律，那么，利用这些规律，我们可以对每个多肽产生一张理论的质谱图，用来和试验质谱图进行比对，对它们“相似 ”的程度做一个评分，分数最高的多肽，我们就认为它是试验质谱图代表的多肽理论质谱图和试验质谱图数据库搜索的流程►在一个蛋白序列数据库中，可以找出来的，落在质谱仪质量范围以内的多肽多达数百至数千万，如果每个多肽都拿来和试验质谱图做比对的话，需要花费的时间是难以接受的 ►提高搜索速度的关键就是减少搜索的对象数数据库搜索的流程►所以，基本上，所有的数据库搜索算法都包括两个步骤►第一个步骤是筛选数据库里的多肽，找出所有有可能与质谱图匹配的多肽►第二个步骤就是拿这些选出来的多肽去和质谱图进行比对，并输出最高分值的多肽作为一个PSM（Peptide-Spectrum Match）。

常用的搜索算法►常用的二级质谱的数据库搜索算法包括： SequestMascot: Sonar, GutenTag, OLAV, ProbID, …………Sequest►我们用Sequest作为一个例子来讲解数据库搜索算法的一般流程►Sequest是由Eng, Yates等人在1994年提出的经典算法虽然目前。

点击阅读更多内容