好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

蛋白质序列分析.PPT

95页
  • 卖家[上传人]:枫**
  • 文档编号:579974195
  • 上传时间:2024-08-27
  • 文档格式:PPT
  • 文档大小:5.03MB
  • / 95 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第六章 蛋白质序列分析西北农林科技大学农学院遗传组主讲人:胡银岗主讲人:胡银岗1 第一节第一节 蛋白质数据库蛋白质数据库1. 1.数据库的分类数据库的分类§蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级,蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级,依据这种结构层次,将蛋白质数据库分为:依据这种结构层次,将蛋白质数据库分为:§蛋白质序列数据库蛋白质序列数据库Ø以蛋白质的序列为主,并赋予相应的注释;如以蛋白质的序列为主,并赋予相应的注释;如PIRPIR--PSDPSD、、SWISS-SWISS-PROT/TrEMBL, NCBIPROT/TrEMBL, NCBI等等§蛋白质模体及结构域数据库蛋白质模体及结构域数据库Ø收集了蛋白质的保守结构域和功能域的特征序列;如收集了蛋白质的保守结构域和功能域的特征序列;如PROSITEPROSITE,,PfamPfam,,PRINTSPRINTS,,BLOCKSBLOCKS等等§蛋白质结构数据库蛋白质结构数据库Ø以蛋白质的结构测量数据为主;如以蛋白质的结构测量数据为主;如PDBPDB等等§蛋白质分类数据库蛋白质分类数据库Ø分为以序列比较为基础的序列分类数据库和以结构比较为基础的结分为以序列比较为基础的序列分类数据库和以结构比较为基础的结构分类数据库,如构分类数据库,如SCOPSCOP,,CAHTCAHT,,FSSPFSSP等等2 2. 蛋白质序列数据库http://pir.georgetown.edu/3 http://www.ebi.ac.uk/swissprot/4 3. 蛋白质模体及结构域数据库PROSITEPROSITE蛋白质家族和结构域数据库蛋白质家族和结构域数据库((www.expasy.org/prosite/ ))ØPROSITEPROSITE数据库收集了有显著生物学意义的蛋白质位点序列、数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,蛋白质特征序列谱库以及序列模型,Ø能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,白质序列属于哪个蛋白质家族,Ø即使在蛋白质序列相似性很低的情况下,可以通过搜索隐即使在蛋白质序列相似性很低的情况下,可以通过搜索隐含的功能结构模体(含的功能结构模体(motifmotif)来鉴定)来鉴定Ø因此,是一个有效的序列分析数据库。

      因此,是一个有效的序列分析数据库PROSITEPROSITE中涉及的序列模式中涉及的序列模式Ø酶的催化位点酶的催化位点Ø配体结合位点配体结合位点Ø金属离子结合位点金属离子结合位点Ø二硫键、小分子或者蛋白质结合区域等二硫键、小分子或者蛋白质结合区域等ØPROSITEPROSITE还包括由多序列比对构建的序列特征谱(还包括由多序列比对构建的序列特征谱(profileprofile),),能更敏感地发现序列中的信息能更敏感地发现序列中的信息5 http://www.expasy.org/prosite/6 PfamPfam(蛋白质家族序列比对以及(蛋白质家族序列比对以及HMMHMM模式数据库)模式数据库)http://pfam.sanger.ac.uk/http://pfam.sanger.ac.uk/7 4. 蛋白质结构数据库PDB (http://www.rcsb.org/pdb/home/home.do)PDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据8 5. 蛋白质分类数据库§SCOP蛋白质结构分类数据库(Structural Classification of Protein database)(http://scop.mrc-lmb.cam.ac.uk/scop/index.html)§CATH蛋白质结构数据库(CATH Protein Structure Classification))(http://www.cathdb.info/)§FSSP 基于蛋白质结构-结构比对的折叠分类(Fold classification based on Structure-Structure alignment of Proteins) (http://ekhidna.biocenter.helsinki.fi/dali)9 http://scop.mrc-lmb.cam.ac.uk/scop/index.html10 http://www.cathdb.info/11 http://ekhidna.biocenter.helsinki.fi/dali12 6. 数据库的利用§蛋白质数据库都具备三种功能蛋白质数据库都具备三种功能Ø 数据的注释(数据的注释(annotationannotation))¡所有提交到数据库的数据都要由作者或数据库管理人员进所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布;行注释方能发布;Ø 数据的检索(数据的检索(searchsearch))¡数据经注释之后,访问者可以通过数据库网页上提供的搜数据经注释之后,访问者可以通过数据库网页上提供的搜索引擎进行搜索,找到自己所需的蛋白质信息;索引擎进行搜索,找到自己所需的蛋白质信息;Ø 数据的生物信息分析(数据的生物信息分析(analysisanalysis))¡访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测,的生物信息分析工具对蛋白质序列的未知数据进行预测,如预测蛋白质的理化性质如预测蛋白质的理化性质, ,预测蛋白质的二级结构,多重序预测蛋白质的二级结构,多重序列比对等等。

      列比对等等 13 PROSITE 内容§PROSITE PROSITE 主要保存两类信息:主要保存两类信息:模式(模式(pattern)和谱()和谱(profile,权重矩阵)权重矩阵)Ø模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列Ø例如酪氨酸激酶磷酸化位点模式例如酪氨酸激酶磷酸化位点模式Ø[RK]-x(2)-[DE]-x(3)-Y 或或 [RK]-x(3)-[DE]-x(2)-Y其其中中扩扩号号表表示示扩扩号号中中的的各各种种氨氨基基酸酸均均可可,,X表表示示任任意意氨氨基基酸酸,,小小扩扩号号中中的的数数字表示氨基酸个数字表示氨基酸个数Ø[AC]-x-V-x(4)-{ED}This pattern is translated as: [Ala or Cys]-any-Val-any-any-any-any-{any but Glu or Asp}14 PROSITE- profile 示例ØProfile 为为对对保保守守区区域域每每一一位位置置氨氨基基酸酸保保守守情情况况进行打分构建的权重矩阵进行打分构建的权重矩阵。

      第第一一行行为为该该区区域域出出现现的的氨氨基基酸酸,,每每一一行行为为蛋蛋白白序序列列中中一一个个位位置置,,在在该该位位置置对对各各种种氨氨基基酸酸的的保保守守情情况况都都给给出出一个分值,分值越高表示出现概率越大一个分值,分值越高表示出现概率越大15 PROSITE 使用注意事项使用注意事项§Pattern主要可以用来预测某些生物活性位主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点点,如磷酸化位点、甲基化位点profile预测可靠性高,可以用来对新蛋白进行分预测可靠性高,可以用来对新蛋白进行分类和提供功能提示类和提供功能提示§蛋白的功能位点是与其三维结构紧密相关的,蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种局部区域符合某种patternpattern不能保证一定会不能保证一定会具有对应的性质,要根据实际情况,谨慎具有对应的性质,要根据实际情况,谨慎对待对待pattern pattern 预测结果预测结果16 PROSITE 工具工具§ScanPrositeØ搜索蛋白序列是否含搜索蛋白序列是否含PROSITE数据库中存有的模式或是功能位点;搜数据库中存有的模式或是功能位点;搜索索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库中符合某种模式的蛋白以及蛋白三维结构数据库PDB中中含有该模式的蛋白,可察看其三维结构。

      含有该模式的蛋白,可察看其三维结构 §MotifScan Ø使用使用PROSITE 以及以及pfam 中的中的profile 对蛋白进行搜索对蛋白进行搜索§PRATT Ø用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序列,生成共有的列,生成共有的pattern§PROSITEPROSITE还提供一些可以下载到本地运行的程序还提供一些可以下载到本地运行的程序Ø如如ps_scanps_scan,,但但需需要要安安装装perl perl 运运行行环环境境Pftools Pftools 同同样样是是可可以以本本地地运运行行的的工工具具,,可可以以搜搜索索PROSITEPROSITE中中的的profileprofile,,也也可可以以构构建建用用户户自自己己的的profile.profile. 17 第二节第二节 蛋白质序列分析及结构预测策略蛋白质序列分析及结构预测策略蛋白质的结构预蛋白质的结构预测必须基于测必须基于一定一定的序列基础的序列基础和和实实验证据验证据,因此必,因此必须须尽可能搜集一尽可能搜集一切有关这个蛋白切有关这个蛋白质可能的理化性质可能的理化性质和其它特性质和其它特性。

      1. 基本流程基本流程§实验数据实验数据Ø蛋白质序列蛋白质序列§理化特性分析理化特性分析Ø跨膜区、等电点、亲水性、疏水性、跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等酶切特性、电荷等§数据库检索数据库检索Ø多序列比对、结构域搜索多序列比对、结构域搜索§二级结构预测二级结构预测Ø如有如有PDB中同源体中同源体Ø蛋白质折叠识别蛋白质折叠识别Ø折叠家族分析折叠家族分析Ø序列与结构比对序列与结构比对Ø比较建模比较建模§三级结构预测三级结构预测§三维蛋白模型三维蛋白模型18 蛋白质序列分析及结构预测的基本流程蛋白质序列分析及结构预测的基本流程19 1.序列特征的初步分析序列特征的初步分析§理化特性的预测理化特性的预测§修饰位点的预测修饰位点的预测§是否为跨膜蛋白或片段是否为跨膜蛋白或片段§是否包含螺旋卷曲结构是否包含螺旋卷曲结构§是否还有低复杂度序列等等是否还有低复杂度序列等等20 2.同源搜索同源搜索§新序列最常用的分析,就是与已知的序列等数据库进行比对,找到同新序列最常用的分析,就是与已知的序列等数据库进行比对,找到同源的蛋白质序列或相似性较高的序列源的蛋白质序列或相似性较高的序列§常用的工具:常用的工具:BLASTp、、FASTA、、BLITZ、、PSI--BLAST等等等等§注意的问题注意的问题Ø选择矩阵:常见的矩阵有选择矩阵:常见的矩阵有PAM和和BLOSUM。

      一般先用默认的一般先用默认的BLOSUM62分析,如果相似性序列过多,选用更严谨的分析,如果相似性序列过多,选用更严谨的BLOSUM80,,如果相似性序列很少,可选用如果相似性序列很少,可选用BLOSUM42,进一步分析进一步分析PAM30和和PAM70适于分析近源短序列效果较好适于分析近源短序列效果较好Ø空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸罚分空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小罚分空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列21 3.模体搜索模体搜索§模体是通过对一个蛋白质家族进行多序列比对检测出的高模体是通过对一个蛋白质家族进行多序列比对检测出的高度保守元件,常对应于一些结构域和功能域,模体搜索是度保守元件,常对应于一些结构域和功能域,模体搜索是找到序列中一些关键的保守氨基酸找到序列中一些关键的保守氨基酸§常用工具:常用工具:SCANPROSITE、、SMART、、Pfam、、COGS、、PRINTS、、BLOCKS、、SBASE§注意问题注意问题Ø如果不同源,搜索出的相似性很小如果不同源,搜索出的相似性很小Ø要将序列在三级结构数据库的序列进行比对要将序列在三级结构数据库的序列进行比对Ø很可能是一些短序列,应与相似性搜索结果等配合使用很可能是一些短序列,应与相似性搜索结果等配合使用22 4.结构域定位结构域定位§通过数据库搜索得到的信息,进行结构域定位,通过数据库搜索得到的信息,进行结构域定位,对结构预测提供基础对结构预测提供基础§结构域定位分析结构域定位分析Ø探测序列与其它全序列之间的同源性关系探测序列与其它全序列之间的同源性关系Ø分析低复杂度区域(如重复序列等,时常间隔结构域)分析低复杂度区域(如重复序列等,时常间隔结构域)Ø跨膜区域跨膜区域Ø卷曲螺旋结构卷曲螺旋结构Ø二级结构的不同折叠子二级结构的不同折叠子Ø对分解成的结构域重复进行数据库搜索和独立比对对分解成的结构域重复进行数据库搜索和独立比对23 5.多重序列比对多重序列比对§对搜索得到的数据进行多重序列比对对搜索得到的数据进行多重序列比对§多重序列比对可提供多重序列比对可提供Ø结构域相应信息结构域相应信息Ø功能位点的残基功能位点的残基Ø蛋白质的亲水面和疏水核的氨基酸残基蛋白质的亲水面和疏水核的氨基酸残基Ø为同源建模、二级结构预测提供模板为同源建模、二级结构预测提供模板§注意问题注意问题Ø不要把所有搜索结果用在比对中不要把所有搜索结果用在比对中Ø对搜索结果进行手工校正,将显著性不高的序列,非对搜索结果进行手工校正,将显著性不高的序列,非蛋白质家族的序列剔除掉。

      蛋白质家族的序列剔除掉24 6. 同源建模同源建模§如果蛋白质序列有显著的同源序列(相似如果蛋白质序列有显著的同源序列(相似性性>50%%,尤其是与已知结构的蛋白质之间尤其是与已知结构的蛋白质之间有显著同源性时,即可进行同源建模有显著同源性时,即可进行同源建模Ø以已知结构的蛋白质为模板进行精确的结构模以已知结构的蛋白质为模板进行精确的结构模型构建型构建Ø如果相似性序列不是完整的,而是一段一段的如果相似性序列不是完整的,而是一段一段的结构域,也可通过二级结构预测和折叠识别,结构域,也可通过二级结构预测和折叠识别,找到合适的折叠子,在以这些已知结构的折叠找到合适的折叠子,在以这些已知结构的折叠子为模板构建模型子为模板构建模型25 7.二级结构预测二级结构预测§如果没有搜索到具有已知结构的蛋白质同源序列,如果没有搜索到具有已知结构的蛋白质同源序列,也可采用相应的方法进行二级结构预测也可采用相应的方法进行二级结构预测§二级结构预测的方法二级结构预测的方法ØGOR法(法(Chou等人)和等人)和Lim法法¡依据单一序列分析精确度约依据单一序列分析精确度约56-60%%Ø核心结构预测法核心结构预测法¡通过同源蛋白质家族的多重比对,发现二级结构存在二级结通过同源蛋白质家族的多重比对,发现二级结构存在二级结构核心,将序列与核心结构相结合,精确度月构核心,将序列与核心结构相结合,精确度月70%%§注意问题注意问题Ø适当的人为干预适当的人为干预Ø着重于二级结构保守模式的预测着重于二级结构保守模式的预测Ø尽可能采用多个预测方法,构建共同序列的结构图谱尽可能采用多个预测方法,构建共同序列的结构图谱26 8.折叠子分析和二级结构组分比对折叠子分析和二级结构组分比对§对推测出的折叠子,进一步确定其折叠模式,通过多次比对推测出的折叠子,进一步确定其折叠模式,通过多次比对,确定蛋白质可能属于哪一类蛋白质对,确定蛋白质可能属于哪一类蛋白质§分析的几个方面分析的几个方面Ø存在极多相似序列时,看其是否具有相似功能存在极多相似序列时,看其是否具有相似功能Ø弱相似时,只有结构相似,而无序列同源,预测可能的功能域,弱相似时,只有结构相似,而无序列同源,预测可能的功能域,及与已知折叠子内部的核心二级结构的相似区域。

      及与已知折叠子内部的核心二级结构的相似区域Ø如果不存在以上情况,只能考虑其中是否含有与已知折叠子中核如果不存在以上情况,只能考虑其中是否含有与已知折叠子中核心结构元件以外的其它区域相似的区域心结构元件以外的其它区域相似的区域§核心二级结构元件核心二级结构元件与与二级结构的核心区域二级结构的核心区域Ø折叠子中起关键作用的二级结构折叠子中起关键作用的二级结构Ø二级结构中起关键作用的氨基酸残基二级结构中起关键作用的氨基酸残基§利用多重序列比对同时结合多个预测方法,是确定二级结利用多重序列比对同时结合多个预测方法,是确定二级结构核心序列常用的方法构核心序列常用的方法27 9.三级结构与序列间的比对三级结构与序列间的比对§折叠识别获得的结果并不一定准确,进行折叠识折叠识别获得的结果并不一定准确,进行折叠识别前,最好进行独立比对,确定可能组成折叠子别前,最好进行独立比对,确定可能组成折叠子的二级结构元件的二级结构元件§分析的方法分析的方法Ø确认预测的残基中的包埋面和外露面的序列是否与已确认预测的残基中的包埋面和外露面的序列是否与已知蛋白质的模板结构相似知蛋白质的模板结构相似Ø确认重要的氢键结合模式在预测确认重要的氢键结合模式在预测β-折叠结构没有被打-折叠结构没有被打乱乱Ø通过对已知结构的研究,在预测的结构中尽可能保留通过对已知结构的研究,在预测的结构中尽可能保留与已知结构中残基性质相似(大小、极性、疏水性等)与已知结构中残基性质相似(大小、极性、疏水性等)的保守氨基酸的保守氨基酸28 第三节第三节 蛋白质的结构预测蛋白质的结构预测§1. 蛋白质序列的来源蛋白质序列的来源Ø直接测序获得的直接测序获得的Ø翻译编码的翻译编码的DNA或或cDNA序列序列Ø数据库中搜索到的数据库中搜索到的Ø蛋白质序列的格式蛋白质序列的格式¡FASTA格式格式¡SWISS-PROT格式格式¡PDB格式格式29 2. 理化特性分析--基于一级结构的预测理化特性分析--基于一级结构的预测§理化特性分析理化特性分析Ø相对分子量、氨基酸组成、等电点、酶切特性、疏水相对分子量、氨基酸组成、等电点、酶切特性、疏水性等、亲水性,及消光系数等性等、亲水性,及消光系数等§常用工具常用工具Ø软件软件¡BioeditØ网络工具网络工具¡ProtParam((http://us.expasy.org/tools/protparam.html))¡Compute PI((http://us.expasy.org/tools/pi_tool.html))30 31 32 3. 蛋白质的鉴定蛋白质的鉴定§蛋白质的鉴定蛋白质的鉴定Ø确定蛋白质的基本性质确定蛋白质的基本性质§常用工具常用工具Ø网络工具网络工具¡多个(多个(http://us.expasy.org/tools/))33 34 35 4.数据库搜索数据库搜索§数据库数据库Ø序列序列Ø模体与结构域模体与结构域Ø结构结构Ø分类分类§使用的程序使用的程序ØBlastØPSI-BlastØFastaØScanProsite等等36 37 5. 二级结构预测§预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用人工神经网络、遗传算法等技术构建预测方法。

      还有将多种预测方法结合起来,获得“一致序列”§总的来说,二级结构预测仍是未能完全解决的问题,一般对于α螺旋预测精度较好,对β折叠差些,而对除α螺旋和β折叠等之外的无规则二级结构则效果很差38 ØJpred((pbio.dundee.ac.uk/~www-jpred/index.html))ØHNN((http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_nn.html))ØSOPMAhttp://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_sopma.html¡带比对的自优化预测方法,将几种独立二级结构预测方法汇集成“一致预测结果”,采用的二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法¡多种方法的综合应用平均效果比单个方法更好39 40 41 42 43 44 45 46 47 6. 几种重要结构分析几种重要结构分析§6. 1 疏水性分析疏水性分析¡为二级结构预测提供参考为二级结构预测提供参考¡为结构域及功能域的划分提供依据为结构域及功能域的划分提供依据Ø常用工具常用工具ØProtscale((http://us.expasy.org/tools/protscale.html))ProtScaleProtScale能计算超过能计算超过5050种蛋白质的特性。

      仅一项需要额外设定种蛋白质的特性仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为示的残基数,其缺省值为9 9如果想考虑跨膜螺旋特性,该参数如果想考虑跨膜螺旋特性,该参数设置应为设置应为2020,因为一个跨膜螺旋通常有,因为一个跨膜螺旋通常有2020个氨基酸长度个氨基酸长度48 49 50 6.2 6.2 信号肽的识别信号肽的识别§信号肽的识别信号肽的识别Ø地址标签-信号肽将蛋白质导向细胞的正确位置,并地址标签-信号肽将蛋白质导向细胞的正确位置,并使其越过细胞器膜使其越过细胞器膜Ø是新合成的蛋白质的一部分,位于蛋白质的一端是新合成的蛋白质的一部分,位于蛋白质的一端Ø信号肽分析有助于蛋白质功能域的划分及蛋白质的细信号肽分析有助于蛋白质功能域的划分及蛋白质的细胞定位胞定位§常用工具常用工具ØSignaIP((http://www.cbs.dtu.dk/services/SignalP/))¡通过神经网络方法的组合通过神经网络方法的组合¡预测信号肽的位置及相应切点预测信号肽的位置及相应切点51 52 53 6.3 6.3 跨膜结构分析跨膜结构分析n跨膜结构分析跨膜结构分析Ø跨膜结构在蛋白质结构中一般序列相似性不大,但结构极其相似。

      跨膜结构在蛋白质结构中一般序列相似性不大,但结构极其相似Ø跨膜结构可分为跨膜结构可分为6 6种类型种类型Ø跨膜结构预测对认识蛋白质结构及功能具有重要意义跨膜结构预测对认识蛋白质结构及功能具有重要意义n预测工具预测工具Ø依赖于一系列已知跨膜螺旋特性的研究结果最简单的方法是通过依赖于一系列已知跨膜螺旋特性的研究结果最简单的方法是通过查找包含有查找包含有2020个疏水残基的区段,复杂的算法不仅可以预测跨膜螺个疏水残基的区段,复杂的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向,预测准确率在旋的位置,还能确定其在膜上的方向,预测准确率在8080~~95%95%左右ØTmpred((TMpred - Prediction of Transmembrane Regions and Orientation))((http://www.ch.embnet.org/software/TMPRED_form.html ))54 55 56 6.4 卷曲螺旋预测§卷曲螺旋卷曲螺旋Ø控制蛋白质寡聚化的元件,存在于转录因子、控制蛋白质寡聚化的元件,存在于转录因子、蛋白融合多肽等蛋白融合多肽等Ø一种很简单的三级结构,容易预测一种很简单的三级结构,容易预测§常用工具常用工具ØCOILS - Prediction of Coiled Coil Regions in Proteins((http://www.ch.embnet.org/software/COILS_form.html))57 58 6.5 糖基化、磷酸化位点预测§糖基化和磷酸化位点Ø糖基化位点Ø磷酸化位点§常用工具ØCBS Prediction Servers (www.cbs.dtu.dk/services/)59 60 61 62 63 7. 三级结构预测三级结构预测§三级结构预测三级结构预测Ø蛋白质的高级结构决定蛋白质的功能。

      要了解功蛋白质的高级结构决定蛋白质的功能要了解功能,结构是基础,三级结构预测有助于研究蛋白能,结构是基础,三级结构预测有助于研究蛋白质的生物活性中心质的生物活性中心§三级结构预测的方法三级结构预测的方法Ø同源建模同源建模¡先在蛋白质结构数据库中寻找未知结构蛋白的同源伙先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果出预测的结果¡基本过程:目标序列与模板序列的匹配,确定蛋白质基本过程:目标序列与模板序列的匹配,确定蛋白质结构保守区及其结构,目标结构建模,目标结构变异结构保守区及其结构,目标结构建模,目标结构变异区建模,侧链安装与优化,模型优化与评估区建模,侧链安装与优化,模型优化与评估64 65 66 67 68 69 70 71 72 c1tehaC1hldaD1teha1(GRoES)D1teha2(GRoES)73 74 第四节第四节 蛋白质功能预测蛋白质功能预测1. 根据序列预测功能的一般过程根据序列预测功能的一般过程Ø尽管蛋白质的许多特性可直接从序列上分析获得,如尽管蛋白质的许多特性可直接从序列上分析获得,如疏水性,跨膜螺旋疏水性,跨膜螺旋(transmenbrane helix)(transmenbrane helix)或前导序列或前导序列(leader sequence)(leader sequence)等。

      总的来说,根据序列预测蛋白等总的来说,根据序列预测蛋白质功能的唯一方法是通过数据库搜寻,比较该蛋白是否质功能的唯一方法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似与已知功能的蛋白质相似Ø比较未知蛋白序列与已知蛋白质序列的相似性;比较未知蛋白序列与已知蛋白质序列的相似性;Ø查找未知蛋白中是否包含与特定蛋白质家族或功能查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段域有关的亚序列或保守区段75 根据序列预测蛋白质功能的技术路线根据序列预测蛋白质功能的技术路线76 2. 通过比对数据库相似序列确定功能通过比对数据库相似序列确定功能 具有相似序列的蛋白质具有相似的功能最可靠的确定具有相似序列的蛋白质具有相似的功能最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索一个显著蛋白质功能的方法是进行数据库的相似性搜索一个显著的匹配应至少超过的匹配应至少超过8080个氨基酸的区段有个氨基酸的区段有25%25%的相同序列的相同序列 一般策略是先进行一般策略是先进行BLASTBLAST检索,如不能提供相关结果,检索,如不能提供相关结果,再运行再运行FASTAFASTA;如;如FASTAFASTA也不能得到有关蛋白质功能的线索,也不能得到有关蛋白质功能的线索,可选用完全根据可选用完全根据Smith-WatermanSmith-Waterman算法设计的搜索程序,例算法设计的搜索程序,例如如BLITZ(BLITZ(www.ebi.ac.uk/searches/blitz.htmlwww.ebi.ac.uk/searches/blitz.html) )。

      BLITZBLITZ不做近似估计不做近似估计(BLAST(BLAST和和FASTAFASTA根据根据Smith-WatermanSmith-Waterman算法做近算法做近似估计似估计) ),所以很花时,但非常灵敏通常,所以很花时,但非常灵敏通常BLITZBLITZ程序能够发现超过几程序能够发现超过几百个残基但序列相同比率低于百个残基但序列相同比率低于2020~~25%25%的匹配,这些匹配可能达到显的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过著,但会被那些应用近似估计的程序错过77 78 79 80 n选用计分矩阵选用计分矩阵(scoring matrix)(scoring matrix)十分关键十分关键Ø选用的矩阵必须与匹配水平相一致,例如,选用的矩阵必须与匹配水平相一致,例如,PAM250PAM250应用应用于远距离匹配于远距离匹配(<25%(<25%相同比率相同比率) ),,PAM40PAM40应用于不很相近的应用于不很相近的蛋白质序列,而蛋白质序列,而BLOSUM62BLOSUM62是一个通用矩阵;是一个通用矩阵;Ø使用不同矩阵,可以发现始终出现的匹配序列,这是一使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的有效办法。

      条减少误差的有效办法n选用不同的数据库选用不同的数据库Ø通常可以使用的数据库是无冗余蛋白序列数据库通常可以使用的数据库是无冗余蛋白序列数据库SWISS-SWISS-PROTPROT和和PDBPDBØ其它一些数据库也可以试试,如可用其它一些数据库也可以试试,如可用BLASTPBLASTP搜索复合蛋搜索复合蛋白质序列库白质序列库OWL OWL ( (www.biochem.ucl.ac.uk/bsm/dbbrowser/OWL/owl_blast.html) )81 第五节第五节 蛋白质家族分析蛋白质家族分析§蛋白质家族分类方式蛋白质家族分类方式Ø功能相似分类、进化相似分类、折叠相似分类功能相似分类、进化相似分类、折叠相似分类§蛋白质家族分类原则蛋白质家族分类原则Ø典型的蛋白质家族是以实验获得的功能分类典型的蛋白质家族是以实验获得的功能分类Ø功能相似的家族成员可以通过序列相似分类功能相似的家族成员可以通过序列相似分类Ø序列相似性大于序列相似性大于2525%,部分结构可能同源%,部分结构可能同源Ø要检测结构相似性,而不是序列相似性要检测结构相似性,而不是序列相似性Ø结构同源,并不一定功能相似结构同源,并不一定功能相似 Ø序列分类依赖序列比对序列分类依赖序列比对Ø结构分类依赖结构比对结构分类依赖结构比对§同源与相似同源与相似Ø同源:具相同的折叠,或功能相似,来源于同一祖先同源:具相同的折叠,或功能相似,来源于同一祖先Ø相似:具相同的折叠,但功能不同,二者起源关系不明确相似:具相同的折叠,但功能不同,二者起源关系不明确82 1. CATH1. CATH分类分类构件(构件(ArchitectureArchitecture))蛋白质结构域中,在不考虑二级结构相互作用的前提下,由二级结构方向蛋白质结构域中,在不考虑二级结构相互作用的前提下,由二级结构方向决定的所有结构域形态,这些形态通常用比较简单的词语来命名,例如,决定的所有结构域形态,这些形态通常用比较简单的词语来命名,例如,桶形(桶形(barrelbarrel)、三明治形()、三明治形(3 3--layer sandwichlayer sandwich)、)、betabeta-螺旋桨形-螺旋桨形((betabeta--propellorpropellor)、四螺旋束()、四螺旋束(alpha four helix bundlealpha four helix bundle)等。

      等拓扑结构(拓扑结构(TopologyTopology)或者折叠子()或者折叠子(foldsfolds)) 根据二级结构的形状以及相互作用,将构件分成不同的折叠子家族分类根据二级结构的形状以及相互作用,将构件分成不同的折叠子家族分类时使用了基于结构比较算法时使用了基于结构比较算法SSAPSSAP,并根据经验值来设定相同折叠子家族结,并根据经验值来设定相同折叠子家族结构域的聚类参数构域的聚类参数同源超家族(同源超家族(Homologous superfamilyHomologous superfamily))在将蛋白质按结构分类后,再将那些结构域可能是来源于同一祖先的蛋白在将蛋白质按结构分类后,再将那些结构域可能是来源于同一祖先的蛋白质归为一类质归为一类 序列家族(序列家族(sequence familiessequence families))在同源超家族的水平上进行更进一步的聚类,就可以将序列直接分类到序在同源超家族的水平上进行更进一步的聚类,就可以将序列直接分类到序列家族中,这个家族中序列之间的相似性列家族中,这个家族中序列之间的相似性>35%>35%,并且具有很高的结构和功,并且具有很高的结构和功能相似性。

      能相似性83 84 85 86 87 88 89 2. SCOP蛋白质结构分类n折叠子(折叠子(foldfold))————主要是结构相似主要是结构相似如如果果蛋蛋白白质质在在相相同同的的条条件件和和相相同同的的拓拓扑扑关关系系下下有有相相同同的的二二级级结结构构,,就就认认为为是是相相同同的的折折叠叠子子,,有有相相同同折折叠叠的的不不同同蛋蛋白白质质可可能能具具有有不不同同大大小小甚甚至至不不同同构构象象的的周周边边二二级级结结构构和和结结构构转转接接区区域域,,有有时时这这些些不不同同转转接接区区域域占占据据蛋蛋白白质质一一半半的的区区域域具具有有相相同同折折叠叠子子的的的的蛋蛋白白质质不不一一定定具具有有共共同同的的进进化化祖祖先先,,因因为为结结构构相相似似不不仅仅可可以以由由序序列列相相似似产产生生,,而而且且可可以以由由蛋蛋白白质质的的物物化化性性质质产产生生,,这这些些性性质质可可以以决决定定蛋蛋白白质质内内部部特特定的折叠偏好性以及链拓扑性定的折叠偏好性以及链拓扑性n超家族(超家族(superfamilysuperfamily))————可能具有相同的进化起源可能具有相同的进化起源   蛋蛋白白质质之之间间有有较较低低的的序序列列相相似似性性,,但但其其结结构构和和功功能能显显示示出出具具有有相相同同的的进进化化起起源源,,可可以以置置于于同同一一超超家家族族中中,,例例如如ActinActin,,HSPHSP的的ATPaseATPase结结构域以及构域以及hexakinasehexakinase构成了一个超家族。

      构成了一个超家族n家族(家族(FamilyFamily))————进化关系清楚的蛋白质类群进化关系清楚的蛋白质类群 每每个个家家族族内内的的蛋蛋白白质质有有明明确确的的进进化化关关系系,,一一般般来来讲讲,,这这意意味味着着蛋蛋白白质质两两两两比比对对的的残残基基一一致致性性大大于于3030%%,,但但有有时时在在缺缺乏乏较较高高序序列列相相似似性性的的情情况况下下,,相相似似结结构构和和功功能能也也可可以以作作为为分分类类依依据据,,如如有有些些物物种种的的球球蛋白序列相似性只有蛋白序列相似性只有1515%    90 91 92 93 3. 家族分析§相似序列搜索 BLAST,FASTA§多序列比对 clustal§保守结构域分析 InterPro, CDD, PROSITE§模式位点分析 PROSITE94 思 考 题§1.1.什么是蛋白质模体?什么是蛋白质的结构域?它什么是蛋白质模体?什么是蛋白质的结构域?它们与蛋白质结构与功能有什么关系?们与蛋白质结构与功能有什么关系?§2.2.基于一级结构的蛋白质预测主要有哪些?基于一级结构的蛋白质预测主要有哪些?§3.3.蛋白质二级结构预测的主要策略有哪些?各有何蛋白质二级结构预测的主要策略有哪些?各有何特点?特点?§4.4.蛋白质的跨膜结构、信号肽、卷曲螺旋、糖基化蛋白质的跨膜结构、信号肽、卷曲螺旋、糖基化位点等预测有什么意义?位点等预测有什么意义?§5.5.蛋白质三级结构预测的主要方法有哪些?你认为蛋白质三级结构预测的主要方法有哪些?你认为可以从哪些方面改进,提高蛋白质三级结构预测的可以从哪些方面改进,提高蛋白质三级结构预测的可靠性?可靠性?§6.6.什么是蛋白质家族?如何进行蛋白质家族分析?什么是蛋白质家族?如何进行蛋白质家族分析?95 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.