
实验五蛋白质序列分析.ppt
49页实验五:蛋白质序列分析杜娟基因与蛋白质组学数据分析实验项目五:蛋白目五:蛋白质序列分析序列分析一、一、 实验目的和要求:目的和要求: v掌握蛋白掌握蛋白质基本性基本性质分析;基本理化性分析;基本理化性质和疏水和疏水性分析v掌握蛋白掌握蛋白质信号信号肽的的预测,,亚细胞定位的胞定位的预测,,跨膜跨膜结构及卷曲螺旋构及卷曲螺旋结构的构的预测v了解基于了解基于motif、、结构位点、构位点、结构功能域数据构功能域数据库的蛋白的蛋白质功能功能预测v掌握基于序列同源性分析的蛋白掌握基于序列同源性分析的蛋白质功能功能预测2(一)蛋白质基本理化性质分析蛋白质理化性质是蛋白质研究的基础蛋白质理化性质是蛋白质研究的基础 蛋白质的基本性质:蛋白质的基本性质:§相对分子质量 氨基酸组成§等电点(PI) 消光系数§半衰期 不稳定系数§总平均亲水性 …… 实验方法:实验方法:•相对分子质量的测定、等电点实验、沉降实验•缺点:费时、耗资基于实验经验值的计算机分析方法基于实验经验值的计算机分析方法 软件软件 BioeditBioedit 网络工具网络工具ProtParam,, Compute PI34基于一级序列的组分分析基于一级序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考氨基酸亲疏水性等分析为高级结构预测提供参考ExPASy(( Expert Protein Analysis System )) 开发开发的针对蛋白质基本理化性质的分析:的针对蛋白质基本理化性质的分析:–Protparam 工具 蛋白质理化性质分析•Protparam 工具 计算以下物理化学性质:•相对分子质量理论pI 值•氨基酸组成原子组成•消光系数半衰期•不稳定系数脂肪系数•总平均亲水性5主要选项/参数序列提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBL AC号(accession number)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBL AC号打开protein.txt,将蛋白质序列粘贴在搜索框中6•输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段•以P02699为例输出结果 功能域用户自定义区段7点击不同功能域得到以下结果氨基酸数目相对分子质量理论 pI 值氨基酸组成正/负电荷残基数89消光系数半衰期原子组成分子式总原子数不稳定系数脂肪系数总平均亲水性<40 stable>40 unstable10(二)蛋白质疏水性分析•疏水作用是蛋白质折叠的主要驱动力•分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步•氨基酸疏水分析为蛋白质二级结构预测提供佐证•是分析蛋白质跨膜区重要一步11• ProtScale工具 •氨基酸标度–表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等•收集50多个文献中提供的氨基酸标度•默认值以Hphob. Kyte & Doolittle做疏水性分析•ProtScale能计算超过50种蛋白质的特性。
仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度蛋白质亲疏水性分析12主要选项/参数序列提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBL AC号(accession number)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列以P02699为例输入Swiss-Prot/TrEMBL AC号打开protein.txt,将一条蛋白质序列粘贴在搜索框中13氨基酸标度计算窗口(7-11)相对权重值 权重值变化趋势 是否归一化14所用氨基酸标度信息分析所用参数信息输出结果15图形结果文本结果参数 每个位置的得分16三三 信号信号肽预测v蛋白蛋白质合成后要运送到合成后要运送到细胞中不同的部位,有的胞中不同的部位,有的蛋白蛋白质要通要通过内内质网膜网膜进入内入内质网腔内,最网腔内,最终成成为分泌蛋白分泌蛋白v分泌蛋白的分泌蛋白的N端都有一段端都有一段约15~35个氨基酸的疏个氨基酸的疏水性水性肽段,其功能是引段,其功能是引导蛋白蛋白质多多肽链穿穿过内内质网膜网膜进入腔内,称入腔内,称为信号信号肽((signal peptide)。
v按照氨基酸按照氨基酸组成及其位置特征,可将信号成及其位置特征,可将信号肽分分为4大大类::1.分泌信号肽 2. 脂蛋白信号肽3.Pilin-like信号肽4. 细菌素和细菌素信号肽蛋白质序列分析v信号信号肽主要由三个主要由三个domain组成:成:N-region、、H-regin和和C-region.vN-region为正正电荷区域,至少含有一个精氨酸荷区域,至少含有一个精氨酸(R) 或或赖氨酸氨酸(K).vH-region为疏水核,一般疏水核,一般长为12~14个氨基酸个氨基酸.vC-region包含信号包含信号肽酶(SPase)的剪切位点,的剪切位点,在剪切位点的在剪切位点的-1位和位和-3位上多位上多为中性的丙氨酸,中性的丙氨酸,该区域也称区域也称为富含丙氨酸区域富含丙氨酸区域. N H C N端 C端蛋白质序列分析v常用工具常用工具§SignaIP()•通过神经网络方法的组合•预测信号肽的位置及相应切点19三三 信号肽的预测信号肽的预测人的内质网驻留蛋白信号肽预测 Q9BS26输入序列的FASTA文件21人的内质网驻留蛋白信号肽预测曲线颜色此处C值最大;S值陡峭;Y值最高峰。
预测为信号肽剪切位点文本结果,YES代表该蛋白包含信号肽,剪切位点位于29,30残基处C score: 剪切位点分值S score: 信号肽分值Y score: 综合剪切位点分值四 蛋白质亚细胞定位预测v亚细胞胞定定位位与与蛋蛋白白质的的功功能能存存在在着着非非常常重重要要的的联系系亚细胞胞定定位位预测基基于于如如下下原原理理::(1)不不同同的的细胞胞器器往往往往具具有有不不同同的的理理化化环境境,它它根根据据蛋蛋白白质的的结构构及及表表面面理理化化特特征征,选择性性容容纳蛋蛋白白2)蛋蛋白白质表表面面直直接接暴暴露露于于细胞胞器器环境境中中,它它由由序序列列折折叠叠过程程决决定定,而而后后者者取取决决于于氨氨基基酸酸组成成因因此此可可以以通通过氨氨基基酸酸组成成进行行亚细胞胞定定位位的的预测v推推 荐荐 使使 用用 PSORT(http://psort.nibb.ac.jp/)II软 件件 对PDCD5蛋蛋白白的的细胞胞内内定定位位进行行预测PSORT将将动物物蛋蛋白白质定定位位于于10个个细胞胞器器::(1)细胞胞浆,,(2)细胞胞骨骨架架,,(3)内内质网网,,(4)胞胞外外,,(5)高高尔基基体体,,(6)溶溶酶体体,,(7)线粒粒体体,,(8)胞胞核核,,(9)过氧化物氧化物酶体体(peroxisome)和和(10)细胞膜。
胞膜2223输入蛋白质序列FASTA文件2425细胞外,细胞壁线粒体细胞骨架细胞核五 跨膜区预测v各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白由于膜蛋白不溶于水,分离纯化困难,不容易生白为膜蛋白由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构因此,对膜蛋白的跨膜螺旋进行预长晶体,很难确定其结构因此,对膜蛋白的跨膜螺旋进行预测是测是生物信息学生物信息学的重要应用的重要应用v推荐使用推荐使用TMHMMTMHMM软件软件ICEICEs/TMHMM/)s/TMHMM/)对蛋白进行跨膜预测对蛋白进行跨膜预测TMHMMTMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型制等性质,采用隐马氏模型(Hidden Markov Models)(Hidden Markov Models),对跨膜,对跨膜区及膜内外区进行整体的预测区及膜内外区进行整体的预测TMHMMTMHMM是目前最好的进行跨膜区是目前最好的进行跨膜区预测的软件预测的软件, ,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白。
所有跨膜区预测软件的准确性来判定一个蛋白是否为膜蛋白所有跨膜区预测软件的准确性都不超过都不超过52%52%,但,但86%86%的跨膜区可以通过不同的软件进行正确预的跨膜区可以通过不同的软件进行正确预测因此,综合分析不同的软件预测结果和疏水性图以获得更测因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果好的预测结果2627输入蛋白质序列FASTA文件铝激活苹果酸转运蛋白的跨膜区预测28跨膜区起始氨基酸终止氨基酸文字结果29跨膜区膜外区膜内区图形结果v卷卷曲曲螺螺旋旋(coiled coil)是是蛋蛋白白质质中中由由2 2~~7 7条条αα螺螺旋旋链链缠缠绕绕成成麻花状结构的总称麻花状结构的总称v存存在在于于多多种种天天然然蛋蛋白白质质中中,,如如转转录录因因子子、、结结构构蛋蛋白白、、膜膜蛋蛋白白中中,,在在生生物物体体内内执执行行着着代代谢谢调调控控、、分分子子运运动动、、膜膜通通道、分子识别等重要的生物功能,道、分子识别等重要的生物功能,30六六 蛋白蛋白质卷曲螺旋域分析卷曲螺旋域分析• 典型的有亮氨酸拉链,存在7残基 重复结构(heptad repeat),以a,b, c,d,e,f,g位置表示,其中a和d位置为疏水性氨基酸,而其他位置 残 基为亲水性v卷曲螺旋卷曲螺旋§控制蛋白质寡聚化的元件,存在于转录因子、蛋白融合多肽等§一种很简单的三级结构,容易预测v常用工具常用工具§COILS - Prediction of Coiled Coil Regions in Proteins§()选择滑动窗口大小选择打分矩阵和权重选择输入格式,选择“SwissProtID or AC”查 询 内 容 , 输 入Q9H2G93333图形结果34预测为卷曲螺旋的区域七七 结构域分析构域分析v结构域(构域(structure domain)是在蛋白)是在蛋白质三三级结构中介于二构中介于二级和三和三级结构之构之间的可以明的可以明显区分区分但又相但又相对独立的折叠独立的折叠单元,每个元,每个结构域自身形成构域自身形成紧实的三的三维结构,可以独立存在或折叠,但构,可以独立存在或折叠,但结构构域与域与结构域之构域之间关系关系较为松散。
松散v结构域通常由构域通常由25~300个氨基酸个氨基酸组成,不同蛋成,不同蛋白白质结构域数目或同一蛋白构域数目或同一蛋白质结构域相似度差异构域相似度差异较大大蛋白质序列分析v常常见的的结构域主要有构域主要有5种:种:§全平行结构域§反平行结构域§α+β结构域§α/β结构域§其他折叠类型v结构域是蛋白构域是蛋白质的功能、的功能、结构和构和进化化单元,元,结构构域分析域分析对于蛋白于蛋白质结构的分构的分类和和预测有着重要作有着重要作用蛋白质序列分析七七 基于结构域(模体)的蛋白质功能预测基于结构域(模体)的蛋白质功能预测一类基因具有转录功能,一类基因具有转录功能, 且它们所编码的蛋白且它们所编码的蛋白质都具有质都具有Y结构域(模体),蛋白质结构域(模体),蛋白质B也具有也具有Y结构域(模体),因而蛋白质结构域(模体),因而蛋白质B的功能也应该的功能也应该与基因转录相关与基因转录相关蛋白质B 转录活性转录活性v蛋白质模体或结构域在氨基酸序列水平比其他区蛋白质模体或结构域在氨基酸序列水平比其他区域保守,通过对序列比对可以发现这些在进化上域保守,通过对序列比对可以发现这些在进化上较为保守的区域;较为保守的区域;v蛋白质蛋白质模体模体或结构域通常与该蛋白质的功能直接或结构域通常与该蛋白质的功能直接相关;相关;v根据模体或结构域信息可以对同源水平较低的蛋根据模体或结构域信息可以对同源水平较低的蛋白质的进行功能预测。
白质的进行功能预测基于结构域(模体)的蛋白质功能预测七 蛋白质序列分析 蛋白质家族、结构域、位点及功能分析绿脓假单胞菌 RpsA 层粘连蛋白受体蛋白质序列分析, 保守结构域以及功能分析RNA结合结构域核酸结合七七 基于同源序列的蛋白质功能预测基于同源序列的蛋白质功能预测蛋白质蛋白质A具有转录功能,蛋白质具有转录功能,蛋白质B与与A在氨基酸序在氨基酸序列上相似(直系同源),因而蛋白质列上相似(直系同源),因而蛋白质B也具有转也具有转录功能AB转录活性 转录活性蛋白质A蛋白质B 至至少少80个个氨氨基基酸酸长度度范范围内内具具有有25%以以上上的的序序列列一一致致性性才才提提示示可可能能的的显著著性性意意义未未知知功功能能序序列列对库检索的一般分析策略如下:索的一般分析策略如下:①①和运行和运行Blastp程序的服程序的服务器()器()连接;接; ②②将将 目目 的的 序序 列列 粘粘 贴 到到 序序 列列 输 入入 框框 中中 ,, 选 择BLOSUM62记分分矩矩阵运运行行BlastP程程序序NCBI的的BlastP程序要求程序要求输入格式入格式为FASTA格式;格式; ③③如如果果BlastP检测到到了了高高度度同同源源的的序序列列,,将将有有可可能能提示目的序列的生物学功能提示目的序列的生物学功能42七七 基于同源序列的蛋白质功能预测基于同源序列的蛋白质功能预测序列相似性比较作为一个非常有效的工具用于同源序列相似性比较作为一个非常有效的工具用于同源基因的发现基因的发现基于序列同源的蛋白质功能预测基于序列同源的蛋白质功能预测451.在uniprot数据库中检索人脂联素 (adiponectin)蛋白质序列;写出检索号。
2.使用分析平台ExPASy对上述蛋白质序列进行分子质量、氨基酸组成(protparam)、和疏水性等基本性质分析(protscale);写出分子质量是多少?氨基酸组成情况?哪个氨基酸所占比例最高?哪个最低?不稳定系数是多少?根据该系数判断,该蛋白质稳定吗?带正负电荷氨基酸个数分别是多少?疏水性分析结果如何?(截图报道图形结果,在图中标出疏水性高的位点三个,疏水性低的位点3个),并在文字结果中找到这些位点对应的的氨基酸编号和类型(格式例如6号亮氨酸)作 业作 业3.预测海海参参溶溶菌菌酶A0MT08的的信信号号肽,并并分分析析结果果,,指出信号指出信号肽位置4.预测P69332的的亚细胞胞定定位位,并并翻翻译、、分分析析、、截截取最取最终结果,指出果,指出该蛋白蛋白质在那些位置表达在那些位置表达5.预测P69332的的跨跨膜膜区区,,并并分分析析预测结果果,,指指出哪些区域是跨膜区出哪些区域是跨膜区6.使使用用COILS Server对对水水稻稻瘤瘤矮矮病病毒毒RGDV P2蛋蛋白白卷卷曲曲螺螺旋旋预测分分析析,,指指出出预测为卷卷曲曲螺螺旋的区域旋的区域46作 业6.利利用用Interproscan分分析析人人脂脂联素素 (adiponectin)蛋蛋白白质的的结构构域域信信息息。
写写出出该蛋蛋白白包包含含哪哪些些结构构域域?其可能的功能是什么??其可能的功能是什么?7.对人人脂脂联素素 (adiponectin)蛋蛋白白质进行行blast搜搜索索,,找找到到与与其其同同源源的的蛋蛋白白((前前五五个个列列出出检索索号号和和蛋蛋白白名称),分名称),分别来自于五个什么物种?来自于五个什么物种?47实验报告v到网到网络教学平台教学平台-基因与蛋白基因与蛋白质组学数据分析学数据分析B2100029-教学材料教学材料-实验课件件v下下载基因与蛋白基因与蛋白质组学数据分析学数据分析实验报告模版告模版v将上述将上述问题答案整理到答案整理到实验报告中,正反打印放在告中,正反打印放在2张纸上(上(不超不超过2张),下次),下次实验课上交48谢谢大家!。












