
实验五蛋白质序列分析共50张课件.ppt
50页实验五:蛋白质序列分析实验五:蛋白质序列分析杜杜 娟娟dujuannx126基因与蛋白质组学数据分析基因与蛋白质组学数据分析实验五:蛋白质序列分析杜 娟基因与蛋白质组学数据分析实验项目实验项目五:蛋白质序列分析五:蛋白质序列分析一、 实验目的和要求: •掌握蛋白质基本性质分析;基本理化性质和疏水性分析•掌握蛋白质信号肽的预测,亚细胞定位的预测,跨膜结构及卷曲螺旋结构的预测•了解基于motif、结构位点、结构功能域数据库的蛋白质功能预测•掌握基于序列同源性分析的蛋白质功能预测•2实验项目五:蛋白质序列分析2(一)蛋白质基本理化性质分析蛋白质理化性质是蛋白质研究的基础 蛋白质的基本性质:–相对分子质量 氨基酸组成–等电点(PI) 消光系数–半衰期 不稳定系数–总平均亲水性 …… 实验方法:•相对分子质量的测定、等电点实验、沉降实验•缺点:费时、耗资基于实验经验值的计算机分析方法 软件 Bioedit 网络工具ProtParam,, Compute PI•3(一)蛋白质基本理化性质分析蛋白质理化性质是蛋白质研究的基础基于一级序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考ExPASy( Expert Protein Analysis System ) 开发的针对蛋白质基本理化性质的分析:–Protparam 工具 expasy.org/tools/protparam.html•4基于一级序列的组分分析4蛋白质理化性质分析蛋白质理化性质分析•Protparam 工具工具 expasy.org/tools/protparam.html计算以下物理化学性质:计算以下物理化学性质:•相对分子质量相对分子质量 理论理论 pI pI 值值•氨基酸组成氨基酸组成 原子组成原子组成•消光系数消光系数 半衰期半衰期•不稳定系数不稳定系数 脂肪系数脂肪系数•总平均亲水性总平均亲水性•5蛋白质理化性质分析Protparam 工具 5主要选项主要选项/参数参数序列提交形式:序列提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBL AC号(accession number)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列输入Swiss-Prot/TrEMBL AC号打开protein.txt,将蛋白质序列粘贴在搜索框中•6主要选项/参数序列提交形式:输入Swiss-Prot/T•输入Swiss-Prot/TrEMBL AC号—分不同的功能域肽段•以P02699为例输出结果输出结果 功能域用户自定义区段•7输入Swiss-Prot/TrEMBL AC号—分不同的功能点击不同功能域得到以下结果点击不同功能域得到以下结果氨基酸数目相对分子质量理论 pI 值氨基酸组成正/负电荷残基数•8点击不同功能域得到以下结果氨基酸数目相对分子质量理论 pI 9消光系数半衰期原子组成分子式总原子数9消光系数半衰期原子组成分子式总原子数不稳定系数脂肪系数总平均亲水性<40 stable>40 unstable•10不稳定系数脂肪系数总平均亲水性<40 stable10(二)蛋白质疏水性分析•疏水作用是蛋白质折叠的主要驱动力•分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步•氨基酸疏水分析为蛋白质二级结构预测提供佐证•是分析蛋白质跨膜区重要一步•11(二)蛋白质疏水性分析疏水作用是蛋白质折叠的主要驱动力11• ProtScale工具 ca.expasy.org/tools/protscale.html•氨基酸标度–表示氨基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等•收集50多个文献中提供的氨基酸标度•默认值以Hphob. Kyte & Doolittle做疏水性分析•ProtScale能计算超过50种蛋白质的特性。
仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度蛋白质亲疏水性分析•12 ProtScale工具蛋白质亲疏水性分析12主要选项/参数序列提交形式:•如果分析SWISS-PORT和TrEMBL数据库中序列–直接填写Swiss-Prot/TrEMBL AC号(accession number)•如果分析新序列:–直接在搜索框中粘贴氨基酸序列以P02699为例输入Swiss-Prot/TrEMBL AC号打开protein.txt,将一条蛋白质序列粘贴在搜索框中•13主要选项/参数输入Swiss-Prot/TrEMBL AC号氨基酸标度计算窗口(7-11)相对权重值 权重值变化趋势 是否归一化•14氨基酸标度计算窗口(7-11)相对权重值 权重值变化趋势 是所用氨基酸所用氨基酸标度信息标度信息分析所用参分析所用参数信息数信息输出结果输出结果•15所用氨基酸标度信息分析所用参数信息输出结果15图形结果图形结果 文本结果文本结果 参数参数 每个位置每个位置 的得分的得分•16图形结果 文本结果 参数 每个位置16三三 信号肽预测信号肽预测•蛋白质合成后要运送到细胞中不同的部位,有的蛋白质要通过内质网膜进入内质网腔内,最终成为分泌蛋白分泌蛋白。
•分泌蛋白的N端都有一段约15~35个氨基酸的疏水性肽段,其功能是引导蛋白质多肽链穿过内质网膜进入腔内,称为信号肽信号肽(signal peptide)•按照氨基酸组成及其位置特征,可将信号肽分为4大类:1.分泌信号肽 2. 脂蛋白信号肽3. Pilin-like信号肽4. 细菌素和细菌素信号肽蛋白质序列分析三 信号肽预测蛋白质合成后要运送到细胞中不同的部位,有的蛋白•信号肽主要由三个domain组成:N-region、H-regin和C-region.•N-region为正电荷区域,至少含有一个精氨酸(R) 或赖氨酸(K).•H-region为疏水核,一般长为12~14个氨基酸.•C-region包含信号肽酶(SPase)的剪切位点,在剪切位点的-1位和-3位上多为中性的丙氨酸,该区域也称为富含丙氨酸区域. N H C N端 C端蛋白质序列分析信号肽主要由三个domain组成:N-region、H-re•常用工具–SignaIP(cbs.dtu.dk/services/SignalP/)•通过神经网络方法的组合•预测信号肽的位置及相应切点三三 信号肽的预测信号肽的预测•19常用工具三 信号肽的预测19人的内质网驻留蛋白信号肽预测 Q9BS26输入序列的输入序列的FASTA文件文件人的内质网驻留蛋白信号肽预测 Q9BS26输入序列的FAST人的内质网驻留蛋白信号肽预测曲线颜色曲线颜色此处此处C值最大;值最大;S值陡峭;值陡峭;Y值最高峰。
预测为信号值最高峰预测为信号肽剪切位点肽剪切位点文本结果,文本结果,YES代表该蛋代表该蛋白包含信号肽白包含信号肽,剪切位点剪切位点位于位于29,,30残基处残基处C score: 剪切位点分值剪切位点分值S score: 信号肽分值信号肽分值Y score: 综合剪切位点分值综合剪切位点分值•21人的内质网驻留蛋白信号肽预测曲线颜色此处C值最大;S值陡峭;四 蛋白质亚细胞定位预测•亚细胞定位与蛋白质的功能存在着非常重要的联系亚细胞定位预测基于如下原理:(1)不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白2)蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成因此可以通过氨基酸组成进行亚细胞定位的预测•推荐使用PSORT(psort.nibb.ac.jp/)II软件对PDCD5蛋白的细胞内定位进行预测PSORT将动物蛋白质定位于10个细胞器:(1)细胞浆,(2)细胞骨架,(3)内质网,(4)胞外,(5)高尔基体,(6)溶酶体,(7)线粒体,(8)胞核,(9)过氧化物酶体(peroxisome)和(10)细胞膜•22四 蛋白质亚细胞定位预测亚细胞定位与蛋白质的功能存在着非常重输入蛋白质序列输入蛋白质序列FASTA文件文件•23输入蛋白质序列FASTA文件23•2424细胞外,细胞壁细胞外,细胞壁线粒体线粒体细胞骨架细胞骨架细胞核细胞核•25细胞外,细胞壁线粒体细胞骨架细胞核25五 跨膜区预测•各个物种的膜蛋白的比例差别不大,约四分之一的人类已知蛋白为膜蛋白。
由于膜蛋白不溶于水,分离纯化困难,不容易生长晶体,很难确定其结构因此,对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用•推荐使用TMHMM软件(cbs.dtu.dk/servICEs/TMHMM/)对蛋白进行跨膜预测TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质,采用隐马氏模型(Hidden Markov Models),对跨膜区及膜内外区进行整体的预测TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白,因此首选它来判定一个蛋白是否为膜蛋白所有跨膜区预测软件的准确性都不超过52%,但86%的跨膜区可以通过不同的软件进行正确预测因此,综合分析不同的软件预测结果和疏水性图以获得更好的预测结果•26五 跨膜区预测各个物种的膜蛋白的比例差别不大,约四分之一的输入蛋白质序列输入蛋白质序列FASTA文件文件铝激活苹果酸转运蛋白的跨膜区预测铝激活苹果酸转运蛋白的跨膜区预测•27输入蛋白质序列FASTA文件铝激活苹果酸转运蛋白的跨膜区预测跨膜区跨膜区起始氨起始氨基酸基酸终止氨终止氨基酸基酸文字结果文字结果•28跨膜区起始氨基酸终止氨基酸文字结果28跨膜区跨膜区膜外区膜外区膜内区膜内区图形结果图形结果•29跨膜区膜外区膜内区图形结果29•卷卷曲曲螺螺旋旋(coiled coil)是蛋白质中由2~7条α螺旋链缠绕成麻花状结构的总称•存在于多种天然蛋白质中,如转录因子、结构蛋白、膜蛋白中,在生物体内执行着代谢调控、分子运动、膜通道、分子识别等重要的生物功能,六六 蛋白质卷曲螺旋域分析蛋白质卷曲螺旋域分析• 典型的有亮氨酸拉链,存在7残基 重复结构(heptad repeat),以a,b, c,d,e,f,g位置表示,其中a和d位置为疏水性氨基酸,而其他位置 残 基为亲水性•30卷曲螺旋(coiled coil)是蛋白质中由2~7条α螺旋•卷曲螺旋–控制蛋白质寡聚化的元件,存在于转录因子、蛋白融合多肽等–一种很简单的三级结构,容易预测•常用工具–COILS - Prediction of Coiled Coil Regions in Proteins–(ch.embnet.org/software/COILS_form.html)卷曲螺旋选择滑动窗口大小选择滑动窗口大小选选择择打打分分矩矩阵阵和权重和权重选选择择输输入入格格式式,,选选择择“SwissProtID or AC”查查 询询 内内 容容 ,, 输输 入入Q9H2G9ch.embnet.org/software/COILS_form.html选择滑动窗口大小选择打分矩阵和权重选择输入格式,选择“Swi33图形结果图形结果•3333图形结果33预测为预测为卷曲螺卷曲螺旋的区旋的区域域•34预测为卷曲螺旋的区域34七七 结构域分析结构域分析•结构域结构域(structure domain)是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。
•结构域通常由25~300个氨基酸组成,不同蛋白质结构域数目或同一蛋白质结构域相似度差异较大蛋白质序列分析七 结构域分析结构域(structure domain)是在•常见的结构域主要有5种:–全平行结构域–反平行结构域–α+β结构域–α/β结构域–其他折叠类型•结构域是蛋白质的功能、结构和进化单元,结构域分析对于蛋白质结构的分类和预测有着重要作用蛋白质序列分析常见的结构域主要有5种:蛋白质序列分析七七 基于结构域(模体)的蛋白质功能预测基于结构域(模体)的蛋白质功能预测一类基因具有转录功能,一类基因具有转录功能, 且它们所编码的蛋白且它们所编码的蛋白质都具有质都具有Y结构域(模体),蛋白质结构域(模体),蛋白质B也具有也具有Y结构域(模体),因而蛋白质结构域(模体),因而蛋白质B的功能也应该的功能也应该与基因转录相关与基因转录相关蛋白质蛋白质B 转录活性转录活性转录活性转录活性七 基于结构域(模体)的蛋白质功能预测 一类基因具有转录功能•蛋白质模体或结构域在氨基酸序列水平比其他区蛋白质模体或结构域在氨基酸序列水平比其他区域保守,通过对序列比对可以发现这些在进化上域保守,通过对序列比对可以发现这些在进化上较为保守的区域;较为保守的区域;•蛋白质蛋白质模体模体或结构域通常与该蛋白质的功能直接或结构域通常与该蛋白质的功能直接相关;相关;•根据模体或结构域信息可以对同源水平较低的蛋根据模体或结构域信息可以对同源水平较低的蛋白质的进行功能预测。
白质的进行功能预测基于结构域(模体)的蛋白质功能预测基于结构域(模体)的蛋白质功能预测蛋白质模体或结构域在氨基酸序列水平比其他区域保守,通过对序列七七 蛋白质序列分析蛋白质序列分析 蛋白质家族、结构域、位点及功能分析蛋白质家族、结构域、位点及功能分析绿脓假单胞菌绿脓假单胞菌 RpsA 层粘连蛋白受体层粘连蛋白受体七 蛋白质序列分析 绿脓假单胞菌 RpsA 层粘连蛋白受体蛋白质序列分析,蛋白质序列分析, 保守结构域以及功能分析保守结构域以及功能分析RNA结合结构域结合结构域核酸结合核酸结合蛋白质序列分析, 保守结构域以及功能分析RNA结合结构域核酸七七 基于同源序列的蛋白质功能预测基于同源序列的蛋白质功能预测蛋白质蛋白质A具有转录功能,蛋白质具有转录功能,蛋白质B与与A在氨在氨基酸序列上相似(直系同源),因而蛋白基酸序列上相似(直系同源),因而蛋白质质B也具有转录功能也具有转录功能AB转录活性转录活性 转录活性转录活性蛋白质蛋白质A蛋白质蛋白质B七 基于同源序列的蛋白质功能预测蛋白质A具有转录功能,蛋 至少80个氨基酸长度范围内具有25%以上的序列一致性才提示可能的显著性意义。
未知功能序列对库检索的一般分析策略如下:①和运行Blastp程序的服务器(ncbi.nlm.nih.gov/blast/)连接; ②将目的序列粘贴到序列输入框中,选择BLOSUM62记分矩阵运行BlastP程序NCBI的BlastP程序要求输入格式为FASTA格式; ③如果BlastP检测到了高度同源的序列,将有可能提示目的序列的生物学功能七七 基于同源序列的蛋白质功能预测基于同源序列的蛋白质功能预测•42 至少80个氨基酸长度范围内具有25%以上的序列一致性序列相似性比较作为一个非常有效的工具用于同源序列相似性比较作为一个非常有效的工具用于同源基因的发现基因的发现基于序列同源的蛋白质功能预测基于序列同源的蛋白质功能预测序列相似性比较作为一个非常有效的工具用于同源基因的发现基于序基于序列同源的蛋白质功能预测基于序列同源的蛋白质功能预测基于序列同源的蛋白质功能预测1.在uniprot数据库中检索人脂联素 (adiponectin)蛋白质序列;写出检索号2.使用分析平台ExPASy对上述蛋白质序列进行分子质量、氨 基 酸 组 成 ( protparam) 、 和 疏 水 性 等 基 本 性 质 分 析(protscale);写出分子质量是多少?氨基酸组成情况?哪个氨基酸所占比例最高?哪个最低?不稳定系数是多少?根据该系数判断,该蛋白质稳定吗?带正负电荷氨基酸个数分别是多少?疏水性分析结果如何?(截图报道图形结果,在图中标出疏水性高的位点三个,疏水性低的位点3个),并在文字结果中找到这些位点对应的的氨基酸编号和类型(格式例如6号亮氨酸)。
作作 业业•45在uniprot数据库中检索人脂联素 (adiponecti作 业3.预测海参溶菌酶A0MT08的信号肽,并分析结果,指出信号肽位置4.预测P69332的亚细胞定位,并翻译、分析、截取最终结果,指出该蛋白质在那些位置表达5.预测P69332的跨膜区,并分析预测结果,指出哪些区域是跨膜区6.使用COILS Server对对水稻瘤矮病毒RGDV P2蛋白卷曲螺旋预测分析,指出预测为卷曲螺旋的区域•46作 业预测海参溶菌酶A0MT08的信号肽,并分析结果,指作 业6.利 用 Interproscan分 析 人 脂 联 素 (adiponectin)蛋白质的结构域信息写出该蛋白包含哪些结构域?其可能的功能是什么?7.对人脂联素 (adiponectin)蛋白质进行blast搜索,找到与其同源的蛋白(前五个列出检索号和蛋白名称),分别来自于五个什么物种?•47作 业利用Interproscan 分析人脂联素 (adip实验报告•到网络教学平台-基因与蛋白质组学数据分析B2100029-教学材料-实验课件•下载基因与蛋白质组学数据分析实验报告模版•将上述问题答案整理到实验报告中,正反打印放在2张纸上(不超过2张),下次实验课上交。
•48实验报告到网络教学平台-基因与蛋白质组学数据分析B21000谢谢大家!谢谢大家!谢谢大家!谢谢!谢谢!50谢谢!50。
