好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

生物序列的数据库信息检索..ppt

72页
  • 卖家[上传人]:壹****1
  • 文档编号:607702780
  • 上传时间:2025-05-25
  • 文档格式:PPT
  • 文档大小:3.16MB
  • / 72 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,生物信息学,第五章:生物序列的数据库信息检索,本章内容提要,1,,序列数据库,,2,,功能数据库,,3,,检索系统,,4,,双序列,Blast,比对实例,,5,,序列数据信息检索实例,,,1,, 序列数据库,核酸序列数据库,,国际三大核酸序列数据库:,,GenBank, EBML, DDBJ,,RefSeq: The Reference Sequence,,Database,,dbEST: Expressed Sequences Tags,数据库,,UniGene,等,,蛋白质序列数据库,,UniProt (Swiss-prot & TrEMBL, PIR),,基因组数据库,:,Ensembl,NCBI数据资源,,Nucleotide: 核酸序列数据库,,PubMed: 生物医学科学文摘数据库,,GEO:基因表达谱数据库。

      收集存储微阵列基因表达数据,,Protein: 蛋白质序列数据库,,SNP: 单核苷酸多态性数据库,,Taxonomy: 物种分类学数据库,,Gene: 基因数据库提供序列及基因描述信息,,Structure: 大分子三维结构数据库,,3D Domains: 特定功能域的三维结构数据库,,UniGene: GenBank别离的非冗余基因簇包含已确定基因和EST每个簇包含唯一的非冗余的基因序列、表达的组织类型和基因图谱位点UniSTS,:,序列标签位点数据库,用于作图位点,,PopSet,:,人口研究数据库,,Books,:,生物医学图书数据库,,OMIM,:,人类孟德尔遗传目录数据库,,Conserved Domains,:,保守结构域数据库,,Cancer Chromosomes,:,癌症染色体数据库,,Homologene,:,基因同源物数据库,,Journals,:,杂志及出版社信息数据库,,Genome,:,基因组数据库,提供完成的基因组,/,染色体图形,,GDS,: GEO,的基因表达实验与生物芯片数值结果数据库,,NCBI,主要基因序列数据库,GenBank:包含了所有的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。

      其数据直接来源于测序工作者提交的序列,为原始数据积累的开放数据库,数据可能存在重复以及不准确UniGene:对核酸序列数据库的数据进行适当处理,剔除冗余局部后,同一基因包括表达序列标签的序列簇,多用于研究基因的转录图谱RefSeq:提供非冗余的,高质量的,经检验校正的序列信息;包括染色体、基因组〔细胞器、病毒、质粒〕、蛋白质、RNA等Nucleotide database,including GenBank, RefSeq, TPA and PDB.,,Genome, gene and transcript sequence data provide the foundation for biomedical research and discovery.,Entres-Gene,数据库,序列来源于Refseq数据库;,,详尽的注释信息,包括基因在基因组的定位,基因名称、蛋白质名称,基因结构等;,,基因的命名主要来自权威命名委员会的官方符号以及Refseq记录中的基因名,由NCBI工作人员进行数据收集并注释NLM的索引部门对基因功能进行阐述沿用人类孟德尔遗传网〔OMIM〕中的疾病名称并与NCBI其他数据库形成交互链接。

      NCBI Gene,,UniProt,Universal Protein Resource:,,Swiss-prot(TrEMBL), PIR两大蛋白数据库的整合体;,,收录蛋白质序列目录最广泛、功能注释最全面的数据库;,,包含三个子库:,,UniProtKB〔UniProt Knowledgebase〕,,UniRef〔UniProt Reference Clusters〕,,UniParc〔Uniprot Archive〕,,://,PROSITE,收集了生物学有显著意义的蛋白质位点和序列模式;,,根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族;,,序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;,PROSITE,,2,, 功能数据库,相互作用的蛋白质数据库 DIP,,转录调控区数据库 TRRD,,…,,Gene Ontology 〔GO〕,相互作用的蛋白质数据库,DIP,收集了由实验验证的蛋白质-蛋白质相互作用;,,包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个局部;,,用户可以根据蛋白质、生物物种、蛋白质超家族、关键词、实验技术或引用文献来查询DIP数据库;,转录调控区数据库,TRRD,,在不断积累的真核生物基因调控区结构-功能特性信息根底上构建;,,每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等;,,:///,Gene Ontology 〔GO〕,基因功能归类注释;,,最根本的概念是term;每个term都有一个唯一的数字标记(GO:nnnnnnn)和一个term名,比方“signal transduction〞。

      每个term都属于一个ontology一个基因或蛋白质可从三个Ontology层面来注解 :,,molecular function;,,cellular component;,,biological process;,Gene Ontology,,3,, 检索系统,NCBI,:,Entrez,,EBI,:,SRS,,ExPASy,,…,,NCBI,:,Entrez,://,NCBI,:,Entrez,,检索规那么,,逻辑运算符〔大写〕: AND ,OR,NOT,,运算过程由左至右,〔〕局部优先,,空格分隔默认逻辑关系为 AND,,多个单词短语加双引号,,模糊检索使用 *,,用[ ]限定字段,如限定基因名称为ATG1的检索 :ATG1[GENE],,EBI-SRS:,Sequence Retrieval System,欧洲生物信息研究所〔EBI〕开发的基于WEB的数据库检索及导航系统;,:///,ExPASy,Expert Protein Analysis System;,,瑞士生物信息研究所SIB下属的蛋白质分析专家系统;,,ExPASy的Web效劳器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。

      4,双序列Blast比对实例,,PDGF-related-transforming protein sis (Woolly monkey sarcoma virus),,,MTLTWQGDPIPEELYKMLSGHSIRSFDDLQRLLQGDSGKEDGAELDLNMTRSHSGGELESLARGKRSLGSLSVAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCEIVAAARAVTRSPGTSQEQRAKTTQSRVTIRTVRVRRPPKGKHRKCKHTHDKTALKETLGA,,,Platelet-derived growth factor subunit B (Homo sapiens),,,,MNRCWALFLSLCCYLRLVSAEGDPIPEELYEMLSDHSIRSFDDLQRLLHGDPGEEDGAELDLNMTRSHSGGELESLARGRRSLGSLTIAEPAMIAECKTRTEVFEISRRLIDRTNANFLVWPPCVEVQRCSGCCNNRNVQCRPTQVQLRPVQVRKIEIVRKKPIFKKATVTLEDHLACKCETVAAARPVTRSPGGSQEQRAKTPQTRVTIRTVRVRRPPKGKHRKFKHTHDKTALKETLGA,,BCNI: Blast,,:///,,,,双序列比对结果,,,Score,Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基〔或碱基〕打分求和的结果,一般来说,匹配片段越长、 相似性越高那么Score值越大。

      Identities: exact matches,,Positives: similarities based on the scoring matrix used.,E-Value,Expect value:在一个特定大小的数据库中碰巧搜索到打分值约为Score的不同序列的个数E值随Score增加,呈指数减少;,,实质上,E指反映随机本底噪音;越接近零,说明该打分值的显著性越好相同序列相似性的比对,序列越长那么E-Value越小,反映偶然发生的概率越小5,序列数据信息检索实例,,某天,,Prof. Gene,发现人的,Hela,细胞中,有丝分裂期间有异常情况:细胞不再分裂,而是开始凋亡,(phenotype),,通过实验的方法,(,例如,酵母双杂交,),,发现了与有丝分裂期间某个蛋白可能相互作用的一个基因,测序结果如下,(genotype),:,CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCGCTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,问题一:,这是什么基因?,nucleotide blast,,,:///,提交序列,,输入序列,Blast结果,,,Blast结果2,,Gene info,:基因信息,,BIRC5(survivin),,,,Gene info: 17号染色体,,功能注释:Gene Ontology,,,结论一,,1.,该基因为人的,BIRC5(survivin),基因,染色体定位:,17,号染色体,,73721872-73733311,;基因标识符:,NM_001168.2;,,2.,初步的功能分析:细胞周期,,caspase,酶的抑制因子,等等。

      问题二:,编码的蛋白质序列是怎样的?,,获取蛋白质的序列信息,,:142aa,,结论二,,人的Survivin蛋白质包含142个氨基酸,序列标识符为:,,问题三:,有没有保守的功能结构域,(domain),?,获取FASTA序列,,,FASTA格式的序列,,查询保守结构域,,:///,输入蛋白质的FASTA序列,,BIR domain,,结论三,,Survivin具有保守的功能结构域BIR,,问题四:,它的功能是怎样的?,UniProt: 蛋白质数据库,,在人源数据库中做BLAST搜索,,O15392,,,BIRC5的蛋白质信息,,功能注释,,结论四:功能分析,,在瘤形成过程中可能起一定作用;,,阻碍G2/M期的细胞编程性凋亡;,,Chromosomal passenger complex (CPC)的成员之一细胞亚定位:胞质,核……,,问题五:,它在真核生物中保守吗?,ExPASy Blast,,在酵母中进行序列比对,,酵母BIR1: P47134,,酵母BIR1的信息,,结论五:,,人的Survivin在酵母中的同源物可能是BIR1,,问题六:,有没有三级结构信息?,Uniprot,,PDB,三级结构数据库,PDB的三级结构信息,,,用Jmol显示三级结构,,总结,,现在,Prof. Gene知道了:,,1. 该基因为人的Survivin基因,染色体定位:17号染色体,73721872-73733311;基因标识符:NM_001168.2;,,2. 人的Survivin蛋白质包含142个氨基酸,序列标识符为:,,3. Survivin具有保守的功能结构域BIR;,,4. Survivin的细胞亚定位:胞质,核,其功能有:,,(1) 在瘤形成过程中可能起一定作用;,,(2) 阻碍G2/M期的细胞编程性凋亡;,,(3) Chromosomal passenger complex (CPC)的成员之一。

      等等5. 人的Survivin在酵母中的同源物可能是BIR1;,,6. Survivin的三级结构,在PDB中的标识符为1E31等。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.