好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

生物信息学资源检索ppt课件.ppt

53页
  • 卖家[上传人]:枫**
  • 文档编号:583516152
  • 上传时间:2024-08-29
  • 文档格式:PPT
  • 文档大小:2.52MB
  • / 53 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第八章第八章 生物信息学资源检索生物信息学资源检索 1 2生物信息学数据库概述生物信息学数据库概述一一生物信息学数据库的类型生物信息学数据库的类型 二二生物信息数据收集与存贮生物信息数据收集与存贮 三三生物信息学数据库的查找生物信息学数据库的查找2 3一、生物信息学数据库的类型一、生物信息学数据库的类型文献数据库文献数据库 突变数据库突变数据库 图谱数据库图谱数据库 结构数据库结构数据库 序列数据库序列数据库 类型类型按收录信息内容分按收录信息内容分 3 4二、生物信息数据收集与存贮二、生物信息数据收集与存贮 (一)生物信(一)生物信息数据的收集息数据的收集 生物信息数据生物信息数据收集与存贮收集与存贮 (二)生物信(二)生物信息数据的存贮息数据的存贮 4 5(一)生物信息数据的收集(一)生物信息数据的收集 数据库与数据库合作数据库与数据库合作数据库与测序中心合作数据库与测序中心合作数据库与期刊合作数据库与期刊合作 建库的初期建库的初期 4.数据交换.数据交换 3.成批发送.成批发送 2.直接发送.直接发送 1.人工收集.人工收集 5 6(二)生物信息数据的存贮(二)生物信息数据的存贮1.记录格式.记录格式主要有:主要有:EMBL格式、格式、GenBank格格式式存贮格式存贮格式2.序列格式:.序列格式: FASTA格式,格式,又称又称Pearson格式格式 6 三、生物信息学数据库的查找三、生物信息学数据库的查找 v通过搜索引擎查找通过搜索引擎查找 v通过专门的生物信息学数据库目录查询通过专门的生物信息学数据库目录查询§从2000年开始,《Nucleic Acids Research 》设立了一个数据库目录()。

      v通过生物信息学中心资源导航查询通过生物信息学中心资源导航查询§一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航 7 8核酸序列数据库核酸序列数据库vGenBank ::由美国国家生物技术信息中心由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核酸管理和维护大型、综合性的公共核酸序列数据库,包括所有已知的核酸序列和蛋白序列数据库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物学注释质序列,以及与它们相关的文献和生物学注释 v网址:网址: 8 9国际核酸序列数据库协作体国际核酸序列数据库协作体 INSDCINSDC DDBJDDBJ EMBLEMBL GenBankGenBank 9 GenBank检索检索 vEntrez是是NCBI生物信息学数据库集成检索系统,生物信息学数据库集成检索系统,可以检索以下生物信息学数据库可以检索以下生物信息学数据库 10 v例如,查找例如,查找H1N1流感病毒(流感病毒(H1N1 Flu Virus)的核酸序列其检索步骤是:)的核酸序列其检索步骤是: 11 ((1)进入)进入Entrez主页(),在提问框输入主页(),在提问框输入H1N1 Flu Virus。

      12 ((2)点击)点击“GO”,得到各个数据库的检索结果得到各个数据库的检索结果13 ((3)点击)点击“Nucleotide: Core subset of nucleotide sequence records”,得到,得到GenBank核酸序列数据库中的核酸序列数据库中的4801条记录简要格式(条记录简要格式(Summary)14 (4)点击记录的标题,即可获取该记录的详细信息点击记录的标题,即可获取该记录的详细信息15 16蛋白质数据库蛋白质数据库 一一蛋白质序列数据库蛋白质序列数据库 二二蛋白质结构数据库蛋白质结构数据库 三三蛋白质功能数据库蛋白质功能数据库16 17一、蛋白质序列数据库一、蛋白质序列数据库 (三)(三)TrEMBL (四)(四)GenPept (二)(二)SWISS-PROT (一)(一)PIR (五)(五)UniProt (六)(六)OWL 17 (一)(一)PIR v创建于创建于1984年 v1988年,美国年,美国NBRF、日本国际蛋白质信息数据库(、日本国际蛋白质信息数据库(Japan International Protein Information Database, JIPID)与)与德国的慕尼黑蛋白质序列信息中心(德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences, MIPS)合作成立国际蛋白质序)合作成立国际蛋白质序列信息中心(列信息中心(PIR-International)。

      v第第75.03版的版的PIR数据库按照数据的性质和注释详略分成四个子库:数据库按照数据的性质和注释详略分成四个子库:PIR1、、PIR2、、PIR3和和PIR4§PIR1中的序列已经验证,注释最为详尽;§PIR2中包含尚未确定的冗余序列;§PIR3中的序列尚未加检验,也未加注释;§PIR4包括其他渠道获得的序列,既未验证,也无注释v网址:网址:18 PIR主页主页19 (二)(二)SWISS-PROTv创建于创建于1986年年v由瑞士生物信息学研究所(由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,,SIB)和欧洲生物信息研究所)和欧洲生物信息研究所((EBI)共同维护和管理共同维护和管理 v1994年,年,SIB创建蛋白质专家分析系统创建蛋白质专家分析系统(Expert Protein Analysis System,,ExPASy) (),除了开,除了开发、维护和管理发、维护和管理SWISS-PROT数据库外,还提供蛋白数据库外,还提供蛋白质序列、结构、功能和蛋白质质序列、结构、功能和蛋白质2D-PAGE图谱等蛋白质信图谱等蛋白质信息资源息资源v到到2009年年10月,月,SWISS-PROT((57.11版)收录了版)收录了512994条序列,包含条序列,包含180531504个氨基酸。

      个氨基酸v网址:网址: 20 (三)(三)TrEMBL v创建于创建于1996年,意即年,意即“Translation of EMBL”,是计算机,是计算机翻译并注释的蛋白质序列数据库,收录的序列是从翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中的中的cDNA序列翻译得到的记录采用序列翻译得到的记录采用SWISS-PROT数据库格数据库格式vTrEMBL分为两个部分:分为两个部分:SP-TrEMBL和和REM-TrEMBL§SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号,但尚未通过人工审查,最终将收入SWISS-PROT§REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等 v 21 (四)(四)GenPept v由由GenBank中的中的cDNA序列翻译得到的蛋白质序列翻译得到的蛋白质序列数据库序列数据库 v网址:)网址:)22 (五)(五)UniProt v将将PIR 、、SWISS-PROT和和TrEMBL3个蛋白质数据库个蛋白质数据库统一起来组建而成,包含统一起来组建而成,包含3个部分:个部分:§(1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;§(2)UniRef (UniProt Non-redundant Reference)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;§(3)UniParc(UniProt Archive),是UniProt存档库,收录所有蛋白质序列。

      用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据 v网址:网址:23 (六)(六)OWL v1994年由英国里兹(年由英国里兹(Leeds)大学和)大学和Warrington的的Daresbury国家实验室合作创国家实验室合作创建并维护的一个复合型数据库建并维护的一个复合型数据库v数据来源于数据来源于SWISS-PROT、、PIR、、GenPept、、SWISS-PROT、、PDB、、NRL3D等数据库,去等数据库,去重后整合而成的非冗余蛋白质序列数据库重后整合而成的非冗余蛋白质序列数据库v网址:网址: 24 小结:小结:v①①SWISSPROT的序列经过严格审核,注释完善,但数的序列经过严格审核,注释完善,但数量仍较少量仍较少v②②PIR数据量较大,但包含未经验证的序列,注释也不完数据量较大,但包含未经验证的序列,注释也不完善v③③TrEMBL和和GenPept的数据量最大,且随核酸序列数的数据量最大,且随核酸序列数据库的更新而更新,但是由于据库的更新而更新,但是由于TrEMBL和和GenPept均是均是由核酸序列经过计算机程序翻译生成的,这两个数据库中由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。

      的序列错误率较大,并存在较多的冗余序列v④④OWL中的序列虽具有较好的代表性,但采用某些标准中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整取舍序列,导致某些数据不完整v⑤⑤UniProt中的序列具有较好的代表性,数据较完整中的序列具有较好的代表性,数据较完整 25 26二、蛋白质结构数据库二、蛋白质结构数据库 (三)(三)DSSP (四)(四)HSSP (二)(二)MMDB (一)(一)PDB (五)(五)SCOP (六)(六)CATH 26 (一)(一)PDBv创建于创建于1971年,是国际上最著名、最完整的蛋年,是国际上最著名、最完整的蛋白质三维结构数据库白质三维结构数据库v最先由美国最先由美国Brookhaven国家实验室负责维护和国家实验室负责维护和管理,从管理,从1998年开始,由结构生物信息学合作年开始,由结构生物信息学合作研究协会研究协会(RCSB)负责管理负责管理v到到2009年年12月统计,月统计,PDB数据库已经收录了利数据库已经收录了利用用X线衍射、线衍射、NMR、电子显微镜实验数据或理论、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质计算得出的蛋白质、核酸、蛋白质/核酸复合物核酸复合物等结构数据等结构数据61808条,而且数据增长速度相当快。

      条,而且数据增长速度相当快 27 vPDB数据库以文本文件格式存放数据,每条记数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括物种来源、化合物录即是一个独立的文件,包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献等基名称、原子坐标、结构提交者以及有关文献等基本注释信息本注释信息v此外,还包括分辨率、结构因子,温度系数、主此外,还包括分辨率、结构因子,温度系数、主链数目、配体分子式、金属离子、二级结构信息、链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据二硫键位置等和结构有关的数据v网址:网址: 28 PDB主页主页29 30 31三、蛋白质功能数据库三、蛋白质功能数据库 (三)(三)STRING (二)(二)DIP (一)(一)BOND (四)(四)KEGG 31 (一)(一)BOND vBOND是生物分子网络数据库,创建于是生物分子网络数据库,创建于2005年,由年,由Unleashed Informatics公司管理和维护公司管理和维护v主要收录生物分子及其蛋白质序列、结构和相互作用等数主要收录生物分子及其蛋白质序列、结构和相互作用等数据,其中生物分子包括蛋白质、据,其中生物分子包括蛋白质、DNA、、RNA、配基、复、配基、复合体、基因、光子(合体、基因、光子(photon)等。

      等vBOND集成了多个重要数据库,如集成了多个重要数据库,如BIND(生物分子相互(生物分子相互作用网络数据库作用网络数据库)、、SMID(小分子相互作用数据库)、(小分子相互作用数据库)、Genbank、、GO(基因本体)、(基因本体)、OMIM、、conserved domains(保守功能域)、交叉参考数据库、完整基因(保守功能域)、交叉参考数据库、完整基因组等v网址:网址: 32 BOND主页主页33 (二)(二)DIP vDIP专门存放实验确定的蛋白质之间相互作用的数据,既专门存放实验确定的蛋白质之间相互作用的数据,既包括经典实验手段确定的蛋白质相互作用,也包括高通量包括经典实验手段确定的蛋白质相互作用,也包括高通量实验手段确定的蛋白质相互作用数据实验手段确定的蛋白质相互作用数据v数据要经过人工审核和采用计算方法自动验证后加入数据数据要经过人工审核和采用计算方法自动验证后加入数据库数据的自动验证有库数据的自动验证有3种指标,即种指标,即EPR Index、、PVM Score和和DPV Scorev在目前缺乏蛋白质相互作用数据金标准的现实情况下,在目前缺乏蛋白质相互作用数据金标准的现实情况下,DIP为采用计算的方法自动验证高通量技术产生的蛋白质为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。

      相互作用数据做了开拓性的工作vDIP还利用还利用XML技术专门开发了一种用来存放和交换蛋技术专门开发了一种用来存放和交换蛋白质相互作用数据的白质相互作用数据的xin格式v网址:网址: 34 (三)(三)STRING vSTRING不仅存贮实验确定的蛋白质相互作用数据,而不仅存贮实验确定的蛋白质相互作用数据,而且还存贮预测的蛋白质相互作用数据,并对各种预测方法且还存贮预测的蛋白质相互作用数据,并对各种预测方法的准确性给出了相应的权重,对于采用经典实验方法研究的准确性给出了相应的权重,对于采用经典实验方法研究蛋白质的功能、生物学意义具有非常重要的意义蛋白质的功能、生物学意义具有非常重要的意义v数据来源有数据来源有4种,一是高通量实验技术产生的蛋白质相互种,一是高通量实验技术产生的蛋白质相互作用数据,二是由保守的共表达数据推导出的蛋白质功能作用数据,二是由保守的共表达数据推导出的蛋白质功能联系,三是文献搜索得到的蛋白质相互作用数据,四是采联系,三是文献搜索得到的蛋白质相互作用数据,四是采用预测蛋白质相互作用的方法,根据基因组中基因的上下用预测蛋白质相互作用的方法,根据基因组中基因的上下文关系(文关系(genomic context)预测得到的蛋白质相互)预测得到的蛋白质相互作用数据。

      作用数据v目前目前STRING数据库已经包括数据库已经包括179个物种中的个物种中的736429个蛋白,覆盖率相当高个蛋白,覆盖率相当高 v网址:网址:35 (四)(四)KEGG v京都基因和基因组百科全书京都基因和基因组百科全书(KEGG)是系统分析基因功能,是系统分析基因功能,联系基因组信息和功能信息的知识库联系基因组信息和功能信息的知识库v基因组信息存贮在基因组信息存贮在GENES数据库里,包括完整和部分测数据库里,包括完整和部分测序的基因组序列;序的基因组序列;v功能信息存贮在功能信息存贮在PATHWAY数据库里,包括图解的细胞数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;同系保守的子通路等信息;vKEGG的另一个数据库是的另一个数据库是LIGAND,包含关于化学物质、,包含关于化学物质、酶分子、酶反应等信息酶分子、酶反应等信息vKEGG提供了提供了Java的图形工具来访问基因组图谱,比较的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。

      较和通路计算的工具,可以免费获取v网址:网址: 36 KEGG主页主页37 38 39基因组数据库基因组数据库一一Entrez Gonomes 二二Ensembl 三三UCSC Genome Browser 四四其他基因组数据库其他基因组数据库 39 一、一、Entrez Gonomes vNCBI提供的,是世界上最大、最完整的多物种的基因组提供的,是世界上最大、最完整的多物种的基因组资源目前已收录资源目前已收录5937个物种的个物种的8500多条记录,多条记录,v按生物体分成古细菌(按生物体分成古细菌(Archaea)、细菌()、细菌(Bacteria)、)、真核生物(真核生物(Eukaryotae)、病毒()、病毒(Viruses)、类病毒)、类病毒((Viroids)和质粒()和质粒(Plasmids)六大类v提供了各种基因组图谱,包括完整的染色体、序列图谱、提供了各种基因组图谱,包括完整的染色体、序列图谱、遗传图谱、物理图谱和连续子(遗传图谱、物理图谱和连续子(contigs)图谱v可以通过可以通过Entrez进行关键词搜索,也可以通过进行关键词搜索,也可以通过Map Viewer进行浏览、检索及编辑。

      进行浏览、检索及编辑 v网址:网址: 40 Entrez Gonomes主页主页41 (一)(一)Map Viewer vMap Viewer是一种从众多资源中汇集图谱和序是一种从众多资源中汇集图谱和序列信息的图谱浏览器它既允许用户浏览和检索列信息的图谱浏览器它既允许用户浏览和检索某有机体完整基因组信息,又允许用户在序列水某有机体完整基因组信息,又允许用户在序列水平,通过浏览单个染色体图谱或某染色体上的特平,通过浏览单个染色体图谱或某染色体上的特定区域,探查完整基因组信息定区域,探查完整基因组信息v对于每一个基因组,对于每一个基因组,Map Viewer从从4个层次揭个层次揭示其信息:示其信息: §生物体主页(Home Page) §基因组浏览(Genome View) §图谱浏览(Map View) §序列浏览(Sequence View) 42 (二)(二)Map Viewer的使用的使用 Map Viewer主页43 检索结果检索结果 44 45鼠基因组数据库 人类基因组数据库 线虫基因组数据库 四、其他基因组数据库四、其他基因组数据库(一)(一)GDB(二)MDB (三)ACEDB 45 46疾病基因数据库疾病基因数据库 一一OMIM 三三Gene Expression Omnibus四四突变数据库突变数据库 五五单核苷酸多态性数据库单核苷酸多态性数据库 二二GeneCards46 OMIM概述概述 v“人类孟德尔遗传人类孟德尔遗传”((Online Mendelian Inheritance in Man,,OMIM),是在美国),是在美国John Hopkins大学医学大学医学院院Victor A..McKusick教授编撰的教授编撰的《《人类孟德人类孟德尔遗传尔遗传》》一书的基础上发展起来的,一书的基础上发展起来的,v内容包括所有已知的遗传病、遗传决定的性状及内容包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外等文本资料,还提断、鉴别诊断、治疗与预防外等文本资料,还提供已知有关疾病相关基因的连锁关系、染色体定供已知有关疾病相关基因的连锁关系、染色体定位、组成结构和功能、动物模型,并附有其相关位、组成结构和功能、动物模型,并附有其相关的图片、研究历史和参考文献。

      的图片、研究历史和参考文献 vEntrez中检索中检索47 48OMIM在医学遗传学中的应用价值在医学遗传学中的应用价值1234利用利用OMIM statistics 了解最新了解最新的有关遗的有关遗传病、性传病、性状及基因状及基因的信息 利用利用OMIM数据库获得数据库获得遗传病诊断、遗传病诊断、咨询及治疗咨询及治疗的资料 利用利用OMIM数据库获取数据库获取遗传病最新、遗传病最新、最详细的研最详细的研究资料 利用利用OMIM的的Gene map和和Morbid Map获取疾获取疾病基因定位病基因定位的详细资料的详细资料 48 GeneCards v人类基因及其产物和相关疾病等综合信息的知识人类基因及其产物和相关疾病等综合信息的知识平台平台v以色列以色列Weizmann研究所开发研究所开发v每个基因的信息来源于大约每个基因的信息来源于大约50个数据库个数据库49 50 Gene Expression Omnibus51 52 总结总结 v生物信息数据库的查找:生物信息数据库的查找:搜索引擎搜索引擎;;数据数据库目录库目录;;生物信息学中心资源导航生物信息学中心资源导航v核酸序列数据库核酸序列数据库 GenBankv蛋白质数据库蛋白质数据库 SWISS-PROT v基因组数据库基因组数据库 Entrez Genomesv疾病基因数据库疾病基因数据库 OMIM; GeneCards53 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.