
美国国立生物技术信息中心NCBI的数据库资源.doc
10页美国国立生物技术信息中心〔NCBI〕的数据库资源生命学院生物技术专业2002级 周帅 ** 021402142[摘要]除了提供GenBank核酸序列数据库以外,美国国家生物技术信息中心还提供对于GenBank中数据的分析,检索资源,另外还通过其提供一系列的有价值的生物数据及信息NCBI 数据的检索资源包括Entrez, PubMed, LocusLink 以及Ta*onomy浏览器数据分析资源包括BLAST,电子PCR,开放阅读框寻觅器,序列提交工具,唯一人类基因序列集合,基因同源物数据库,单核苷酸多态性数据库(dbSNP),人类基因组测序,人类基因组基因图谱,分类学浏览器,人-鼠同源基因图谱, 异常癌症基因组方案(CCAP),Entrez 基因组,垂直同源基因簇(COGs)数据库,反转录病毒基因分类工具,癌症基因组剖析方案(CGAP),基因表达连续分析图谱(SAGEmap),综合性基因表达(GEO),孟德尔人类遗传(OMIM),三维蛋白质构造的分子模型数据库(MMDB)以及保守序列数据库(CDD)BLAST程序通过增加一些的应用程序实现搜索*些特殊数据的最优化方式所有的资源可以通过NCBI的首页得到:。
引言作为美国国家卫生研究院〔NIH〕的国立医学图书馆〔NLM〕的一个分支,美国国家生物技术信息中心〔NCBI〕成立于1988,其目标是开展新的信息学技术来帮助对那些控制**和疾病的根本分子和遗传过程的理解除了提供由各个科研院所直接提供的GenBank 核酸序列数据库以外,NCBI还提供对于GenBank中数据检索系统和计算工具以帮助分析GenBank的数据以及其他的NCBI提供的可利用的生物信息数据NCBI首页()所提供的可用数据涵盖了局部基因的代表性短序列、完整的基因组、蛋白质构造以及一些遗传疾病的临床描述NCBI提供了一系列的计算工具以帮助分析各种类型的数据总体来说,NCBI的整套数据库资源分为7大类:数据库检索系统,相似序列检索程序,基因序列分析数据库,染色体序列数据库,基因组分析数据库,基因表达与显型分析数据库,以及蛋白质构造和建模数据库数据库检索工具EntrezEntrez是一个综合的数据库检索系统,可以通过三维蛋白质构造的分子模型数据库〔MMDB〕搜索到DNA和蛋白质序列、基因组图谱、人类数据以及蛋白质构造并通过深入到NCBI的分类中的PubMed以及孟德尔人类遗传〔OMIM〕搜索生物医学文献。
Entrez中的序列数据,尤其是蛋白质序列,是通过各种数据库资源〔包括GenBank蛋白质翻译, 蛋白质鉴别数据库 (4), SWISS-PROT〔文本术语〕 (5),蛋白质研究根底,蛋白质数据库 (6) 以及数据库参考序列 (7)〕获得的,并且因此比单独的GenBank拥有更多的序列数据PubMed主要包括联机医学文献分析和检索系统〔MEDLINE〕中的107,000,000多篇参考文献及其摘要,它们了多于1100种网络中的可用刊物的论文全文Entrez可通过简单的检索条目进展序列文本或著书目录的搜索,加之大量的相关信息些是简单对照,例如从一个序列到报道它的文章的摘要,从一个蛋白质序列到它的相应DNA序列,或是从*一序列去其它序列其余的则是基于序列或MEDLINE摘要中的相似性进展搜索这些预先计算的“邻居〞使得快速浏览相关记录成为可能一个名为LinkOut的效劳将单独数据库的记录延伸至相关的外界效劳,包括特定生物体基因组的数据库分类浏览器NCBI的分类数据库包括大于79000个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列分类浏览器可以用于检索一个特定分类级别〔种或者更高分类如属、科〕的核酸,蛋白,序列和构造记录。
NCBI的分类学搜索可以基于整体的、局部的或是形声〔基于发音拼写〕的生物名称,并同时提供在生物搜索中普遍应用的直接的NCBI新的分类数据库的目的是为序列数据库建立一个一致的自定义种系发生分类学系统位点位点数据库由NCBI及其国际合作组织维护,它提供一个单一查询界面来找到*一个遗传位点的序列和描述性信息,它展现官方命名,别名,序列登录,表型,EC,MIM,UniGene聚类,同源,图谱位点,和相关的信息相似性序列搜索程序的BLAST生物基因数据库系统BLAST搜索程序系统为GenBank的最高频分析类型——相似性序列搜索而提供NCBI对于标准2.1BLAST程序的网络界面允许一个或多个序列并且使用同一矩阵搜索核酸或是一个PAM或BLOSUM氨基酸置换矩阵搜索蛋白质BLAST允许在它产生的队列〔alignments〕中存在缺口,到全文记录并伴随一个队列刻痕以及一个用来判断队列性质的统计学重要性尺度——期望值网络BLAST提供一个由颜色标记的队列的图谱总览,它清晰的展示了序列相似性的程度及质量〔性质〕以及队列中缺口的存在网络BLAST也可以产生一个从分类学角度组织的着重强调相似性序列分类类型的结果。
BLAST默认搜索的数据库是构造Entrez数据库的无冗余的核酸及蛋白质数据库个别的特殊数据库也可被检索,而且检索可以被限制在*一特定生物体的序列所查询序列可因为低复杂度或者人为重复而被过滤掉用户定制的BLAST网页允许与已测出的人类遗传数据相冲突的序列,微生物基因组或一些疾病关联的基因组存在BLAST的专门版本被提供用于相似蛋白质的搜索特定位点重复的BLAST最初执行传统的BLAST检索以找出构建PSSM的序列后来的BLAST利用PSSM去寻找数据库中的相似性序列PHI-BLAST指定了搜索序列以及其中的模式这个模式详细列明了阵列与数据库序列的匹配情况,并建立最正确阵列另外一个变量,“BLAST2Sequences〞,比对两个DNA或蛋白质序列并产生一个它所检出的阵列的dot-plot显示Basic BLAST 2.0搜索也可以通过向以下地址发送电子而实行:blastncbi.nlm.nih.gov.相关文件可以通过向效劳器地址发送“帮助〞而得到基因水平的序列的数据库资源UniGene为了控制EST数据的冗余度,NCBI提供了UniGene,作为一个自动分隔GenBank〔包括ESTs〕序列成为非冗余的基因来源的clusters数据库。
通常有5个UniGene数据库,分别是人,小鼠、大鼠、斑马鱼以及牛的UniGene以适宜的GenBank的生物分类以及那些共享一样3'末端的ESTs生物序列为检索入口每一个UniGene 的cluster包含代表一个单独基因的序列并相关信息,例如基因表达的组织类型,模式生物蛋白质相似性,LocusLink关于此基因的描述以及其图谱位点在人类UniGene数据库中,超过18,000,000的GenBank中的人类ESTs被通过21次折叠而简化到约为84000个clusters序列同样,小鼠、大鼠、斑马鱼以及牛的ESTs被分别压缩到73 000, 37 000,10 000, 5500 clusters人类UniGene收集已经被用作有效的人类基因图谱测绘工具在这种情况下,基因及ESTs的3'末端被转化为STSs,并被置于物理图谱以及先前存在的基因组遗传图谱中UniGene同样被用做研究大规模基因表达的单一序列资源UniGene数据库每周更新其EST序列,并且每两个月更新一次最新的有特色的序列UniGene clusters可以通过多种方式搜索:基因名称、染色体位置、cDNA文库、索取号、以及一般性的文本语言等。
Cluster序列可以通过FTP下载HomoloGeneHomoloGene 是一个包含Curated和计算的UniGene 和LocusLink中的同源和ortholog的人类、小鼠、大鼠、斑马鱼和牛的基因Curated 不同源基因包括Jackson实验室的大鼠基因组数据库基因对以及俄勒冈州大学的斑马鱼序列数据库,另外还来自以发表的论文计算的同源及ortholog的基因被仔细推定,经过BLAST核算序列与UniGeneclusters的每对基因序列的比对分析HomoloGene 也包含三个一组的ortholog clusters ,其中的一个ortholog在另外两个生物体中是一样的对于人类、小鼠和大鼠这三种生物体,目前有超过7000个这种自身一致的三连体HomoloGene 数据库可以通过查询UniGene Cluster,LocusLink Locus, 基因特征, gene 名称、核苷酸获取以及在UniGene cluster篇名中的术语来实现检索最近的相关数据也可以以FTP的文件获得参考序列(RefSeq)参考序列(RefSeq)数据库为中心法则中自然存在的分子,从人类或其它生物的染色体到mRNA到蛋白提供参考序列标准。
单核苷酸多态性数据库(dbSNP)单核苷酸多态性数据库(dbSNP)作为由研究机构和组织“堆放〞的SNPs,小*围的插入或缺失以及多态重复单元,和微卫星变异的“仓库〞开放阅读框寻觅器〔ORF Finder〕开放阅读框寻觅器〔ORF Finder〕可执行一个核苷酸六阅读框的翻译并报告一个包含每一个找到的阅读框的位点图解用户可以设置要搜索的阅读框的长度限制预知的蛋白质产物的序列可以直接提交到BLAST中或是相对与COGs数据库进展检索电子PCR基于PCR的STSs检验可以被用于基因鉴定及绘图电子PCR (e-PCR) 将一个查询核苷序列同已经定位的STSs比较,来发现查询序列的可能的图谱定位电子PCR应用索取号或序列作为输入信息,并报告一个符合的dbSTS记录的表格以及所用来扩增每个被鉴定出的STS的引物染色体序列资源数据库人类基因组测序资源人类基因组测序站点展示了一些特殊染色体在人类测序工程中的进展,提供了个体的contigs及装配过程,并提供了特殊染色体的BLAST搜索与重要的基因组测序中心的也被提供序列数据可以通过染色体或contig的形式进展下载人类基因组图谱阅读器人类基因组图谱阅读器可以同时显示多达7个平行的染色体图谱。
显示的图谱可从19套中加以选择,包括细胞发生图谱,例如染色体符号,基于序列的图谱例如那些反映contigs、基因以及SNPs的混合放射图谱例如用于构建GeneMap’99的G3和 GB4图谱对于整个人类基因组或是个别染色体的查询可以通过基因名称、特征、标记名称、SNP标识符、索取号及其它标识实现人类基因组图谱阅读器是与NCBI的LocusLink和dbSNP数据库等严密相通的一个类似于人类基因组图谱阅读器的图谱阅读器也被用于显示果蝇的基因组数据99基因图谱〔GeneMap’99〕在1994年成立了一个国际性的组织,它的目标是通过测定ESTs相对于一个很有特点的遗传标记的位点而构建人类基因组图谱此图谱的最新版本是混合放射图谱,含有30,261个单独的基因位点人鼠同源图谱及大鼠测序资源人鼠同源图谱显示了人鼠同源DNA的遗传位点图谱经由人和鼠的同族基因数据库信息计算而来图谱到GeneMap’99, OMIM, LocusLink, dbSTS,BLAST2Sequences 以及Jackson实验室的大鼠基因组数据库在鼠基因组测序网页可以找到其它的鼠基因组序列资源,类似于上述讨论的人类基因组测序网页。
异常癌症基因组方案(CCAP)异常癌症基因组方案是由美国国家癌症研究院和NCBI发起的数据包括Lund, Sweden大学的癌症染色体失常库中的由F. Mitelman,F. Mertens 和B. Johansson 编辑的再生性肿瘤关联的失常染色体细菌人工染色体〔BAC〕也被提供,通过CCAP’s的FISH提供人类染色体绘图数据基因组分析资源数据库Entrez 基因组E。












