
序列数据库--核酸序列数据库.ppt
113页4.2 序列数据库,序列数据库,核酸序列数据库 蛋白序列数据库,,4.2 序列数据库—核酸数据库,4.2.1 核酸数据库 4.2.2 数据库序列格式 4.2.3 数据库的查询 4.2.4 数据库搜索 4.2.5 数据提交 4.2.6 核酸数据库使用实例,4.2.1 核酸数据库,,1.常用核酸序列数据库,国际上权威的核酸序列数据库 欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de 美国生物技术信息中心的GenBank http://www.ncbi.nlm.nih.gov/Web/Genbank/ 日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/,,1988年,EMBL、GenBank 与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系 根据协议,这三个数据中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
NCBI—GenBank,美国国家健康研究院(National Institurte of Health,简称NIH) 于80年代初委托洛斯阿拉莫斯(Los Alamos)国家实验室建立GenBank, 1982年正式运行 后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆(National Liabraty of Medicine,简称NLM),EBI —EMBL,EMBL是由欧洲分子生物学实验(European Molecular Biology Laboratory) 于1982年创建的 目前由欧洲生物信息学研究所EBI ( European Bioinformatic Institurte)负责管理DDBJ,DDBJ是DNA Data Base of Japan的简称,创建于1986年,由日本国家遗传学研究所负责管理2.其它常用核酸序列数据库,dbEST UniGene dbSNP ……,3.GenBank、EMBL数据库结构,了解序列数据库的格式,有助于更好地使用,提高数据库检索的效率和准确性 DDBJ数据库的内容和格式与GenBank相同 下面分别介绍EMBL和GenBank的数据库结构,GenBank数据库结构,完整的GenBank数据库包括 序列文件 索引文件 其它有关文件 索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。
GenBank序列文件,GenBank中最常用的是序列文件 序列文件的基本单位是序列条目,包括核酸碱基排列顺序和注释两部分 目前,许多生物信息资源中心通过计算机网络提供该数据库文件,GenBank序列文件的结构,GenBank序列文件由单个的序列条目组成 序列条目由字段组成 每个字段由关键字起始,后面为该字段的具体说明 有些字段又分若干子字段,以次关键字或特性表说明符开始 每个序列条目以双斜杠“//”作结束标记,,序列文件: 序列条目 字段 关键字 “//”,GenBank序列条目的关键字,LOCUS (序列名称) DEFINITION (说明) ACCESSION (接收编号) NID (核酸标识) KEYWORDS (关键词) SOURCE (数据来源) REFERENCE (文献) FEATURES (特性表) BASE COUNT (碱基组成) ORIGIN (碱基排列顺序),,EMBL数据库结构,EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分 序列条目由字段组成 每个字段由标识字起始,后面为该字段的具体说明有些字段又分若干次子字段,以次标识字或特性表说明符开始 最后以双斜杠“//”作本序列条目结束标记,EMBL条目的关键字,ID(序列名称) DE(序列简单说明) AC(序列编号) SV(序列版本号) KW(与序列相关的关键词) OS(序列来源的物种名),OC(序列来源的物种学名和分类学位置) RN(相关文献编号或递交序列的注册信息),RA(相关文献作者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者单位),RX(相关文献 Mediline引文代码),RC(相关文献注释),RP(相关文献其他注释) CC(关于序列的注释信息) DR(相关数据库交叉引用号) FH(序列特征表起始),FT(序列特征表子项) SQ(碱基种类统计数),4.2.2 数据库序列格式,GenBank和EMBL数据结构对比 E. coli k-12全基因组序列文件为例,LOCUS U00096 4639221 bp DNA circular BCT 18-NOV-1998 DEFINITION Escherichia coli K-12 MG1655 complete genome. ACCESSION U00096 KEYWORDS . SOURCE Escherichia coli. ORGANISM Escherichia coli Bacteria; Proteobacteria; gamma subdivision; Enterobacteriaceae; Escherichia. REFERENCE 1 (bases 1 to 4639221) AUTHORS Blattner,F.R., Plunkett,G. III, Bloch,C.A., Perna,N.T., Burland,V., … TITLE The complete genome sequence of Escherichia coli K-12 JOURNAL Science 277 (5331), 1453-1474 (1997) MEDLINE 97426617 … COMMENT This sequence was determined by the E. coli Genome Project at the University of Wisconsin-Madison (Frederick R. Blattner, director). Supported by NIH grants HG00301 and HG01428 (from Human Genome Project and NCHGR). The entire sequence was independently determined from E. coli K-12 strain MG1655. Predicted open reading frames were determined using GeneMark software, kindly supplied by …,,GenBank,FEATURES Location/Qualifiers source 14639221 /organism=“Escherichia coli“ /strain=“K-12“ /sub_strain=“MG1655“ /db_xref=“taxon:562“ promoter 7199 /note=“factor Sigma70; predicted +1 start at 106“ promoter 104132 /note=“factor Sigma70; predicted +1 start at 139“ promoter 188212 /note=“factor Sigma32; predicted +1 start at 219“ gene 190255 /note=“b0001“ /gene=“thrL“ CDS 190255 /gene=“thrL“ /function=“leader; Amino acid biosynthesis: Threonine“ /note=“o21; 100 pct identical to LPT_ECOLI SW: P03059“ /codon_start=1 /transl_table=11 /product=“thr operon leader peptide“ /db_xref=“PID:g1786182“ /translation=“MKRISTTITTTITITTGNGAG “ … BASE COUNT 1142136 a 1179433 c 1176775 g 1140877 t,,ORIGIN 1 agcttttcat tctgactgca acgggcaata tgtctctgtg tggattaaaa aaagagtgtc 61 tgatagcagc ttctgaactg gttacctgcc gtgagtaaat taaaatttta ttgacttagg 121 tcactaaata ctttaaccaa tataggcata gcgcacagac agataaaaat tacagagtac 181 acaacatcca tgaaacgcat tagcaccacc attaccacca ccatcaccat taccacaggt 241 aacggtgcgg gctgacgcgt acaggaaaca cagaaaaaag cccgcacctg acagtgcggg 301 cttttttttt cgaccaaagg taacgaggta acaaccatgc gagtgttgaa gttcggcggt 361 acatcagtgg caaatgcaga acgttttctg cgtgttgccg atattctgga aagcaatgcc 421 aggcaggggc aggtggccac cgtcctctct gcccccgcca aaatcaccaa ccacctggtg … … 4639021 caacatcaac tgcaagcttt acgcgaacga gccatgacat tgctgacgac tctggcagtg 4639081 gcagatgaca taaaactggt cgactggtta caacaacgcc tggggctttt agagcaacga 4639141 gacacggcaa tgttgcaccg tttgctgcat gatattgaaa aaaatatcac caaataaaaa 4639201 acgccttagt aagtattttt c //,ID U00096 standard; circular genomic DNA; CON; 4639221 BP. AC U00096; SV U00096.1 DT 24-JUL-2003 (Rel. 76, Last updated, Version 3) DE Escherichia coli K-12 MG1655 complete genome. KW . OS Escherichia coli K12 OC Bacteria; Proteobacteria; Gammaproteobacteria; Enterobacteriales; OC Enterobacteriaceae; Escherichia; Escherichia coli. RN [1] RP 1-4639221 RX MEDLINE; 97426617. RX PUBMED; 9278503. RA Blattner F.R., Plunkett G. 。












