好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

GeneBank的使用.ppt

127页
  • 卖家[上传人]:工****
  • 文档编号:575868828
  • 上传时间:2024-08-18
  • 文档格式:PPT
  • 文档大小:5.86MB
  • / 127 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • GeneBankGeneBank的使用的使用 生物信息学数据库欧洲分子生物学实验室的EMBLhttp://www.embl-heidelberg.de美国生物技术信息中心的GenBankhttp://www.ncbi.nlm.nih.gov/Genbank/日本国立遗传研究所的DDBJhttp://www.ddbj.nig.ac.jp/searches-e.html核酸序列数据库 GenBank数据库结构n n作用:了解序列数据库的格式,有助于更好地提高数据库作用:了解序列数据库的格式,有助于更好地提高数据库检索的效率和准确性检索的效率和准确性n nDDBJDDBJ数据库的内容和格式与数据库的内容和格式与GenBankGenBank相同,此处不作详细相同,此处不作详细介绍n n分别介绍分别介绍EMBLEMBL和和GenBankGenBank的数据库结构的数据库结构 GenBank数据库数据注释数据库数据注释(www.ncbi.nlm.nih.gov/genbank/ )n nGenBankGenBank库包含所有已知的核酸序列和蛋白质序列库包含所有已知的核酸序列和蛋白质序列,   ,  以及与以及与它们相关的文献著作和生物学注释。

      它们相关的文献著作和生物学注释n nNCBINCBI可提供广泛的数据查询、序列相似性搜索以及其它分可提供广泛的数据查询、序列相似性搜索以及其它分析服务n n数据库数据库•序列文件:注释内容序列文件:注释内容————文章文章•索引文件:检索目录索引文件:检索目录————文摘文摘 GenBank数据库结构数据库结构n n完整的完整的   GenBankGenBank数据库包括序列文件,索引文件以及其它数据库包括序列文件,索引文件以及其它有关文件有关文件n n索引文件是根据数据库中作者、参考文献等建立的,用于索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询数据库查询n nGenPeptGenPept是由是由GenBankGenBank中的核酸序列翻译而得到的蛋白质序中的核酸序列翻译而得到的蛋白质序列数据库列数据库n n数据格式为数据格式为FastAFastA    GenBank数据库结构n nGenBankGenBank中最常用的是序列文件中最常用的是序列文件n n序列文件的基本单位:是序列条目,包括核苷酸碱基排列序列文件的基本单位:是序列条目,包括核苷酸碱基排列顺序和注释两部分。

      顺序和注释两部分n n生物信息资源中心通过计算机网络提供该数据库文件生物信息资源中心通过计算机网络提供该数据库文件n n注释条目:文章的格式注释条目:文章的格式(www.ncbi.nlm.nih.gov/genbank/ Genbank Genbank 查找页面 D31716描述部分 CDs are recurring units in polypeptide chains (sequence and structure motifs), the extents of which can be determined by comparative analysis. Molecular evolution uses such domains as building blocks and these may be recombined in different arrangements to make different proteins with different functions. CD s编码序列,含终止密码子 polyA_signal 多聚A信号  D31716特性表序列本身关键字CDs are recurring units in polypeptide chains D31716序列本身 序列结束4859 bp D31716 GenBank数据记录 GenBank数据记录 GenBank数据库结构n nGenBankGenBank序列文件由单个的序列条目组成。

      序列文件由单个的序列条目组成n n序列条目由字段组成,每个字段由关键字起始,后面为该序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明字段的具体说明n n字段分若干次子字段,以次关键字或特性表说明符开始字段分若干次子字段,以次关键字或特性表说明符开始n n每个序列条目以双斜杠每个序列条目以双斜杠“ “//”//”作结束标记作结束标记 GenBank数据库结构n n序列条目的格式非常重要,关键字从第一列开始,次关键序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始字从第三列开始,特性表说明符从第五列开始n n每个字段可占一行,也可以占若干行每个字段可占一行,也可以占若干行n n若一行中写不下时,继续行以空格开始若一行中写不下时,继续行以空格开始    GenBank数据库n n物种:物种:GenBank GenBank 库里的数据按来源于大约库里的数据按来源于大约100,000100,000个物种,个物种,其中其中56%56%是人类的基因组序列是人类的基因组序列( (所有序列中的所有序列中的34%34%是人类的是人类的ESTEST序列序列) )n n记录:每条记录:每条GenBankGenBank数据记录包含对序列的简要描述,它数据记录包含对序列的简要描述,它的科学命名,物种分类名称,参考文献,序列特征表,及的科学命名,物种分类名称,参考文献,序列特征表,及序列本身序列本身 GenBank数据库n n序列特征表:包含对序列生物学特征注释如:编码区、转序列特征表:包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等录单元、重复区域、突变位点或修饰位点等n n分类:所有数据记录被划分为如细菌类、病毒类、灵长类、分类:所有数据记录被划分为如细菌类、病毒类、灵长类、啮齿类,以及啮齿类,以及ESTEST数据、基因组测序数据、大规模基因组数据、基因组测序数据、大规模基因组序列数据等序列数据等1616类,其中类,其中ESTEST数据等又被分成若干文件数据等又被分成若干文件 注释内容n n序列条目关键字:序列条目关键字:• •LOCUS (LOCUS (代码代码), ), • •DEFINITION (DEFINITION (说明说明) ),,• •ACCESSION(ACCESSION(编号编号) ),,• •NIDNID符符( (核酸标识核酸标识), ), • •KEYWORDS (KEYWORDS (关键词关键词) ),,• •SOURCE (SOURCE (数据来源数据来源) ),,• •REFERENCE (REFERENCE (文献文献) ),,• •FEATURES (FEATURES (特性表特性表) ),,• •BASE COUNT (BASE COUNT (碱基组成碱基组成) )• •ORIGIN (ORIGIN (碱基排列顺序碱基排列顺序) )。

      n n新版的核酸序列数据库将引入新的关键词新版的核酸序列数据库将引入新的关键词SV (SV (序列版本号序列版本号) ),用,用“ “编编号号. .版本号版本号” ”表示,并取代关键词表示,并取代关键词NID NID  LOCUSn nLOCUS (LOCUS (代码代码) ):是该序列条目的标记,或者说标识符,:是该序列条目的标记,或者说标识符,•蕴涵这个序列的功能:如蕴涵这个序列的功能:如HUMCYCLOXHUMCYCLOX表示人的环氧化酶表示人的环氧化酶•序列长度序列长度•类型类型•种属来源种属来源•录入日期等录入日期等n n说明字段是有关这一序列的简单描述说明字段是有关这一序列的简单描述 ACCESSIONn nACCESSION (ACCESSION (编号编号) ):具有唯一性和永久性,在文献中引:具有唯一性和永久性,在文献中引用这个序列时,应该以此编号为准用这个序列时,应该以此编号为准 KEYWORDSn nKEYWORDS (KEYWORDS (关键词关键词) )字段:由该序列的提交者提供,包字段:由该序列的提交者提供,包括括•该序列的基因产物该序列的基因产物•其它相关信息其它相关信息 SOURCEn nSOURCE (SOURCE (数据来源数据来源) )字段:说明该序列是从什么生物体、字段:说明该序列是从什么生物体、什么组织得到的什么组织得到的n n次关键字次关键字ORGANISM (ORGANISM (种属种属) ):指出该生物体的分类学地位:指出该生物体的分类学地位 REFERENCEn nREFERENCE(REFERENCE(文献文献) )字段:说明该序列中的相关文献,包括字段:说明该序列中的相关文献,包括•AUTHORS (AUTHORS (作者作者), ), •TITLE (TITLE (题目题目) )及及•JOURNAL(JOURNAL(杂志名杂志名) )等等,  , 以次关键词列出。

      以次关键词列出n nMEDLINEMEDLINE的代码:该代码实际上是个超文本链接,点击它的代码:该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要可以直接调用上述文献摘要n n一个序列可有多篇文献一个序列可有多篇文献, ,以不同序号表示,并给出该序列中以不同序号表示,并给出该序列中哪一部分与文献有关哪一部分与文献有关 FEATURESn nFEATURES (FEATURES (特性表特性表) ):具有特定的格式,用来详细描述序:具有特定的格式,用来详细描述序列特性n n特性表中带有特性表中带有‘ ‘/db-xref/’/db-xref/’标志的字符可以连接到其它数据标志的字符可以连接到其它数据库,如分类数据库库,如分类数据库(taxon 9606), (taxon 9606), 以及蛋白质序列数据库以及蛋白质序列数据库(PID(PID::g181254)g181254)n n序列中各部分的位置都在表中标明,序列中各部分的位置都在表中标明,5’5’非编码区,编码区,非编码区,编码区,3’3’非编码区,多聚腺苷酸重复区域等非编码区,多聚腺苷酸重复区域等n n翻译所得信号肽以及最终蛋白质产物翻译所得信号肽以及最终蛋白质产物n n碱基含量字段,给出序列中的碱组成碱基含量字段,给出序列中的碱组成 ORIGINn nORIGINORIGIN行是序列的引导行行是序列的引导行n n下面便是碱基序列下面便是碱基序列n n以双斜杠行以双斜杠行“ “//”//”结束。

      结束    GenBank数据库—数据库格式n nFASTAFASTA格式格式格式格式   >gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and >gi|1293613|gb|U49845.1|SCU49845 Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cdsAxl2p (AXL2) and Rev7p (REV7) genes, complete cdsGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGGATCCTCCATATACAACGGTATCTCCACCTCAGGTTTAGATCTCAACAACGGAACCATTGCCGACATGAGACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAACAGTTAGGTATCGTCGAGAGTTACAAGCTAAAACGAGCAGTAGTCAGCTCTGCATCTGAAGCCGCTGAAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATAGTTCTACTAAGGGTGGATAACATCATCCGTGCAAGACCAAGAACCGCCAATAGACAACATATGTAACATATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAAATTTAGGATATACCTCGAAAATAATAAACCGCCACACTGTCATTATTATAATTAGAAACAGAACGCAAAAATTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTTATCCACTATATAATTCAAAGACGCGAAAAAAAAAGAACAACGCGTCATAGAACTTTTGGCAATTCGCGTCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATATCACAAATAAATTTTGGCAACTTATGTTTCCTCTTCGAGCAGTACTCGAGCCCTGTCTCAAGAATGTAATAATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCTATACCCATCGTAGGTATGGTTAAAGATAGCATCTCCACAACCTCAAAGCTCCTTGCCGAGAGTCGCCCT……   ……   (该序列没有完全列出)(该序列没有完全列出)    GenBank数据库数据库—数据库格式数据库格式(1)n nFASTAFASTA格式:将一个格式:将一个DNADNA或者蛋白质序列表示为一个带有一些标记或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。

      的核苷酸或氨基酸字符串n n大于号(大于号(> >)表示一个新文件的开始)表示一个新文件的开始n n结束用(结束用(// //))n nFASTAFASTA格式并没有什么特殊的要求格式并没有什么特殊的要求 FASTA格式序列的提交 GenBank数据库—数据库格式(1)n nFASTAFASTA格式特点:格式特点:•只存储了最少量的信息只存储了最少量的信息•它将所存储的信息转化为简单的字符串它将所存储的信息转化为简单的字符串•人和计算机对其存储的信息都具有极大的可读性人和计算机对其存储的信息都具有极大的可读性n nFASTAFASTA格式在许多分子生物学软件包中得到广泛应用格式在许多分子生物学软件包中得到广泛应用 GenBank数据库—数据库格式(2)n nGenBankGenBank纯文本文件格式纯文本文件格式纯文本文件格式纯文本文件格式(GenBank flatfile, GBFF): (GenBank flatfile, GBFF): n nGenBankGenBank、、EMBLEMBL、、DDBJDDBJ每天都相互同步更新各自的数据每天都相互同步更新各自的数据库,它们是怎样交换数据的呢?库,它们是怎样交换数据的呢? GBFF文件格式n nGBFFGBFF是是GenBankGenBank数据库的基本信息单位,数据库的基本信息单位,n n是最为广泛使用的生物信息学序列格式之一。

      是最为广泛使用的生物信息学序列格式之一 头部中部尾部GGE EN NB BA AN NKK纯纯纯纯文文文文本本本本文文文文件件件件格格格格式式式式>LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999>LOCUS SCU49845 5028 bp DNA PLN 21-JUN-1999DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2pDEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. (AXL2) and Rev7p (REV7) genes, complete cds.ACCESSION U49845ACCESSION U49845VERSION U49845.1 GI:1293613VERSION U49845.1 GI:1293613KEYWORDS .KEYWORDS .SOURCE baker's yeast.SOURCE baker's yeast. ORGANISM Saccharomyces cerevisiae ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Eukaryota; Fungi; Ascomycota; Hemiascomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. Saccharomycetaceae; Saccharomyces.REFERENCE 1 (bases 1 to 5028)REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) JOURNAL Yeast 10 (11), 1503-1509 (1994) MEDLINE 95176709 MEDLINE 95176709REFERENCE 2 (bases 1 to 5028)REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), 777-793 (1996) JOURNAL Genes Dev. 10 (7), 777-793 (1996) MEDLINE 96194260 MEDLINE 96194260REFERENCE 3 (bases 1 to 5028)REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. AUTHORS Roemer,T. TITLE Direct Submission TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA Haven, CT, USAFEATURES Location/QualifiersFEATURES Location/Qualifiers source 1..5028 source 1..5028 /organism="Saccharomyces cerevisiae" /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /db_xref="taxon:4932" /chromosome="IX" /chromosome="IX" /map="9" /map="9" CDS <1..206 CDS <1..206 /codon_start=3 /codon_start=3 /product="TCP1-beta" /product="TCP1-beta" /protein_id="AAA98665.1" /protein_id="AAA98665.1" /db_xref="GI:1293614" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 gene 687..3158 /gene="AXL2" /gene="AXL2" CDS 687..3158 CDS 687..3158 /gene="AXL2" /gene="AXL2" /note="plasma membrane glycoprotein" /note="plasma membrane glycoprotein" /codon_start=1 /codon_start=1 /function="required for axial budding pattern of S.cerevisiae" /function="required for axial budding pattern of S.cerevisiae" /product="Axl2p" /product="Axl2p" /protein_id="AAA98666.1" /protein_id="AAA98666.1" /db_xref="GI:1293615" /db_xref="GI:1293615" /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF /translation="MTQLQISLLLTATISLLHLVVATPYEAYPIGKQYPPVARVNESF …… …… (有部分序列未列出)(有部分序列未列出) VDFSNKSNVNVGQVKDIHGRIPEML"VDFSNKSNVNVGQVKDIHGRIPEML"BASE COUNT 1510 a 1074 c 835 g 1609 tBASE COUNT 1510 a 1074 c 835 g 1609 tORIGIN ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct …… …… (有部分序列未列出)(有部分序列未列出) 4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct4921 ttttcagtgt tagattgctc taattctttg agctgttctc tcagctcctc atatttttct 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc// // GBFF格式n n按域(按域(FieldField)可以划分为三个部分)可以划分为三个部分•头部包含整个记录的信息(描述符);头部包含整个记录的信息(描述符);•第二部分包含了注释这一记录的特性;第二部分包含了注释这一记录的特性;•第三部分是核苷酸序列本身。

      第三部分是核苷酸序列本身n n所有序列数据库记录都在最后一行以所有序列数据库记录都在最后一行以“ “//”//”结尾 GBFF格式头部-Locus行n n所有的所有的GBFFGBFF都起始于都起始于LOCUSLOCUS行:行:---------+---------+---------+---------+---------+----------------+---------+---------+---------+---------+-------1       10        20        30        40        50        60       1       10        20        30        40        50        60        LOCUS   SCU49845     5028 bp    DNA   PLN   21-JUN-1999 LOCUS   SCU49845     5028 bp    DNA   PLN   21-JUN-1999 GBFF格式头部-格式头部-Locus行行1 1、、、、LOCUSLOCUS行:行:行:行:n n第一项第一项第一项第一项是是LOCUSLOCUS名称名称:  : 最初这一名称是用来表示本记录描述的基因最初这一名称是用来表示本记录描述的基因座,以方便检索相似序列:座,以方便检索相似序列:• •前三个字母代表特定物种的名称前三个字母代表特定物种的名称• •第四、第五个字母代表如基因产物等特定的类别名称。

      第四、第五个字母代表如基因产物等特定的类别名称• •如如HUMHBB(HUMHBB(人人- -珠蛋白基因区域珠蛋白基因区域) ) GBFF格式头部-Locus行n nLOCUSLOCUS这种这种“ “十字符十字符” ”命名方式已经无法满足基因在基因座中所包命名方式已经无法满足基因在基因座中所包含的信息含的信息n nLOCUSLOCUS名称目前唯一的作用是它在数据库中是独一无二的,已不在名称目前唯一的作用是它在数据库中是独一无二的,已不在具有任何实际意义具有任何实际意义n n仅使用检索号码仅使用检索号码(acession number)(acession number)以满足对以满足对LOCUSLOCUS名称的要求名称的要求1       10        20        30        40        50        601       10        20        30        40        50        60LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999 GBFF格式头部-Locus行n n第二项第二项第二项第二项是序列长度。

      是序列长度n nGenBankGenBank对提交的序列长度没有上限要求对提交的序列长度没有上限要求n n根据国际序列数据库合作计划的协议,为方便不同的软件根据国际序列数据库合作计划的协议,为方便不同的软件处理序列,规定单条数据库记录的长度不能超过处理序列,规定单条数据库记录的长度不能超过350kb350kbn nGenBankGenBank已经很少接受长度低于已经很少接受长度低于50bp50bp的序列1      10       20       30       40       50       601      10       20       30       40       50       60LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999 GBFF格式头部-Locus行n n第三项表明序列的分子类型:其序列必须是一种单一的分第三项表明序列的分子类型:其序列必须是一种单一的分子类型n n包括:基因组包括:基因组DNADNA、、RNARNA、、RNARNA前体、前体、mRNA(cDNA)mRNA(cDNA)、、tRNAtRNA等。

      等1     10      20      30      40      50      601     10      20      30      40      50      60LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999 GBFF格式头部-Locus行n n第四项是第四项是GenBankGenBank分类码:由三个字母组成,分类码:由三个字母组成,n n分类码将分类码将GenBankGenBank数据库分为数据库分为1717个分支个分支1     10      20      30      40      50      601     10      20      30      40      50      60LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999 GenBank分类码(GenBank Division)类类中文名称中文名称符号符号类类符号符号primate sequencesprimate sequences灵长类动物序列灵长类动物序列PRIPRIrodent sequencesrodent sequences啮齿类动物序列啮齿类动物序列RODRODother mammalian sequencesother mammalian sequences其它哺乳动物序列其它哺乳动物序列MAMMAMother vertebrate sequencsother vertebrate sequencs其它脊椎动物序列其它脊椎动物序列VRTVRTinvertebrate sequencesinvertebrate sequences无脊椎动物序无脊椎动物序INVINVPlants,fungal,and algal Plants,fungal,and algal sequencessequences植物、真菌和藻类序列植物、真菌和藻类序列PLNPLNbacterial sequencesbacterial sequences细菌序列细菌序列BCTBCTviral sequencesviral sequences病毒序列病毒序列VRLVRLbacteriophage sequencesbacteriophage sequences噬菌体序列噬菌体序列PHGPHGsynthetic sequencessynthetic sequences人工合成序列人工合成序列SYNSYNunanntotated sequencesunanntotated sequences未注释序列未注释序列UNAUNAEST sequencesEST sequences表达序列标签表达序列标签ESTESTpatent sequencespatent sequences专利序列专利序列PATPATSTS sequencesSTS sequences序列标记位点序列标记位点STSSTSgenome survey sequencesgenome survey sequences基因组测定序列基因组测定序列GSSGSSHTGS sequencesHTGS sequences高通量基因组序列高通量基因组序列HTGHTGunfinished high-throughput unfinished high-throughput cDNA sequencingcDNA sequencing未完成测序的高通量未完成测序的高通量cDNAcDNA序列序列HTCHTC GBFF格式头部-Locus行n n第五项是最后修订日期。

      第五项是最后修订日期n n某些时候,它也是数据第一次被公开的日期某些时候,它也是数据第一次被公开的日期n n这项简单的信息并无法对此做出判断这项简单的信息并无法对此做出判断1     10      20      30      40      50      601     10      20      30      40      50      60LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999LOCUS  SCU49845  5028 bp  DNA   PLN  21-JUN-1999 GBFF格式头部-DEFINITION行2 2、、DEFINITIONDEFINITION行:行:n n主要对主要对GenBankGenBank记录中所含的生物学意义做出总结记录中所含的生物学意义做出总结n n它的说明内容包括来源物种、基因它的说明内容包括来源物种、基因/ /蛋白质名称;蛋白质名称;---------+---------+---------+---------+---------+------------------+---------+---------+---------+---------+---------1       10        20        30        40        50        60 1       10        20        30        40        50        60 DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. GBFF格式头部-DEFINITION行n n如果序列是非编码区,则包含对序列功能的简单描述;如如果序列是非编码区,则包含对序列功能的简单描述;如果序列是一段编码区,则标明该序列是部分序列果序列是一段编码区,则标明该序列是部分序列(partial (partial cds)cds)还是全序列还是全序列(complete cds)(complete cds)。

      1       10        20        30        40        50        60 1       10        20        30        40        50        60 DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p DEFINITION  Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds.(REV7) genes, complete cds. GBFF格式头部-ACCESSION行3 3、检索号(、检索号(ACCESSIONACCESSION)):  : 是序列记录的唯一指针是序列记录的唯一指针n n检索号通常由一个字母加检索号通常由一个字母加5 5个数字(个数字(U12345U12345)或者由两个字)或者由两个字母加母加6 6个数字(个数字(AF123456AF123456)组成。

      组成1       10        20        30        40        50        601       10        20        30        40        50        60ACCESSION   U49845ACCESSION   U49845Dear GenBank Submitter:Dear GenBank Submitter:   Thank you for your direct submission of sequence data to GenBank.  We have provided a GenBank accession    Thank you for your direct submission of sequence data to GenBank.  We have provided a GenBank accession number for your nucleotide sequence:number for your nucleotide sequence:                bankit660463    AY795899                bankit660463    AY795899   We strongly recommend that this GenBank accession number appears in any publication that reports or discusses    We strongly recommend that this GenBank accession number appears in any publication that reports or discusses these data, as it gives the community a unique label with which they may retrieve your data from our on-line these data, as it gives the community a unique label with which they may retrieve your data from our on-line servers.servers. GBFF格式头部-ACCESSION行n n检索号在数据库中是唯一而且不变的,即使数据的提交者检索号在数据库中是唯一而且不变的,即使数据的提交者改变数据的内容。

      改变数据的内容n n在在   ACCESSIONACCESSION行中可能出现多个检索号,可能是因为数行中可能出现多个检索号,可能是因为数据提交者提交了一条与原记录相关的新记录,或者新提交据提交者提交了一条与原记录相关的新记录,或者新提交的记录覆盖了原有的旧记录的记录覆盖了原有的旧记录n n第一个检索号为主检索号,而其余的统称为二级检索号第一个检索号为主检索号,而其余的统称为二级检索号 GBFF格式头部-VERSION行4 4、版本号行:它的格式是:检索号、版本号行:它的格式是:检索号. .版本号n n版本号于版本号于9999年年2 2月由三大数据库采纳使用主要用于识别数月由三大数据库采纳使用主要用于识别数据库中一条单一的特定核苷酸序列据库中一条单一的特定核苷酸序列n n在数据库中,如果某条序列数据发生了变化,即使是单碱在数据库中,如果某条序列数据发生了变化,即使是单碱基的改变,它的版本号都将增加,而它的检索号保持不变基的改变,它的版本号都将增加,而它的检索号保持不变n n如由如由U12345.1U12345.1变为变为U12345.2U12345.21       10        20        30        40        50        60        70       791       10        20        30        40        50        60        70       79VERSION     U49845.1  GI:1293613VERSION     U49845.1  GI:1293613 GBFF格式头部-VERSION行n n版本号系统与跟在其后的版本号系统与跟在其后的GIGI((GenInfo IdentifierGenInfo Identifier)号系统)号系统是平行运行是平行运行n n当一条序列改变后,它将被赋予一个新的当一条序列改变后,它将被赋予一个新的GIGI号,同时它的号,同时它的版本号将增加。

      版本号将增加n n当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的当依据核酸序列的内部序列进行蛋白质翻译时,蛋白质的翻译发生任何变换,核酸序列都将被赋予一个新的翻译发生任何变换,核酸序列都将被赋予一个新的GIGI号1       10        20        30        40        50        60        70       791       10        20        30        40        50        60        70       79VERSION     U49845.1  GI:1293613VERSION     U49845.1  GI:1293613 GBFF格式头部-KEYWORDS行5 5、关键词行:是用来描述序列的如果该行中没有任何内、关键词行:是用来描述序列的如果该行中没有任何内容,那么就只包含一个容,那么就只包含一个“ “.” .”n n由于没有对照词汇表,所以由于没有对照词汇表,所以NCBI GenBankNCBI GenBank拒绝接受关键词,拒绝接受关键词,它只存在于旧的记录中。

      它只存在于旧的记录中1       10        20        30        40        50        60        70       791       10        20        30        40        50        60        70       79KEYWORDS    .KEYWORDS    . GBFF格式头部- SOURCE行6 6、序列来源行:没有做特殊的规定,它通常包含序列来源、序列来源行:没有做特殊的规定,它通常包含序列来源生物的简称,有些时候也包含分子类型生物的简称,有些时候也包含分子类型n nOrganismOrganism:以:以NCBINCBI的分类数据库为依据,指明物种的正式的分类数据库为依据,指明物种的正式科学名称科学名称1       10        20        30        40        50        60        70       791       10        20        30        40        50        60        70       79SOURCE      baker's yeast.SOURCE      baker's yeast.  ORGANISM  Saccharomyces cerevisiae  ORGANISM  Saccharomyces cerevisiae            Eukaryota(            Eukaryota(真核真核); Fungi(); Fungi(真菌真菌); Ascomycota(); Ascomycota(子囊菌门子囊菌门); Hemiascomycetes(); Hemiascomycetes(半子囊菌纲半子囊菌纲); );             Saccharomycetales; Saccharomycetaceae; Saccharomyces.            Saccharomycetales; Saccharomycetaceae; Saccharomyces. GBFF格式头部-REFERENCE行7 7、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表、参考文献行:将与该数据有关的参考文献均收录在内,将最先发表的文献列于第一位。

      的文献列于第一位n n如果序列数据没有被文献报道,该行将显示如果序列数据没有被文献报道,该行将显示 “  “in press”in press”或或“ “unpublished” unpublished” n n如所引用文献存在于如所引用文献存在于MEDLINEMEDLINE数据库中,将出现一个数据库中,将出现一个MEDLINEMEDLINE单一单一指针指针(unique identifier,UID)(unique identifier,UID)以便检索以便检索1       10        20        30        40        50        60        70       791       10        20        30        40        50        60        70       79REFERENCE   1  (bases 1 to 5028)REFERENCE   1  (bases 1 to 5028)  AUTHORS   Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.  AUTHORS   Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W.  TITLE     Cloning and sequence of REV7, a gene whose function is    TITLE     Cloning and sequence of REV7, a gene whose function is                 required for DNA damage-induced mutagenesis in                required for DNA damage-induced mutagenesis in                Saccharomyces cerevisiae               Saccharomyces cerevisiae  JOURNAL   Yeast 10 (11), 1503-1509 (1994)  JOURNAL   Yeast 10 (11), 1503-1509 (1994)  MEDLINE   95176709  MEDLINE   95176709 GBFF格式头部-REFERENCE行n n如果序列是直接提交而未经发表的,就将在标题如果序列是直接提交而未经发表的,就将在标题(TITLE)(TITLE)中注明中注明“ “直接提交直接提交(Direct Submission)”(Direct Submission)”n n在期刊(在期刊(JOURNALJOURNAL)中注明提交日期,提交者姓名以及)中注明提交日期,提交者姓名以及提交者的工作单位。

      提交者的工作单位1       10        20        30        40        50        60        70       791       10        20        30        40        50        60        70       79REFERENCE   1  (bases 1 to 1939)REFERENCE   1  (bases 1 to 1939)  AUTHORS   Yi,CAO., Dairong,QIAO., Qinghua,HE. and Shunji,HE.  AUTHORS   Yi,CAO., Dairong,QIAO., Qinghua,HE. and Shunji,HE.  TITLE     Cloning and expression studies of a cDNA encoding UDP-  TITLE     Cloning and expression studies of a cDNA encoding UDP-            glucose dehydrogenase from Dunaliella salina             glucose dehydrogenase from Dunaliella salina  JOURNAL   Unpublished JOURNAL   Unpublished GBFF格式中部 n n特性表特性表(FEATURES): (FEATURES): 它描述基因和基因的产物,以及与序列它描述基因和基因的产物,以及与序列相关的生物学特性。

      相关的生物学特性n n特性表提供一个参考词汇表以对合法的特性进行注释特性表提供一个参考词汇表以对合法的特性进行注释• •这些特性包括该序列是否执行一个生物学功能;这些特性包括该序列是否执行一个生物学功能;• •它是否与一个生物学功能的表达相关;它是否与一个生物学功能的表达相关;• •它是否与其它分子相互作用;它是否与其它分子相互作用;• •它是否影响一条序列的复制;它是否影响一条序列的复制;• •它是否与其它序列的重组相关;它是否与其它序列的重组相关;• •它是否是一条已识别的重复序列;它是否是一条已识别的重复序列;• •它是否有二级或三级结构;它是否有二级或三级结构;• •它是否存在变异或者它是否被修订过它是否存在变异或者它是否被修订过    GBFF格式中部n n特性表格式特性表格式特性表格式特性表格式:按表单的方式设计的,包含三个部分::按表单的方式设计的,包含三个部分:第一,特性关键词第一,特性关键词(Feature key)(Feature key);;第二,特性位置第二,特性位置(Location)(Location);;第三,限定词第三,限定词(Qualifiers)(Qualifiers)。

      FEATURES    Location/QualifiersFEATURES    Location/Qualifiers         source    1..5028          source    1..5028                        /organism=“Saccharomyces cerevisiae”                       /organism=“Saccharomyces cerevisiae”酿酒酵母酿酒酵母                       /mol_type="genomic DNA"                       /mol_type="genomic DNA"基因组基因组基因组基因组DNADNADNADNA                       /db_xref="taxon:4932"                       /db_xref="taxon:4932"分类学分类学                       /chromosome="IX"                       /chromosome="IX"染色体染色体                       /map="9"                        /map="9"  GBFF格式中部-FEATURESn n第一,特性关键词第一,特性关键词(Feature key),(Feature key),是一个简要说明功能组的是一个简要说明功能组的关键词,允许加入新的或未定义的特性;关键词,允许加入新的或未定义的特性;n n第二,特性位置第二,特性位置(Location)(Location),指明在特性表中的什么地方找,指明在特性表中的什么地方找到相关特性,在位置特性中可以包含操作符到相关特性,在位置特性中可以包含操作符(Operator)(Operator)和功和功能性描述符能性描述符(Descriptor)(Descriptor)以指明序列需经过怎样的处理才能以指明序列需经过怎样的处理才能得到相应的特性;得到相应的特性;n n第三,限定词第三,限定词(Qualifiers),(Qualifiers),相关特性的辅助信息,限定词使相关特性的辅助信息,限定词使用一组标准化的对照词汇表以利于计算机从中提取信息。

      用一组标准化的对照词汇表以利于计算机从中提取信息 GBFF格式中部-FEATURES例例1 1Key      Location/QualifiersKey      Location/QualifiersCDS      23..400CDS      23..400/product="alcohol dehydrogenase"/product="alcohol dehydrogenase"/gene="adhI"/gene="adhI"n n特性表含义:特性表含义:•该编码序列(该编码序列(CDSCDS)起始于第)起始于第2323碱基,终止于第碱基,终止于第400400碱基碱基•产物是乙醇脱氢酶产物是乙醇脱氢酶•基因名称是基因名称是“ “adhI”adhI” GBFF格式中部-FEATURESn n例例2 2Key      Location/QualifiersKey      Location/QualifiersCDS      join(544..589,688..1032)CDS      join(544..589,688..1032)/product="T-cell receptor beta-chain"/product="T-cell receptor beta-chain"n n特性表含义:特性表含义:•它表示记录中所存储的序列为部分编码序列,它表示记录中所存储的序列为部分编码序列,•表达产物表达产物“ “T-T-细胞受体细胞受体betabeta链链” ”由序列内两个片段结合生成由序列内两个片段结合生成•指明两个片段在序列中所处的位置。

      指明两个片段在序列中所处的位置 GBFF格式中部-特性表关键词1 1、特性表的关键词:以树型结构生成、特性表的关键词:以树型结构生成misc_feature          misc_feature          生物学特性无法用特性表关键词描述的序列生物学特性无法用特性表关键词描述的序列misc_difference       misc_difference       序列特性无法用特性表关键词描述的序列序列特性无法用特性表关键词描述的序列conflict              conflict              同一序列在不同的研究中在位点或区域上有差异同一序列在不同的研究中在位点或区域上有差异unsure                unsure                序列不能确定的区域序列不能确定的区域old_sequence          old_sequence          该序列对以前的版本做过修订该序列对以前的版本做过修订variation             variation             包含稳定突变的序列包含稳定突变的序列modified_base         modified_base         修饰过的核苷酸修饰过的核苷酸gene                  gene                  已识别为基因或已命名的序列区域已识别为基因或已命名的序列区域misc_signal           misc_signal           无法用信号特性关键词描述的信号序列无法用信号特性关键词描述的信号序列promoter              promoter              转录起始区转录起始区CAAT_signal           CAAT_signal           真核启动子上游的真核启动子上游的CAATCAAT盒,与盒,与RNARNA结合相关结合相关TATA_signal           TATA_signal           真核启动子的真核启动子的TATATATA盒盒-35_signal            -35_signal            原核启动子中的原核启动子中的-35-35框框-10_signal            -10_signal            原核启动子原核启动子PribowPribow盒盒GC_signal             GC_signal             真核启动子的真核启动子的GCGC盒盒RBS                   RBS                   核糖体结合位点核糖体结合位点polyA_signal          RNApolyA_signal          RNA转录本的剪切识别位点转录本的剪切识别位点enhancer              enhancer              增强子增强子attenuator            attenuator            与转录终止有关的序列与转录终止有关的序列terminator            terminator            转录终止序列转录终止序列rep_origin            rep_origin            双链双链DNADNA复制起始区复制起始区 GBFF格式中部-特性表关键词misc_RNA              misc_RNA              无法用无法用RNARNA关键词描述的转录物或关键词描述的转录物或RNARNA产物产物prim_transcript       prim_transcript       初始转录本初始转录本precursor_RNA       precursor_RNA       前体前体RNARNAmRNA                   mRNA                   信使信使RNARNA5'clip                     5'clip                     前体转录本中被剪切掉的前体转录本中被剪切掉的5’5’端序列端序列3'clip                     3'clip                     前体转录本中被剪切掉的前体转录本中被剪切掉的3’3’端序列端序列5'UTR                    5’5'UTR                    5’非翻译区非翻译区3'UTR                    3’3'UTR                    3’非翻译区非翻译区exon                     exon                     外显子外显子CDS                      CDS                      蛋白质编码序列蛋白质编码序列sig_peptide            sig_peptide            编码信号肽的序列编码信号肽的序列transit_peptide       transit_peptide       转运蛋白编码序列转运蛋白编码序列mat_peptide          mat_peptide          编码成熟肽的序列编码成熟肽的序列intron                   intron                   内含子内含子polyA_site             RNApolyA_site             RNA转录本的多聚腺苷酸化位点转录本的多聚腺苷酸化位点rRNA                    rRNA                    核糖体核糖体RNARNAtRNA                    tRNA                    转运转运RNARNAscRNA                  scRNA                  小细胞质小细胞质RNARNAsnRNA                  snRNA                  小核小核RNARNAsnoRNA                snoRNA                加工和修饰加工和修饰rRNArRNA的小核的小核RNA RNA  GBFF格式中部-特性表关键词immunoglobulin_relatedimmunoglobulin_relatedC_region         C_region         免疫相关蛋白上的稳定区免疫相关蛋白上的稳定区D_segment      D_segment      码免疫球蛋白重链的可变区基因之一码免疫球蛋白重链的可变区基因之一J_segment       J_segment       编码免疫球蛋白轻链和重链的可变区基因之一编码免疫球蛋白轻链和重链的可变区基因之一N_region         N_region         插入重排免疫球蛋白片段间的核苷酸插入重排免疫球蛋白片段间的核苷酸S_region          S_region          免疫球蛋白重链的开关区免疫球蛋白重链的开关区V_region         V_region         免疫球蛋白轻链和重链的可变区,和免疫球蛋白轻链和重链的可变区,和T T-细胞受体-细胞受体α α,,β β和和γ γ链;编码可变链;编码可变的氨基末端部分;可由的氨基末端部分;可由V_segment, D_segment, N_regionV_segment, D_segment, N_region和和J_segmentJ_segment组成组成   V_segment      V_segment      免疫球蛋白轻链和重链的可变区段,和免疫球蛋白轻链和重链的可变区段,和T T -细胞受体-细胞受体α α,,β β和和γ γ链;编码大链;编码大多数可变区(多数可变区(v_regionv_region))   和前导肽的最后几个氨基酸和前导肽的最后几个氨基酸repeat_region   repeat_region   基因组中所包含的重复序列基因组中所包含的重复序列 GBFF格式中部-特性表关键词repeat_unit       repeat_unit       单个的重复元件单个的重复元件LTR                  LTR                  长末端重复序列长末端重复序列Satellite             Satellite             卫星重复序列卫星重复序列misc_binding    misc_binding    无法描述的核酸序列结合位点无法描述的核酸序列结合位点primer_bind      primer_bind      复制、转录的引物结合位点复制、转录的引物结合位点protein_bind      protein_bind      蛋白质结合区蛋白质结合区STS                   STS                   测序标签位点测序标签位点misc_recomb    misc_recomb    无法用重组特性关键词描述的重组事件无法用重组特性关键词描述的重组事件iDNA                 iDNA                 通过重组所消除的通过重组所消除的DNADNAmisc_structure  misc_structure  无法用结构关键词描述的核酸序列高级结构或构型无法用结构关键词描述的核酸序列高级结构或构型stem_loop         stem_loop         发夹结构发夹结构D-loop               D-loop               线粒体中线粒体中DNADNA中的取代环中的取代环    GBFF格式中部-Location2 2、特性位置(、特性位置(LocationLocation):用来描述在序列中的什么区域能):用来描述在序列中的什么区域能够找到相关的特性,位置特性可以包含够找到相关的特性,位置特性可以包含ComplementComplement、、JoinJoin、、OrderOrder等三个操作符(等三个操作符(OperatorOperator)。

      467            467            指明序列中的单个碱基指明序列中的单个碱基340..565    340..565    指明包括起始和中止碱基在内的一段连续序列指明包括起始和中止碱基在内的一段连续序列<345..500  <345..500  指明序列起始于起始碱基号之前的某个位置,但起指明序列起始于起始碱基号之前的某个位置,但起始碱基号之前的特性边界未知始碱基号之前的特性边界未知 GBFF格式中部-Location<1..888        <1..888        指明特性起始于第一个已测序的碱基之前指明特性起始于第一个已测序的碱基之前(102.110)     (102.110)     指明正确位置未知,但包含在指明正确位置未知,但包含在102102和和110110号碱基之号碱基之间间(23.45)..600  (23.45)..600  指明序列特性起始碱基在指明序列特性起始碱基在2323和和4545碱基之间,终碱基之间,终止于止于600600号碱基号碱基(122.133)..(204.221)  (122.133)..(204.221)  指明序列特性起始于指明序列特性起始于122122和和133133碱基之间,碱基之间,终止于终止于204204和和221221号碱基之间号碱基之间123^124       123^124       指明指明123123和和124124号碱基之间的位点,如限制性酶号碱基之间的位点,如限制性酶切位点切位点145^177       145^177       指明指明145145和和177177碱基之间的某个位点碱基之间的某个位点 GBFF格式中部-Locationjoin(12..78,134..202)   join(12..78,134..202)   n n1212至至7878碱基及碱基及134134至至202202碱基之间序列碱基之间序列相应连相应连以构成一段连以构成一段连续序列续序列complement(join(2691..4571,4918..5163))  complement(join(2691..4571,4918..5163))  n n纪录中的特性处于纪录中的特性处于26912691至至45714571碱基以及碱基以及49184918至至51635163碱基之碱基之间的序列相连构成的连续序列的间的序列相连构成的连续序列的互补互补链上链上join(complement(4918..5163),complement(2691..4571)) join(complement(4918..5163),complement(2691..4571)) n n将将49184918至至51635163碱基之间序列的碱基之间序列的互补链互补链与与26912691至至45714571间序列间序列的互补链结合以构成一段的互补链结合以构成一段连续连续序列序列 GBFF格式中部-Locationcomplement(34..(122.126)) complement(34..(122.126)) n n指明序列特性起始于与指明序列特性起始于与122122至至126126碱基之间某个互补的碱基,碱基之间某个互补的碱基,终止于与终止于与3434号碱基互补的碱基号碱基互补的碱基J00194:J00194:100100..202    ..202    n n指明起始于指明起始于100100号碱基,终止于号碱基,终止于202202号碱基的序列在数据库中号碱基的序列在数据库中的主检索号为的主检索号为J00194J00194 GBFF格式中部- Qualifiers3 3、限定词、限定词(Qualifier): (Qualifier): 为进一步说明特性表关键词和特性位置为进一步说明特性表关键词和特性位置提供的信息给出了一个通用机制。

      提供的信息给出了一个通用机制n n格式格式: :在在“ “/” /”后跟上限定词名称,加上后跟上限定词名称,加上“ “=”,=”,其后是限定词其后是限定词的值的值Key              Location/QualifiersKey              Location/QualifiersCDS              86..742                                       CDS              86..742                                       次黄嘌呤磷酸核糖转移酶次黄嘌呤磷酸核糖转移酶                 /product="hypoxanthine phosphoribosyltransferase"                 /product="hypoxanthine phosphoribosyltransferase"                 /label=hprt                 /label=hprt                 /note="hprt catalyzes vital steps in the                 /note="hprt catalyzes vital steps in then nreutilization pathway for purine biosynthesisreutilization pathway for purine biosynthesis                 and its deficiency leads to forms of ""gouty"" arthritis"                 and its deficiency leads to forms of ""gouty"" arthritis"rep_origin       234..243 rep_origin       234..243 缺乏缺乏                 /direction=left                 /direction=leftCDS              109..564CDS              109..564                 /usedin=X10009:catalase                 /usedin=X10009:catalase   重复利用重复利用易患痛风的关节炎过氧化氢酶 常见的特性表关键词所使用的限定词 限定词限定词含义含义限定词限定词含义含义/allele=/allele=给定基因的等位基因给定基因的等位基因/anticodon=/anticodon=tRNAtRNA反义密码子的位置及它所编码的氨基酸反义密码子的位置及它所编码的氨基酸/bound_moiety=/bound_moiety=嵌合范围嵌合范围/cell_line=/cell_line=获得序列的细胞系获得序列的细胞系/cell_type=/cell_type=获得序列的细胞类型获得序列的细胞类型/chromosome=/chromosome=获得序列的染色体获得序列的染色体/citation=/citation=已被引用的参考文献数已被引用的参考文献数/clone=/clone=获得序列的克隆子获得序列的克隆子/clone_lib=/clone_lib=获得序列的克隆文库获得序列的克隆文库/codon=/codon=指出与参考密码子不同的密码子指出与参考密码子不同的密码子/codon_start=/codon_start=相对于序列第一个碱基,编码序列密码子的偏相对于序列第一个碱基,编码序列密码子的偏移量移量/cons_splice=/cons_splice=区分内含子剪切位点和区分内含子剪切位点和“ “5'-GT .AG-3'” 5'-GT .AG-3'” 剪切位点剪切位点/country=/country=DNADNA样本的来源国样本的来源国/cultivar=/cultivar=所获序列植物的栽培变种所获序列植物的栽培变种/db_xref=/db_xref=其它数据库信息的交叉索引号其它数据库信息的交叉索引号/dev_stage=/dev_stage=序列来源于某种生物的特定发育阶段序列来源于某种生物的特定发育阶段/direction=/direction=DNADNA复制方向复制方向/EC_number=/EC_number=序列产物的酶学编号序列产物的酶学编号/environmental_sample=/environmental_sample=序列直接从环境材料中获得而没有指明来源物序列直接从环境材料中获得而没有指明来源物种种/evidence=/evidence=序列特性来源于实验还是推理序列特性来源于实验还是推理/exception=/exception=指明指明DNADNA序列未按通常的生物学规律翻译,如序列未按通常的生物学规律翻译,如RNARNA编辑编辑/focus/focus指出在纪录中的来源特性在其它物种中还有不同的来指出在纪录中的来源特性在其它物种中还有不同的来源特性源特性/frequency=/frequency=在种群中发生变异的频率在种群中发生变异的频率/function=/function=序列所代表的功能序列所代表的功能/germline/germline如果序列是如果序列是DNADNA并来源于免疫球蛋白家族,则并来源于免疫球蛋白家族,则表示该序列来源于未重排表示该序列来源于未重排DNADNA/haplotype=/haplotype=序列来源于某种物种的单倍体序列来源于某种物种的单倍体/insertion_seq=/insertion_seq=序列来源于某种插入元件序列来源于某种插入元件/isolation_source=/isolation_source=描述序列来源物种的生理、环境和地理信息描述序列来源物种的生理、环境和地理信息/isolate=/isolate=序列来源的生物个体序列来源的生物个体/label=/label=序列特性的俗名序列特性的俗名 常见的特性表关键词所使用的限定词(续) /lab_host=/lab_host=为扩增序列来源物种所用的实验室宿主为扩增序列来源物种所用的实验室宿主/map=/map=相关特性在基因图谱上的位置相关特性在基因图谱上的位置/macronuclear/macronuclear指明指明DNADNA来源于染色体分化的大核期来源于染色体分化的大核期/mod_base=/mod_base=被修饰碱基的简写被修饰碱基的简写/note=/note=评论及附加信息评论及附加信息/number=/number=从从5’→3’5’→3’注明遗传元件的顺序注明遗传元件的顺序/organelle=/organelle=获得序列的细胞器获得序列的细胞器/organism=/organism=提供测序用遗传物质的物种的科学名称提供测序用遗传物质的物种的科学名称/PCR_conditions=/PCR_conditions=描述描述PCRPCR的反应条件的反应条件/phenotype=/phenotype=序列特性所导致的表型序列特性所导致的表型/pop_variant=/pop_variant=获得序列的群体变异种名称获得序列的群体变异种名称/plasmid=/plasmid=获得序列的质粒名称获得序列的质粒名称/product=/product=序列编码产物的名称序列编码产物的名称/protein_id=/protein_id=蛋白质的检索号蛋白质的检索号/proviral/proviral整合在基因组中的前病毒整合在基因组中的前病毒/pseudo/pseudo假基因假基因/rearranged/rearranged如果序列是如果序列是DNADNA并来源于免疫球蛋白家族,则表示该序列并来源于免疫球蛋白家族,则表示该序列来源于重排来源于重排DNADNA/replace=/replace=表明特性间的间隔序列已被替换表明特性间的间隔序列已被替换/rpt_family=/rpt_family=重复序列重复序列/rpt_type=/rpt_type=重复序列的组织方式重复序列的组织方式/rpt_unit=/rpt_unit=指明重复区域的重复元件构成指明重复区域的重复元件构成/sequenced_mol=/sequenced_mol=获得序列的分子类型获得序列的分子类型/serotype=/serotype=同一物种的不同血清学特征同一物种的不同血清学特征/serovar=/serovar=同一原核生物的血清学特征同一原核生物的血清学特征/sex=/sex=获得序列的物种性别获得序列的物种性别/specific_host=/specific_host=获得序列的天然宿主获得序列的天然宿主/specimen_voucher=/specimen_voucher=指明来源物种保存于什么地方指明来源物种保存于什么地方/standard_name=/standard_name=特性的通用名称特性的通用名称/strain=/strain=获得序列的菌株获得序列的菌株/sub_clone=/sub_clone=获得序列的亚克隆获得序列的亚克隆/sub_species=/sub_species=获得序列的来源物种的亚种获得序列的来源物种的亚种/sub_strain=/sub_strain=获得序列的来源微生物亚种获得序列的来源微生物亚种/tissue_lib=/tissue_lib=获得序列组织库获得序列组织库/tissue_type=/tissue_type=获得序列组织类型获得序列组织类型/transgenic/transgenic指明物种的来源特性是否是转基因受体指明物种的来源特性是否是转基因受体/translation=/translation=按通用或指定的密码子表翻译的氨基酸序列按通用或指定的密码子表翻译的氨基酸序列/transl_except=/transl_except=标明序列中未按指定密码子表翻译的氨基酸的位置标明序列中未按指定密码子表翻译的氨基酸的位置/transl_table=/transl_table=描述在翻译中与通用密码表不同的密码表描述在翻译中与通用密码表不同的密码表/transposon=/transposon=转座子转座子/usedin=/usedin=表明该特性在其它检索中也被使用表明该特性在其它检索中也被使用/variety=/variety=获得序列的生物变种获得序列的生物变种/virion/virion病毒颗粒病毒颗粒 GBFF格式尾部-ORIGINn n序列:类似于序列:类似于FASTAFASTA格式给出了所记录的序列。

      格式给出了所记录的序列ORIGIN ORIGIN    1 gatcctccat atacaacggt atctccacct caggtttaga    1 gatcctccat atacaacggt atctccacct caggtttaga   41 tctcaacaac ggaaccattg ccgacatgag acagttaggt     41 tctcaacaac ggaaccattg ccgacatgag acagttaggt     81 atcgtcgaga gttacaagct aaaacgagca gtagtcagct  81 atcgtcgaga gttacaagct aaaacgagca gtagtcagct          ……           …… (有部分序列未列出)(有部分序列未列出)4921 ttttcagtgt tagattgctc taattctttg agctgttctc4921 ttttcagtgt tagattgctc taattctttg agctgttctc4961 tcagctcctc atatttttct tgccatgact cagattctaa 4961 tcagctcctc atatttttct tgccatgact cagattctaa 5001 ttttaagcta ttcaatttct ctttgatc5001 ttttaagcta ttcaatttct ctttgatc// //  总结n n全面了解全面了解GBFFGBFF文件格式及其所涉及的各个方面文件格式及其所涉及的各个方面n nGBFFGBFF是核苷酸和蛋白质序列数据库最常用的数据格式。

      是核苷酸和蛋白质序列数据库最常用的数据格式n n正确地理解数据库格式成分的含义,知道从中如何提取生物正确地理解数据库格式成分的含义,知道从中如何提取生物学知识学知识n n在数据库中进行检索,使用不同的工具进行生物信息学分析,在数据库中进行检索,使用不同的工具进行生物信息学分析,具有十分重要的意义具有十分重要的意义 图C2.2人类某一EST克隆的Genbank(dbEST) EMBL1. 1.生化实验技术质谱分析生化实验技术质谱分析(Mass(Mass   Spectrometry)Spectrometry)等等2. 2.细胞生物学细胞生物学(Cell(Cell   Biology)Biology),研究细胞膜上蛋白和脂肪的,研究细胞膜上蛋白和脂肪的分布,包括膜运输、微管网络、细胞核及细胞周期,焦分布,包括膜运输、微管网络、细胞核及细胞周期,焦点是点是RabRab蛋白3. 3.细胞生物物理细胞生物物理(Cell(Cell   Biophysics)Biophysics),重点是理论创新和实际,重点是理论创新和实际应用的研究,尤其是光学显微镜的完善使用应用的研究,尤其是光学显微镜的完善使用。

      4. 4.分化分化(Differentiation)(Differentiation),集中研究果蝇的早期发育集中研究果蝇的早期发育 EMBL的研究内容的研究内容5. 5.基因表达基因表达(Gene(Gene  Expression)Expression),研究基因到蛋白质信息传递的过程,,研究基因到蛋白质信息传递的过程,尤其是核糖体合成在整个细胞生命过程中的重要作用尤其是核糖体合成在整个细胞生命过程中的重要作用6. 6.结构生物学结构生物学(Structure(Structure  Biology)Biology),在过去,在过去9 9年中建立了年中建立了cDNAcDNA测序技测序技术、生物计算、蛋白工程、晶体学、电子显微镜术、生物计算、蛋白工程、晶体学、电子显微镜(EM)(EM)及核磁共振及核磁共振(VMR)(VMR),研究肌肉巨型蛋白分子,研究肌肉巨型蛋白分子TitinTitin7. 7.GrenobleGrenoble研究分部,主要研究蛋白质合成过程,尤其揭示了研究分部,主要研究蛋白质合成过程,尤其揭示了G-G-蛋白蛋白- -鸟苷酸交换因子偶联物的结构鸟苷酸交换因子偶联物的结构8. 8.HamburgHamburg研究分部,有关长期的分子生物学国际合作研究历史,着研究分部,有关长期的分子生物学国际合作研究历史,着重于结构生物学研究,如光学测量系统、晶体学、重于结构生物学研究,如光学测量系统、晶体学、X-X-线吸收光谱及线吸收光谱及小角散射。

      小角散射 EMBL的研究内容9. 9.HinxtonHinxton研究分部研究分部EBIEBI,重点是与世界上其他分子生物学数据库进行,重点是与世界上其他分子生物学数据库进行合作研究,主要有合作研究,主要有EMBLEMBL核酸序列数据库核酸序列数据库, ,于于19801980年开始建立年开始建立, ,随后参随后参予了与日内瓦大学共同进行的予了与日内瓦大学共同进行的SWISS-PROTSWISS-PROT的建设10.10.在在SWISS-PROTSWISS-PROT与与EMBLEMBL核苷酸序列库之间的数据转移的基础上,产核苷酸序列库之间的数据转移的基础上,产生了新的数据库生了新的数据库TREMBL, TREMBL, 即使核苷酸序列库的核苷酸序列自动翻译即使核苷酸序列库的核苷酸序列自动翻译成成SWISS-PROTSWISS-PROT蛋白序列库中的蛋白序列蛋白序列库中的蛋白序列11.11.放射性杂交数据库放射性杂交数据库(Radiation(Radiation   HybridHybrid   Database)Database)12.12.MonterotondoMonterotondo研究中心:研究中心:EMBLEMBL和欧洲其他研究机构一起,加入到哺和欧洲其他研究机构一起,加入到哺乳类生物学和生物医学等的研究行列乳类生物学和生物医学等的研究行列,  , 该中心位于意大利罗马北部的该中心位于意大利罗马北部的MonterotondoMonterotondo。

      EMBLEMBL着重于鼠遗传学研究着重于鼠遗传学研究 EMBL数据记录 EMBL数据库结构n nEMBLEMBL数据库的基本单位也是序列条目,包括核甘酸碱基排数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分列顺序和注释两部分n n序列条目由字段组成,每个字段由标识字起始,后面为该序列条目由字段组成,每个字段由标识字起始,后面为该字段的具体说明字段的具体说明n n有些字段又分若干次子字段,以次标识字或特性表说明符有些字段又分若干次子字段,以次标识字或特性表说明符开始,最后以双斜杠开始,最后以双斜杠“ “//”//”作本序列条目结束标记作本序列条目结束标记    EMBL数据库结构n n条目的关键字包括:条目的关键字包括:•ID(ID(序列名称序列名称) ),,•DE(DE(序列简单说明序列简单说明) ),,•AC(AC(序列编号序列编号) ),,•SV(SV(序列版本号序列版本号) ),,•KW(KW(与序列相关的关键词与序列相关的关键词) ),,•OS(OS(序列来源的物种名序列来源的物种名) ),,•OC(OC(序列来源的物种学名和分类学位置序列来源的物种学名和分类学位置) ),,•RN (RN (相关文献编号或递交序列的注册信息相关文献编号或递交序列的注册信息) ),,•RA (RA (相关文献作者或递交序列的作者相关文献作者或递交序列的作者) ),, EMBL数据库结构n nRT(RT(相关文献题目相关文献题目) )•RL (RL (相关文献杂志名或递交序列的作者单位相关文献杂志名或递交序列的作者单位), ), •RX(RX(相关文献相关文献MedilineMediline引文代码引文代码) ),,•RC(RC(相关文献注释相关文献注释) ),,•RP (RP (相关文献其他注释相关文献其他注释) ),,•CC(CC(关于序列的注释信息关于序列的注释信息) ),,•DR (DR (相关数据库交叉引用号相关数据库交叉引用号) ),,•FH (FH (序列特征表起始序列特征表起始) ),,•FT (FT (序列特征表子项序列特征表子项) ),,•SQ(SQ(碱基种类统计数碱基种类统计数) ) EMBL数据库记录注释代码和内容说明代码代码   (Code) (Code) (Full meaning) (Full meaning) 全称全称   说明说明   (Comments) (Comments) IDIDAC AC DT DT DE DE KW KW OS OS OC OC OG OG RN RN RC RC RP RP RX RX RA RA RT RT RL RL DR DR FH FH FT FT CC CC XX XX SQ SQ blank blank // // identifier identifier accession number accession number data data description description keywords keywords organism(species) organism(species) organism(classification)organism(classification)Organelle Organelle reference number reference number reference comment reference comment reference positions reference positions cross-reference cross-reference reference authors reference authors reference title reference title reference location reference location database cross-reference database cross-reference feature header feature header feature table data feature table data comments comments spacer line spacer line sequence header sequence header sequence data sequence data termination line termination line (身份号)(身份号)   (记录号)(记录号)   (日期)(日期)   (描述)(描述)   (关键词)(关键词)   (物种)(物种)   (分类)(分类)   (细胞器)(细胞器)   (文献编号)(文献编号)   (文献说明)(文献说明)   (文献大小)(文献大小)   (相关文献)(相关文献)   (文献作者)(文献作者)   (文献题目)(文献题目)   (文献出处)(文献出处)   (相关文献数据库)(相关文献数据库)   (主表头)(主表头)   (主表数据)(主表数据)   (说明)(说明)   (空白行)(空白行)   (序列头)(序列头)   (空白)(空白)   (终止行)(终止行)   该行的第一项内容是该数据库记录的名称,该名称是唯一的,是由该行的第一项内容是该数据库记录的名称,该名称是唯一的,是由EMBLEMBL数据库给定的。

      其它内容注明了数据库给定的其它内容注明了该记录的一些状况该记录的一些状况( (如是否已经被核实如是否已经被核实——本例中为已核实,即本例中为已核实,即standardstandard;记录的碱基数等;记录的碱基数等)  ) 每个记录号均是唯一的,并从不更改,是由每个记录号均是唯一的,并从不更改,是由GenBankGenBank给定的如果两个记录被合并成一个记录,原始上着给定的如果两个记录被合并成一个记录,原始上着2 2个记录号均会被注明个记录号均会被注明   2 2个日期被注出,一个是该数据第一次被记录时间,另一个是最后一次的时间个日期被注出,一个是该数据第一次被记录时间,另一个是最后一次的时间   对该基因的文字描述对该基因的文字描述   描述该基因的关键词描述该基因的关键词   物种名称物种名称   物种的一个简单分类,该分类并不一定准确,应谨慎从事物种的一个简单分类,该分类并不一定准确,应谨慎从事   该基因是否在某一个特殊的细胞器中该基因是否在某一个特殊的细胞器中   与该记录研究相关的文献信息与该记录研究相关的文献信息   见文中说明见文中说明   该记录主要内容列表表头该记录主要内容列表表头   见文中说明见文中说明   对记录的文字说明对记录的文字说明   有关该序列大小和组成的信息有关该序列大小和组成的信息   一个记录的终止符号一个记录的终止符号    http://www.ebi.ac.uk/ena/ 相关文献数据库(DR) 的说明n n许多二级数据库内容来自初始数据库许多二级数据库内容来自初始数据库•OMIMOMIM数据库是有关人类遗传疾病的数据,如数据库是有关人类遗传疾病的数据,如OMIMOMIM中的一个记中的一个记录与录与EMBLEMBL中一个已知序列的基因有关,则该基因将与该记录建中一个已知序列的基因有关,则该基因将与该记录建立联系,立联系,EMBLEMBL库中该序列的库中该序列的DRDR栏中将包括栏中将包括OMIMOMIM和和OMIMOMIM中相中相关记录的名称。

      关记录的名称n nDRDR栏中有该栏中有该DNADNA序列翻译成蛋白质序列的序列翻译成蛋白质序列的SWISS-PROTSWISS-PROT记记录号等 EMBL数据库记录相关文献数相关文献数据库据库 相关文献数据库(DR) 的说明n nDRDR栏内容有助于了解与该原始栏内容有助于了解与该原始DNADNA序列相关信息的状况序列相关信息的状况和存贮站点和存贮站点n n与与DRDR栏有关的数据库:栏有关的数据库:SWISS-PROTSWISS-PROT、、EMBLEMBL、、OMIMOMIM、、PROSITE(PROSITE(保守蛋白质模序数据库保守蛋白质模序数据库) )、、HSSPHSSP、、PDB PDB 、、PIR PIR 、、MEDLNE(MEDLNE(与与RLRL栏相关的文献摘要数据库栏相关的文献摘要数据库) )   等 相关文献数据库(DR)的说明n n注释中另一个需要说明的重要内容是主表数据注释中另一个需要说明的重要内容是主表数据(feature table (feature table data, FT)data, FT)栏n n主表试图将尽可能多的序列信息囊括其中,并以计算机可主表试图将尽可能多的序列信息囊括其中,并以计算机可以阅读的格式编排。

      以阅读的格式编排n n3 3个主要个主要DNADNA数据库数据库(EMBL(EMBL、、GenBankGenBank和和DDBJ)DDBJ)已经对该表已经对该表的表述格式达成了一致具体表述在:的表述格式达成了一致具体表述在:n nwww.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.htmlwww.ebi.ac.uk/ebi_docs/embl_db/ft/feature_table.html General Information Additional Information Additional Information Sequence Primary Accession-头部 Primary Accession-中部 Primary Accession-尾部 序列文件格式n n文本格式文本格式   •简单文本格式简单文本格式• •Line, Plain TextLine, Plain Text• •StadenStaden• •FASTAFASTA• •Bionet (Bionet (生物网膜生物网膜生物网膜生物网膜allows comments)allows comments)•加入注释的文本格式加入注释的文本格式• •GenBankGenBank• •GCGGCGn n二进制格式二进制格式   ( (通常都带有注释通常都带有注释) )•MacVectorMacVector 序列文件格式例子(Fasta)>gi|995614|dbj|D49653|RATOBESE R at mRNA for obese.>gi|995614|dbj|D49653|RATOBESE R at mRNA for obese.   CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGAAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCCCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTCCTGAATGCTGAGGTTTC              以上这个以上这个FASTAFASTA文件中包含了文件中包含了gigi号码、号码、GenBankGenBank检索号码、检索号码、LOCUSLOCUS名称、以及名称、以及GenBankGenBank记录中的记录中的DEFINATIONDEFINATION字段。

      字段一种最简单的一种最简单的fastafasta序列形式可以表示为:序列形式可以表示为:>D49653>D49653   CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCCCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCG….AGTCGGTATCCG…. 序列文件格式例子(GenBank)n nLOCUS       RATOBESE      539 bp ss-mRNA            ROD       23-SEP-1995LOCUS       RATOBESE      539 bp ss-mRNA            ROD       23-SEP-1995n nDEFINITION  Rat mRNA for obese.DEFINITION  Rat mRNA for obese.n nACCESSION   D49653ACCESSION   D49653n nKEYWORDS    .KEYWORDS    .n nSOURCE      Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiatedSOURCE      Rattus norvegicus (strain OLETF, LETO and Zucker, ) differentiatedn n            adipose cDNA to mRNA.            adipose cDNA to mRNA.n n  ORGANISM  Rattus norvegicus  ORGANISM  Rattus norvegicusn n            Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;            Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;n n            Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia;            Vertebrata; Sarcopterygii; Mammalia; Eutheria; Rodentia;n n            Sciurognathi; Myomorpha; Muridae; Murinae; Rattus.            Sciurognathi; Myomorpha; Muridae; Murinae; Rattus.n nREFERENCE   1  (bases 1 to 539)REFERENCE   1  (bases 1 to 539)n n  AUTHORS   Murakami,T. and Shima,K.  AUTHORS   Murakami,T. and Shima,K.n n  TITLE     Cloning of rat obese cDNA and its expression in obese rats  TITLE     Cloning of rat obese cDNA and its expression in obese ratsn n  JOURNAL   Biochem. Biophys. Res. Commun. 209, 944-952 (1995)  JOURNAL   Biochem. Biophys. Res. Commun. 209, 944-952 (1995)n n  STANDARD  full automatic  STANDARD  full automaticn nCOMMENT     Submitted (10-Mar-1995) to DDBJ by:COMMENT     Submitted (10-Mar-1995) to DDBJ by:n n            Takashi Murakami            Takashi Murakamin n            Department of Laboratory Medicine            Department of Laboratory Medicinen n            School of Medicine            School of Medicinen n            University of Tokushima            University of Tokushiman n            Kuramotocho 3-chome            Kuramotocho 3-chomen n            Tokushima 770            Tokushima 770n n            Japan            Japann n            Phone: +81-886-33-7184            Phone: +81-886-33-7184n n            Fax:   +81-886-31-9495.            Fax:   +81-886-31-9495. 序列文件格式例子(GenBank)n nNCBI gi: 995614NCBI gi: 995614n nFEATURES Location/QualifiersFEATURES Location/Qualifiersn n source 1..539 source 1..539n n /organism="Rattus norvegicus" /organism="Rattus norvegicus"n n /strain="OLETF, LETO and Zucker" /strain="OLETF, LETO and Zucker"n n /dev_stage="differentiated" /dev_stage="differentiated"n n /sequenced_mol="cDNA to mRNA" /sequenced_mol="cDNA to mRNA"n n /tissue_type="adipose" /tissue_type="adipose"n n CDS 30..533 CDS 30..533n n /partial /partialn n /note="NCBI gi: 995615" /note="NCBI gi: 995615"n n /codon_start=1 /codon_start=1n n /product="obese" /product="obese"n n /translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRIND /translation="MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDn n ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYILTSLPSQNVLQIAHDLE ISHTQSVSARQRVTGLDFIPGLHPILSLSKMDQTLAVYILTSLPSQNVLQIAHDLEn n NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDIL NLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILn n LDLSPEC" LDLSPEC"n nBASE COUNT 121 a 167 c 133 g 118 tBASE COUNT 121 a 167 c 133 g 118 tn nORIGINORIGINn n 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgt 1 ccaagaagaa gaagacccca gcgaggaaaa tgtgctggag acccctgtgc cggttcctgtn n 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgaca 61 ggctttggtc ctatctgtcc tatgttcaag ctgtgcctat ccacaaagtc caggatgacan n 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcgg 121 ccaaaaccct catcaagacc attgtcacca ggatcaatga catttcacac acgcagtcggn n 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctga 181 tatccgccag gcagagggtc accggtttgg acttcattcc cgggcttcac cccattctgan n 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgcctt 241 gtttgtccaa gatggaccag accctggcag tctatcaaca gatcctcacc agcttgccttn n 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgc 301 cccaaaacgt gctgcagata gctcatgacc tggagaacct gcgagacctc ctccatctgcn n 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagcc 361 tggccttctc caagagctgc tccctgccgc agacccgtgg cctgcagaag ccagagagccn n 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgc 421 tggatggcgt cctggaagcc tcgctctact ccacagaggt ggtggctctg agcaggctgcn n 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttc 481 agggctctct gcaggacatt cttcaacagt tggaccttag ccctgaatgc tgaggtttcn n//// 序列文件格式例子(GCG)n nLOCUS       RATOBESE.G    539 BP SS-RNA             ENTERED   09/23/95LOCUS       RATOBESE.G    539 BP SS-RNA             ENTERED   09/23/95n nDEFINITION  Rat mRNA for obese.DEFINITION  Rat mRNA for obese.n nACCESSION   -ACCESSION   -n nKEYWORDS    -KEYWORDS    -n nSOURCE      Rattus norvegicus; Norway ratSOURCE      Rattus norvegicus; Norway ratn n  ORGANISM  Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata;  ORGANISM  Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata; Vertebrata;n n            Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi;            Sarcopterygii; Mammalia; Eutheria; Rodentia; Sciurognathi;n n            Myomorpha; Muridae; Murinae; Rattus            Myomorpha; Muridae; Murinae; Rattusn nREFERENCE   [1]REFERENCE   [1]n n  AUTHORS   Murakami, T. & Shima, K.  AUTHORS   Murakami, T. & Shima, K.n n  TITLE     Cloning of rat obese cDNA and its expression in obese rats.  TITLE     Cloning of rat obese cDNA and its expression in obese rats.n n  JOURNAL   Biochem. Biophys. Res. Commun.,  209,  3,  944-952,  (1995)  JOURNAL   Biochem. Biophys. Res. Commun.,  209,  3,  944-952,  (1995)n nCOMMENT     Database Reference:COMMENT     Database Reference:n n              DDBJ       RATOBESE              DDBJ       RATOBESEn n              Accession:  D49653              Accession:  D49653n n            ------------             ------------ n n             Submitted (10-Mar-1995) to DDBJ by:              Submitted (10-Mar-1995) to DDBJ by: n n             Takashi Murakami              Takashi Murakami n n             Department of Laboratory Medicine              Department of Laboratory Medicine n n             School of Medicine              School of Medicine n n             University of Tokushima              University of Tokushima n n             Kuramotocho 3-chome              Kuramotocho 3-chome n n             Tokushima 770              Tokushima 770 n n             Japan              Japan n n             Phone: +81-886-33-7184              Phone: +81-886-33-7184 n n             Fax:   +81-886-31-9495              Fax:   +81-886-31-9495  序列文件格式例子(GCG)n nFEATURES From To/Span DescriptionFEATURES From To/Span Descriptionn n pept 30 533 obese pept 30 533 obesen n ???? 1 539 source; /organism=Rattus norvegicus; ???? 1 539 source; /organism=Rattus norvegicus;n n /strain=OLETF, LETO and Zucker; /strain=OLETF, LETO and Zucker;n n /dev_stage=differentiated; /sequenced_mol=cDNA /dev_stage=differentiated; /sequenced_mol=cDNAn n to mRNA; /tissue_type=adipose to mRNA; /tissue_type=adiposen nBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERBASE COUNT 121 A 167 C 133 G 118 T 0 OTHERn nORIGIN ?ORIGIN ?n n RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 .. RATOBESE.G Length: 539 Jan 30, 1996 - 05:32 PM Check: 5797 ..n n 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGT 1 CCAAGAAGAA GAAGACCCCA GCGAGGAAAA TGTGCTGGAG ACCCCTGTGC CGGTTCCTGTn n 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACA 61 GGCTTTGGTC CTATCTGTCC TATGTTCAAG CTGTGCCTAT CCACAAAGTC CAGGATGACAn n 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGG 121 CCAAAACCCT CATCAAGACC ATTGTCACCA GGATCAATGA CATTTCACAC ACGCAGTCGGn n 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGA 181 TATCCGCCAG GCAGAGGGTC ACCGGTTTGG ACTTCATTCC CGGGCTTCAC CCCATTCTGAn n 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTT 241 GTTTGTCCAA GATGGACCAG ACCCTGGCAG TCTATCAACA GATCCTCACC AGCTTGCCTTn n 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGC 301 CCCAAAACGT GCTGCAGATA GCTCATGACC TGGAGAACCT GCGAGACCTC CTCCATCTGCn n 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCC 361 TGGCCTTCTC CAAGAGCTGC TCCCTGCCGC AGACCCGTGG CCTGCAGAAG CCAGAGAGCCn n 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGC 421 TGGATGGCGT CCTGGAAGCC TCGCTCTACT CCACAGAGGT GGTGGCTCTG AGCAGGCTGCn n 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTC 481 AGGGCTCTCT GCAGGACATT CTTCAACAGT TGGACCTTAG CCCTGAATGC TGAGGTTTCn n//// 序列文件格式例子(ASN.1)ASN.1是NCBI用来存储和维护所有数据的格式 Seq-entry ::= set { level 1 , class nuc-prot , descr { pub { pub { sub { authors { names std { { name name { last "Murakami" , initials "T." } } } , affil str Seq-entry ::= set { level 1 , class nuc-prot , descr { pub { pub { sub { authors { names std { { name name { last "Murakami" , initials "T." } } } , affil str "Takashi Murakami, School of Medicine, University of Tokushima, Department of Laboratory Medicine; Kuramotocho 3-chome, Tokushima, Tokushima "Takashi Murakami, School of Medicine, University of Tokushima, Department of Laboratory Medicine; Kuramotocho 3-chome, Tokushima, Tokushima 770, Japan (E-mail:mura@clin.med.tokushima-u.ac.jp, Tel:+81-886-33-7184, Fax:+81-886-31-9495)" } , medium email , date std { year 1995 , month 3 , 770, Japan (E-mail:mura@clin.med.tokushima-u.ac.jp, Tel:+81-886-33-7184, Fax:+81-886-31-9495)" } , medium email , date std { year 1995 , month 3 , day 10 } } } } , pub { pub { muid 95251725 , article { title { name "Cloning of rat obese cDNA and its expression in obese rats." } , authors { names std day 10 } } } } , pub { pub { muid 95251725 , article { title { name "Cloning of rat obese cDNA and its expression in obese rats." } , authors { names std { { name name { last "Murakami" , initials "T." } } , { name name { last "Shima" , initials "K." } } } , affil str "Department of Laboratory Medicine, { { name name { last "Murakami" , initials "T." } } , { name name { last "Shima" , initials "K." } } } , affil str "Department of Laboratory Medicine, School of Medicine, University of Tokushima, Japan." } , from journal { title { iso-jta "Biochem. Biophys. Res. Commun." , ml-jta "Biochem Biophys School of Medicine, University of Tokushima, Japan." } , from journal { title { iso-jta "Biochem. Biophys. Res. Commun." , ml-jta "Biochem Biophys Res Commun" , issn "0006-291X" , name "Biochemical and biophysical research communications." } , imp { date std { year 1995 , month 4 , day 26 } , Res Commun" , issn "0006-291X" , name "Biochemical and biophysical research communications." } , imp { date std { year 1995 , month 4 , day 26 } , volume "209" , issue "3" , pages "944-952" , language "eng" } } , ids { pubmed 7733988 , medline 95251725 } } , pmid 7733988 } } , update-date std { volume "209" , issue "3" , pages "944-952" , language "eng" } } , ids { pubmed 7733988 , medline 95251725 } } , pmid 7733988 } } , update-date std { year 2000 , month 2 , day 1 } , source { org { taxname "Rattus norvegicus" , common "Norway rat" , db { { db "taxon" , tag id 10116 } } , orgname { year 2000 , month 2 , day 1 } , source { org { taxname "Rattus norvegicus" , common "Norway rat" , db { { db "taxon" , tag id 10116 } } , orgname { name binomial { genus "Rattus" , species "norvegicus" } , mod { { subtype strain , subname "OLETF, LETO and Zucker" } } , lineage "Eukaryota; name binomial { genus "Rattus" , species "norvegicus" } , mod { { subtype strain , subname "OLETF, LETO and Zucker" } } , lineage "Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus" , gcode 1 , mgcode 2 , Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Rodentia; Sciurognathi; Muridae; Murinae; Rattus" , gcode 1 , mgcode 2 , div "ROD" } } , subtype { { subtype tissue-type , name "adipose" } , { subtype dev-stage , name "differentiated" } } } } , seq-set { seq { id { ddbj { name div "ROD" } } , subtype { { subtype tissue-type , name "adipose" } , { subtype dev-stage , name "differentiated" } } } } , seq-set { seq { id { ddbj { name "RATOBESE" , accession "D49653" , version 1 } , gi 995614 } , descr { title "Rat mRNA for obese(leptin), complete cds." , genbank { source "Rattus "RATOBESE" , accession "D49653" , version 1 } , gi 995614 } , descr { title "Rat mRNA for obese(leptin), complete cds." , genbank { source "Rattus norvegicus (strain:OLETF, LETO and Zucker) differentiated adipose cDNA to mRNA." , keywords { "obese(ob)" , "leptin" , "obesity" , "ob product" , norvegicus (strain:OLETF, LETO and Zucker) differentiated adipose cDNA to mRNA." , keywords { "obese(ob)" , "leptin" , "obesity" , "ob product" , "secretory protein" } } , molinfo { biomol mRNA } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol rna , length 539 , seq-data "secretory protein" } } , molinfo { biomol mRNA } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol rna , length 539 , seq-data ncbi2na '508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A38 ncbi2na '508208215498A00EE7A2157B96BD7BA7FAD737B5CEF427B9735102D4A38 4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC 4500574D0853ED14A34384FD11192DACD652922AD16BFA1F4F56A7D154F78BFB508E85215E92DC D048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B D048D74527E5F5401B9E48C9D385E88179885D75379E97DD42279D5E59215BA5E48252225E8E9B 5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4'H } , annot { { data ftable { { data gene { locus "obese(ob)" } , location int { 5E825D9DC75122BAE9DE24A792A7779284F7D04BE85F257839E2BF4'H } , annot { { data ftable { { data gene { locus "obese(ob)" } , location int { from 0 , to 538 , id gi 995614 } } } } } } , seq { id { ddbj { accession "BAA08529" , version 1 } , gi 995615 } , descr { title "leptin (ob product) [Rattus from 0 , to 538 , id gi 995614 } } } } } } , seq { id { ddbj { accession "BAA08529" , version 1 } , gi 995615 } , descr { title "leptin (ob product) [Rattus norvegicus]" , molinfo { biomol peptide } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol aa , length 167 , seq-data ncbieaa norvegicus]" , molinfo { biomol peptide } , create-date std { year 1995 , month 9 , day 22 } } , inst { repr raw , mol aa , length 167 , seq-data ncbieaa "MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTG "MCWRPLCRFLWLWSYLSYVQAVPIHKVQDDTKTLIKTIVTRINDISHTQSVSARQRVTG LDFIPGLHPILSLSKMDQTLAVYILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEA LDFIPGLHPILSLSKMDQTLAVYILTSLPSQNVLQIAHDLENLRDLLHLLAFSKSCSLPQTRGLQKPESLDGVLEA SLYSTEVVALSRLQGSLQDILLDLSPEC" } , annot { { data ftable { { data prot { name { "leptin (ob product)" } } , location whole gi 995615 } , { SLYSTEVVALSRLQGSLQDILLDLSPEC" } , annot { { data ftable { { data prot { name { "leptin (ob product)" } } , location whole gi 995615 } , { data prot { processed signal-peptide } , comment "secretory protein" , location int { from 0 , to 20 , id gi 995615 } } , { data prot { name { "secreted data prot { processed signal-peptide } , comment "secretory protein" , location int { from 0 , to 20 , id gi 995615 } } , { data prot { name { "secreted protein, leptin" } , processed mature } , location int { from 21 , to 166 , id gi 995615 } } } } } } } , annot { { data ftable { { data cdregion { frame one , protein, leptin" } , processed mature } , location int { from 21 , to 166 , id gi 995615 } } } } } } } , annot { { data ftable { { data cdregion { frame one , code { id 1 } } , product whole gi 995615 , location int { from 29 , to 532 , id gi 995614 } } } } } } code { id 1 } } , product whole gi 995615 , location int { from 29 , to 532 , id gi 995614 } } } } } }  基因组数据库的注释 基因组注释工具 n n迄今还没有一种普遍使用的基因组序列注释工具。

      迄今还没有一种普遍使用的基因组序列注释工具n n基因组注释咨询小组:在美国成立基因组注释咨询小组:在美国成立,  , 其成员来自其成员来自Oak RidgeOak Ridge、、Lawrence BerkeleyLawrence Berkeley、、ArgonneArgonne三个国家实验室以及其他基三个国家实验室以及其他基因组测序实验室因组测序实验室n n目的:开发研制基因组注释工具目的:开发研制基因组注释工具n n提出了开发名为提出了开发名为“ “Genome Channel”Genome Channel”的基因组注释工具的设的基因组注释工具的设想,该软件的模型可从想,该软件的模型可从Oak RidgeOak Ridge国家实验室的国家实验室的WebWeb节点节点(http://compbio.ornl.gov/tools/channel/)(http://compbio.ornl.gov/tools/channel/)获取    基因组注释工具Genome ChannelGenome Channel为所为所有测序完成和尚未完有测序完成和尚未完成的基因组提供了一成的基因组提供了一个染色体图形界面个染色体图形界面( (核核型浏览型浏览) ),,从各测序实验室发送从各测序实验室发送的单个结合点用彩色的单个结合点用彩色编码区带在染色体的编码区带在染色体的适当位置上显示出来适当位置上显示出来每个结合点直每个结合点直接与含有丰富接与含有丰富信息的图谱信息的图谱(information-(information-rich map)rich map)相连,相连,信息图谱包括信息图谱包括各种特征信息,各种特征信息,如如ORFsORFs、转录、转录因子、预测基因子、预测基因的因的BLASTBLAST结结果、建立结合果、建立结合点的凝胶标记点的凝胶标记和基因克隆及和基因克隆及DNADNA确认序列确认序列 基因组注释工具n n前景:一旦前景:一旦Genome ChannelGenome Channel投入使用,科研人员投入使用,科研人员   将可以将可以为现有的基因组序列增加新的生物学特征注释或修改以前为现有的基因组序列增加新的生物学特征注释或修改以前的注释。

      的注释n n该注释工具是用该注释工具是用JavaJava语言开发的,并不适合于所有的语言开发的,并不适合于所有的WebWeb浏览器浏览器       微生物基因组序列合作注释工具 n nWITWIT软件是从生物化学软件是从生物化学/ /代谢通道透视图的角度来注释微生代谢通道透视图的角度来注释微生物基因组物基因组n n基本原理是所有生物体共享同一的代谢通道即同源基因编基本原理是所有生物体共享同一的代谢通道即同源基因编码出来的蛋白质具有同一功能码出来的蛋白质具有同一功能n n生物体全基因组序列的所有基因的功能注释过程可以被认生物体全基因组序列的所有基因的功能注释过程可以被认为是生物体的为是生物体的“ “代谢重建代谢重建” ”n n代谢重建代谢重建( metabolic reconstructoion)( metabolic reconstructoion)的目的在于确定生物体的目的在于确定生物体的代谢通道以及确定哪个基因具有这种功能的代谢通道以及确定哪个基因具有这种功能    What Is There(WIT)“What Is There”(WIT),由Argonne国家实验室的Ross Overbeek和密西根州 大学的Niels Larsen合作研制,Web节点http://wit.mcs.anl.gov/WIT2/TIGR已经使用WIT注释各种基因组数据。

      WIT Web节点http://www.cme.msu.edu/WIT/HTML/curate.html http://www.ncbi.nlm.nih.gov/Genbank/index.htmlAuthorsSequinBankItSequence dataGenBankAccession number2 daysDraftrecord序列提交序列提交 提交序列(BankIt)n nBankItBankIt是是NCBINCBI提供的提交序列的工具提供的提交序列的工具n n由一系列表单,包括联络信息、发布要求、引用参考信息、由一系列表单,包括联络信息、发布要求、引用参考信息、序列来源信息、以及序列本身的信息等序列来源信息、以及序列本身的信息等n n用户提交序列后,会从电子邮件收到自动生成的数据条目,用户提交序列后,会从电子邮件收到自动生成的数据条目,GenbankGenbank的新序列编号,以及完成注释后的完整的数据记的新序列编号,以及完成注释后的完整的数据记录 提交序列(BankIt)• •用户还可以在用户还可以在BankItBankIt页面下修改已经发布序列的信息页面下修改已经发布序列的信息。

      n nBankItBankIt适合于独立测序工作者提交少量序列,而不适合适合于独立测序工作者提交少量序列,而不适合大量序列的提交,也不适合提交很长的序列,大量序列的提交,也不适合提交很长的序列,ESTEST序列序列和和GSSGSS序列也不应用序列也不应用BankItBankIt提交 提交序列步骤提交序列步骤1. 1.登陆登陆BankItBankIt页面页面     http://www.ncbi.nlm.nih.gov/BankIthttp://www.ncbi.nlm.nih.gov/BankIt2. 2.填写表单内容填写表单内容3. 3.确认表单内容确认表单内容4. 4.等待电子邮件返回信息等待电子邮件返回信息 填写表单信息(1)填写表单的内容包括四个方面一些注意事项和介绍 填写表单信息(2)基本信息:提交的序列数目,联系人的信息,公开序列发布日期等 填写表单信息(3)参考信息:序列作者,相关文献等信息 填写表单信息(4)来源信息:序列来源,物种等描述 填写表单信息(5)序列信息:序列类型,序列等 填写表单信息(6)附加信息:评论,致谢等(可以不填写)填完后点击进入确认界面 确认表单信息确认无误后提交到genbank如果发现有不对,返回表单页面修改。

      提交的序列 序列提交工具(sequin)n n大量的序列提交可以由大量的序列提交可以由SequinSequin程序完成程序完成n nSequinSequin程序能方便的编辑和处理复杂注释,并包含一系列内建的检程序能方便的编辑和处理复杂注释,并包含一系列内建的检查函数来提高序列的质量保证查函数来提高序列的质量保证n n用于提交来自系统进化、种群和突变研究的序列,可以加入比对的用于提交来自系统进化、种群和突变研究的序列,可以加入比对的数据n nSequinSequin除了用于编辑和修改序列数据记录,还可用于序列的分析,除了用于编辑和修改序列数据记录,还可用于序列的分析,任何以任何以FASTAFASTA或或ASN.1ASN.1格式序列为输入数据的序列分析程序都可以格式序列为输入数据的序列分析程序都可以整合到整合到SequinSequin程序下n n不同操作系统下运行的不同操作系统下运行的SequinSequin程序:程序:ftp://ncbi.nlm.nih.gov/sequin/ftp://ncbi.nlm.nih.gov/sequin/n nSequinSequin的使用说明:的使用说明:http://www.ncbi.nih.gov/Sequin/index.htmlhttp://www.ncbi.nih.gov/Sequin/index.html 谢谢!  结束语结束语谢谢大家聆听!!!谢谢大家聆听!!!127 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.