
序列文件格式fasta格式和Flatfile格式.doc
8页1、序列文件格式:fasta 格式和 Flatfile 格式fasta 格式数据库被用来存放原始数据,以及一系列附加的注释不同的检索工具和程序利用了这些信息中的不同部分纵观各种格式,我们可以发现其中应用了一些共同的规则,以使得多种情况下在不同格式之间生成和交换数据成为可能最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的(例如 GenBank flatfile,这是一种人可以阅读的 ASN.1 版本) 这些记录还有二进代码版,更加紧凑,计算机处理也更快但不幸的是,由于历史的原因,对一种固定格式的频繁使用使得引入另一种格式极为困难,尽管新的格式可能更加富含信息,更加准确,易于复制和计算,易于抽取信息,易于使用GBFF 的简单性,使我们都可以获得易用的工具,这也是 EMBL 和 GBFF 极大通用性的重要原因作为最简单的格式,一个 DNA 序列可以表示为一个带有一些标记的核苷酸字符串这里是一个以 FASTA(或 Pearson 格式)文件表示的核苷酸序列数据:>L04459*******************或同样的,一个蛋白质记录:>P31373*******************FASTA 格式广泛应用于许多分子生物学软件包之中。
作为最简单的情况(正如上面所显示的) ,大于号(>)表示一个新文件的开始标记符��上面第一个例子开始部分的 L04459��后面是大写或小写字母的 DNA 序列,通常 60 个字符一行(但这并非是标准规定) 如果需要的话,用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息例如,在不违反上面规定的前提下,可以在 FASTA 的说明行中加入更多的内容,使这个简单的格式包含更多的信息,就象下面这样:>|*******************现在这个 FASTA 文件中包含了 gi 号码(见下面) 、GenBank 检索号码、LOCUS 名称、以及 GenBank 记录中的 DEFINATION 字段这个记录是从 ASN.1 记录生成的,而 ASN.1 是 NCBI 用来存储和维护所有数据的格式 (在计算机中这些数据保存为一行,如果打印出来,将比本书的页面宽出许多所以,这里做了折行处理) 在分子生物学的历史上曾经使用过许多格式,其中有些格式现在还在使用,同时也有许多工具用来在这些格式之间转换数据NCBI 的 asn2ff 程序可以将 ASN.1文件转换为多种 flatfile 文件格式,它可以生成GenBank、EMBL、GenPept、Swiss-Prot 以及 FASTA 格式的文件。
这一程序包含在 NCBI 工具软件包之中Don Gilbert 的 READSEQ 是另一个广泛使用的工具,已包含在许多软件包中在使用这些工具进行格式转换时,用户应当注意,有些 GenBank 或 EMBL 格式下的特性将被丢失READSEQ 只工作于序列自身,并不处理注释部分那些只需要序列数据的程序最好使用 FASTA 格式的序列来进行查询尽管 FASTA 格式的信息含量比其他格式少,但它提供了人和计算机都可理解的处理原始数据的简单方法GenBank Flatfile 格式GenBank flatfile(GBFF)是 GenBank 数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一在本书写作的时候,它也是从 GenBank 到 DDBJ和 EMBL 数据库,以及 EMBL、DDBJ 之间或向其他数据库交换数据时所采用的格式DDBJ flatfile 格式与 GBFF 格式是相同的EMBL 格式则每行都带有前缀,以表明本行的信息类型注释部分(见下面)前缀为“FT” ,在内容上与其他数据库相同所有这些格式实际上都是由更结构化的 ASN.1 生成的但是主要由于历史的原因,许多用户(专家或非专家)在工作中使用 GBFF(或 EMBL flatfile 格式)GBFF 可以分成三个部分,头部包含关于整个记录的信息(描述符) 。
第二部分包含了注释这一记录的特性,第三部分是核苷酸序列自身所有的核苷酸数据库记录(DDBJ/ EMBL/ GenBank)都在最后一行以 // 结尾头部头部是记录中与数据库关联最大的部分各个的数据库并不一定在这一部分包含相同的信息,而可能存在着微小的差别但各数据库已作出努力以在彼此之间保证信息兼容所有的 GenBank flatfile 开始于 LOCUS 行:*********************这一行中的第一项是 LOCUS 名称历史上曾用这个名称来表示本记录描述的基因座,提交者和数据库工作人员花费了无数的时间来设计这一名称这一成分开始于一个英文字母,总长度不能超过 10 个字符第二个字符以后可以是数字或字母,所有字符均要大写LOCUS 名称在以前是最为有用的,那时大多数 DNA序列记录只表示一个基因座,这样在 GenBank 中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事经典的例子包括 HUMHBB:人β-珠蛋白基因座,或 SV40:猿猴病毒(拷贝之一,因为存在许多拷贝) 为了可用起见,LOCUS 名称在数据库中必须是独一的因为几乎所有有意义的命名符都被使用过了,所以今天 LOCUS 名称已不再是一个有用的成分。
但仍有许多软件包依赖于一个独一无二的 LOCUS 名称,所以数据库还不能将其彻底去掉可行的办法是代之以一个独一无二的词,最简单的是用一个保证不会重复的检索号码,象例子中的 AF010325 那样,以满足对 LOCUS 名称的要求下一项是序列长度,从 1 到 350,000bp在实践中 GenBank 和其他数据库很少接受 50bp 以下的记录所以一般不鼓励将 PCR 引物(24bp)作为序列提交给数据库350kb 限制是一个经验值,各个数据库用不同的方法提供更长的重叠群LOCUS 行中的下一项表明生物分子的类型 “分子类型”通常是 DNA 或 RNA,但也有少量其他类型出现,它们也都表明单链或双链(ss 或 ds) 这些属性现在已经很少使用了,这也是另一个历史遗留物这些包括类型:DNA、RNA、tRNA、rRNA、mRNA 和 uRNA,以表明生物分子的最初来源例如,cDNA 测序实际上代表了一个 mRNA,而 mRNA 才是这个序列真正的分子类型如果 tRNA 或 rRNA 是直接或以 cDNA 为中介测序的,那么 tRNA 或 rRNA 就是分子类型如果序列是通过聚合酶链反应(PCR)从基因组数据中得到的,那么 DNA 是分子类型,尽管这一序列实际上编码结构 RNA。
下一项是 GenBank 分类码,由三个字母组成,这或者具有物种分类意义,或者出于其他分类目的这一代码的存在也是由于历史的原因,可以追溯到GenBank 为了保持可管理的文件大小而将整个数据库按物种分类分割为几个文件的时候GenBank 的分类与 EMBL 以及 DDBJ 略有不同,这在其他文献中有介绍(Ouellette and Boguski, 1997) 在历史上这种分类是非常随意的,现在已不再象历史上那样起到重要的作用,因为物种分类信息已经表现在了“生物体”行以及“来源”特性中这比仅用三个字母作为分类码要清晰明确得多NCBI 近几年来没有再采用更多的基于生物体的分类,但有些新的基于功能的分类却显得越来越重要,因为它们代表了功能方面可定义的差别(Ouellette and Boguski, 1997) 已表达序列标记(EST)分类在 1993 年被采用,其后很快又增加了序列标记位点(STS)类还有基因组综述序列(GSS)和未完成的高通量基因组序列(HTG)都代表了按功能划分的一类数据,这些都要求用户以及数据库工作人员用不同的方法来处理例如,用户可以在这些数据集中检索(例如通过 FLASTN 在 EST 或 HTG 分类中查找) ,并对命中的记录做进一步分析解释。
这时,所有数据库均以相同的方式来说明功能性分类,并且在任一数据库中所有的数据集都会出现在同一分类中CON 类是一个正在计划被使用的新的实验性分类,将用来表征通过重叠群构造的片段或大的整合序列这样就很有可能超出现在对单一记录的 350kb 限制这样的记录可能以如同附录 2.4 的形式出现,这个 CON 类记录给出了大肠杆菌的全基因组序列,长度在 4.6mb 以上这个记录没有包含序列或注释,但包含了如何将存在于其他分类中的片段拼接成完整序列的指示这一实验性分类中的记录将带有检索号和版本号,并且同其他记录一样,在几个合作者之间交换所有被切分的数据也将出现在这一分类中LOCUS 行中的日期是数据最后被公开的日期在许多情况下,也是第一次被公开的日期记录中包含的另一个日期是序列提交给数据库的日期(见下面) 必须注意的是,这两个日期并没有法律保证,数据库并未声明这两个日期是正确的所以它们只供用户参考,并不能作为仲裁的判据就作者的经验,它们也从未被用以作为优先权声明或专利权请求的依据DEFINITION 行(也称为“DEF”行)在 GenBank 记录中用以总结记录的生物意义这一行将出现在 NCBI 的 FASTA 文件中,这样任何人进行 BLAST 相似性搜索时都会看到这些信息。
生成这一行时要非常小心,因为许多记录生成工作可以部分地自动进行所以数据库工作人员要检查这一行以保证信息的一致性和有效性但是,用一行文字来说明生物背景并不总是可行的,对此不同的数据库采用了各自的解决方法其中有一些共识,并且每个数据库也都了解其他数据库的解决方法,并尽力与之一致下面是 DEFINITION 行结构标准的一个小结对于 mRNA,可以象这样:属 种 产物名称 (基因符号) mRNA complete cds或者对于基因组记录:属 种 产物名称 (基因符号) gene complete cds当然,各个数据库采用的解决方法也考虑到了其他类型的记录下列这些规则应用于细胞器序列,以保证用户及数据库工作人员明了 DNA 的来源和生物背景(假定提交者是明了的):DEFINITION 属 种 蛋白质 X(xxx) gene, (下列选一)complete cds., 编码线粒体蛋白质的核基因, 编码叶绿体蛋白质的核基因, 编码线粒体蛋白质的线粒体基因, 编码叶绿体蛋白质的叶绿体基因或者DEFINITION 属 种 XXS 核糖体 RNA gene, (下列选一)complete sequence., 编码线粒体 RNA 的线粒体基因, 编码叶绿体 RNA 的叶绿体基因基于一项合作数据库之间最近达成的协议,将在 DEFINITION 行中给出属和种的全名,而不再使用通用名(如 human)或属名缩写(如 H.sapiens) 。
数据库中在此协议之前生成的记录将最终按此协议进行更新只有一个生物在这个协议之外,那就是人免疫缺陷病毒将在 DEFINITION 行中表示为 HIV1 和 HIV2检索号在记录的第三行,是从数据库中检索一个记录的主要关键词这个号码将在参考文献中被引用,并始终和序列在一起就是说,当序列被更新(例如更正一个核苷酸)时,这个号码不会改变检索号码采取下列两种方式之一:1+5 或 2+6 格式1+5 格式是指 1 个大写字母后跟 5 位数字;2+6 格式是指 2 个大写字母后跟 6 位数字绝大多数新近加入数据库的记录采取后一种方式所有的 GenBank 记录都只有一个单独的 ACCESSION 行,行中可能有多个检索号码,但绝大多数情况只有一个检索号这通常称为主检索号码,。