您所在位置：网站首页 > 研究报告 > 综合/其它 > 生物信息学第十四章提交DNA序列到数据库

生物信息学第十四章提交DNA序列到数据库.doc

37页

卖家[上传人]：飞***

文档编号：27047628

上传时间：2018-01-05

文档格式：DOC

文档大小：138KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20金贝

下载

/ 37 举报版权申诉马上下载

文本预览

下载提示

常见问题

第十四章提交 DNA 序列到数据库序言:要在分子生物学领域进行计算分析，从公共数据库(DDBJ/EMBL/GenBank)中获得 DNA 序列记录是其必需条件借助于和一个已了解其生物学功能而被分离出来并测序的基因比较相似性的方法，我们可以尝试确定某疾病基因的功能，这种方法要求序列记录有精确并且富于信息的生物学注解对于将其作为BLAST 或 Entrez 的检索结果来研究的科学家来说，编码的蛋白质产物的名称或功能、基因座位的名称以及和该序列最初的公布之间的联系（它因何被测序？）构成了序列记录的直接的确切涵义本章的内容是提交 DNA 序列及其注解到公共数据库，重点介绍了与国际核苷酸序列协作数据库：DDBJ、EMBL 和 GenBank 密切相关的核苷酸序列数据库我们描述了提交序列到这些数据库的两种不同的方法，一种方法基于互联网，（例如，使用 Bankit）,另一种方法使用 Sequin,这是一个多平台程序，若同时具有网络连接有很大益处，不过这不是必需的Sequin 也是一种很好的利用了NCBI 数据模型（参见第六章）的 ASN.1 编辑工具，而且在不久的将来会成为许多采用 NCBI 的序列分析工具的平台，因此，Sequin 是可供选择的升级工具。

大多数期刊不再刊登完整的序列数据，并且现在公开发表文章时向公共数据库提交序列数据已成为一条准则基因组测序时期（ESTs 和基因组序列的数量以很快的速度增加的时期，在历史上以 1992 年底 EST 计划的开始为标志）已经通　过很多方式影响了科学界例如，许多科学家公布他们发现的序列先于发表对其进行的详细分析，这个习惯已成为大型基因研究中心的规定，尽管一些个别的实验室仍然直到文章发表后才公开他们的数据，还有一些人认为公开他们的记录与否取决于自己的愿望像第二章概述的那样，到目前为止，数据库内容的增长是指数性的大多数早期的序列记录是由对于某个基因感兴趣的单个的科学家提交的，适合这种情况的提交程序必须允许手工进行生物学信息的任意注解然而最近这些数据库不得不接受新类型的数据，而且提交速度要有实质性的提高在 EST 测序开始不久，为了接受这些记录必需一种单独的提交协议，这种要求变得很明显，通过该协议每天接受的记录将达到上千个，峰值时期更将达到每周 100，000 个提交量幸运的是，这些记录相当简单，而且在内容上是一致的，因此适合于自动处理这种大批量提交协议将在下文讨论提交过程也是国际活动的一部分，值得注意的是，向三个国际性协作数据库中的任一个提交的记录（参见第二章图 2.1）几天后都将在另两个数据库中出现，然后这些序列记录将被许多研究组和研究中心传送到　世界范围，其中有些研究者再格式化这些记录以适合他们的数据库和他们的程序使用（例如，GCG,参见第四章），因此仅仅提交序列数据到这三个数据库之一，研究者们能够避免给这三个地方的数据库维护人员带来任何可能的重复工作，而且也能避免发布多余的记录。

同样的，大多数期刊都希望在一篇文章中提出的所有核苷酸序列，将被由国际性的协作数据库之一提供的加入号码所验证，而且这对该文章来说具有核心的意义参见第 2章和第 6 章）提交到哪儿？过去研究者将数据提交到哪一个特定的数据库依赖于他们想要发表文章的期刊，虽然现在一些期刊仍然不合适的指出一个偏爱的数据库，但这不再是正确的了，研究者应该提交到最方便的数据库这可能是地理上最近的数据库（例如，如果需要一次会谈的话）；也可能是经常提交的数据库；或者可能仅是因为在那里提交可能得到最多的注意这三个数据库都有知识丰富的人员来帮助提交者完成整个提交过程在通常的情况下，一个工作日内将会反馈回来一个加入号码，　而记录的完成将需要 510 天的时间，其实际长短将依赖于那个工作周的繁忙程度和提交的序列的状态目前，假设所有的序列记录提交都通过电子方式：例如通过互联网，通过电子邮件，或者（最起码）通过常规方式邮寄一张计算机磁盘供电子方式提交的URLs 和 E_mail 地址列于本章末尾, 这两种提交方式取代了早期使用的授权软件的方法，该方法现在已经过时了不过通过授权软件来提交仍然可被接受（在本文出版时），但是使用授权软件的提交者应该注意其局限性和可以选择更好的方法。

提交什么内容？这三个数据库都需要同样的最终结果：充分注解的、具生物学意义的、便于计算的良好记录，该记录允许其他科学家利用提交该记录的生物学家已获得的工作成果，并且提供了与蛋白质、参考文献和基因组数据库（参见第 5 章）的联系这些数据库是所有通过实验获得的序列的宝库，因此最新测序的 mRNA 或基因区域的序列可以提交到某个数据库，其工作人员将协助提交者提供足够的信息以使该序列对其他研究者有使用价值一套丰富的生物特征和其他注解是可得到的，但其中重要的部分无疑是那些可用于分析的内容这些部分包括核苷酸和蛋白质序列：CDS（编码序列，又称编码区）、基因、mRNA 特征（如：表现分子生　物学中心法则的特征）；序列得以确定的生物；以及关于参考文献的引用，这些引用将此序列连接到有关的信息领域并将给出证明该序列存在的实验细节DNA/RNA提交的过程相当简单，但必须小心谨慎，才能提供准确（无错误和无载体污染）和生物学上尽量良好的信息，以保证其得到科学界的最充分利用无论提交形式如何，在开始提交以前，都要解决以下几个问题序列的性质该序列来源于基因组还是 mRNA？数据库的用户想知道被测序的 DNA 分子的来源。

例如：尽管 cDNA 是在 DNA（不是 RNA）上进行测序的，在细胞中的分子表现型却是 mRNA同样对于 rRNA 基因的基因组测序而言，测序的分子几乎全都是 DNA 分子将 rRNA 复制成 DNA，就象直接对 rRNA 测序一样，尽管是可能的，但很少这样做记住：既然被提交的基因必须有独特的分子类型，它就不会表现出（例如）一种基因组和 mRNA 分子的混合类型，否则实际上不会从一个活细胞中提取出来序列是合成的，但不是人造的吗？合成分子在核苷酸数据库中有一个特殊的分类，在此环境中，序列被按照实验排列，而这在自然环境中是不会出现的（如：蛋白质表达的载体序列）DNA 数据库不接受计算机产生的序列（如：同源序列），在数据库中的所有序列都是从有问题的实际分子序列中通过实验获得的，但是它们可以被汇聚成测序训练猎枪序列有多精确？在数据库文献中很少提到这个问题，但假设被提交的序列尽可能精确，这通常意味着整个提交序列至少包括两相覆盖域（相反方向）证实最终提交的序列也同样重要，它必须无载体的污染（这可以用在载体数据库中 BLASTN 查寻证实：参见其后的第 7 章），可以以已知的限制图谱检验，消除序列重组的可能性，或　确认正确的序列集合。

生物体给每条记录分配正确的生物是至关重要的，尽管在大多数情况下这是很容易做到的所有的 DNA 序列记录必须有一个生物分配给它们，从数据库中的记录出现在系统发生树上的位置可以得到许多推论如果它们被错误的安置了，可能会翻译错误的遗传密码，并产生被错误截取的蛋白质产物序列已经知道的基因和物种的种类足可以使数据库成员识别生物和其谱系NCBI 提供了一个重要的分类服务，分类学家维护能用于所有核苷酸数据库和 Swiss-Prot 蛋白质数据库的分类法引用注解即使再好，也永远比不上一篇充分阐述生物学的已发表文章，因此，有必要保证正确链接研究出版物和它将引用的原始数据基于此理由, 提交中准备好引用是很重要的，即使其中只有作者的临时列表和工作标题在出版时更新这些引用对于记录的价值也很重要这由数据库成员惯例的执行，而且如果提交者在发表文章以前通知数据库成员，将执行得更快）编码序列核苷酸序列的提交也意味着包括其编码的蛋白质序列，这是因为：1. 蛋白质数据库（如： Swiss-Prot 和 PIR）几乎完全由在 DNA 序列数据库中记录的蛋白质序列所组成2. 在提交过程中包括蛋白质序列如果不是必需的话, 也是重要和有效一步。

蛋白质包括执行我们研究的许多生物反应的酶分子，其序列数据是提交中的固有部分，它们的重要性（在第 6 章中概述）也在提交过程中体现出来，在各种数据库中其信息作为代表性必须被捕获如果已知的话, 蛋白质产物和基因的名称也很重要，有各种各样的资源（许多在总结这些章节的列表中有描述）为给定的生物提供准确的命名系统参见“基因命名指导，基因趋势”，1995，Elsevier编码序列特征，或 CDS，是 DNA 或 RNA 和蛋白质序列的联系，随同正确的翻译表一起, 在有效性中其正确定位占据了中心位置核苷酸数据库现在用了 13种不同遗传密码（参见章末的列表），这些遗传密码由 NCBI 中的分类学和分子生物工作人员维护由于蛋白质序列是如此重要，它们是生物学家可以计算的主要分子生物信息资源之一，它们理所当然地得到各种数据库成员的重视在　mRNA 中正确地找到开放的读框架通常是很简单的（参见第 10 章）, 并且有多种工具可供利用 [ 如：NCBI 的 ORF 查找器 (见章末列表)] ，而且在Sequin 中是作为一个函数（如下）；从一个较高级的真核生物获得正确的CDS 间隔就不那么容易了：必须连接不同的外显子序列，这涉及许多方法，在第 10 章中有介绍(如果给定蛋白质序列和正确的遗传密码的话, Sequin 中的推荐间隔函数可以计算 CDS 间隔)。

在提交中包括什么内容将由数据库工作人员来决定, 更恰当地说, 这受到所使用的提交工具的限制, 如通过互联网或Sequin有效性检查包含 CDS 间隔中的起始和终止密码子，该间隔具有合法的外显子/内含子一致边界，用合适的遗传密码可将提供的氨基酸序列从指定的CDS 中转换出来其他特征在提交序列记录的特征部分还有许多其它特征，并且其中许多特征将扩充记录内容在特征表文件中描述了完整的特征集，该文件可以 WWW 方式取得或通过匿名 FTP 获得 PostScript 文件尽管有许多特征可供利用，但在数据库中却有许多不一致的用法，主要原因是缺乏一致的原则和生物学家们对它们究竟意味着什么看法很不相同正确地获得生物、书目、基因、CDS、mRNA 通常就足以并且有助于证实序列，使生物学家通过几行文字就能获得生物学的内容只要应用恰当，一个特征表文件是可以利用的，但要注意文件注解的意图种群、系统发生、变异的研究现在核苷酸数据库可接受种群、系统发生、变异的研究作为提交的序列集，尽管在简单文件记录中并没有充分描述该信息，但它却在各种各样的数据库中出现新型的提交方式允许：若仅因为操作的原因，一起提交一组相关序列，那么获得共享信息入口只需要一次请求。

Sequin 也允许用户包含有用自己中意的比对工具生成的序列比对结果，并随着 DNA 序列提交该信息尽管所有的数据库都知道该信息对于目前获得的大量记录很重要，但是 NCBI 是唯一接受该信息的数据库显示该信息的新方法（如：Entrez）应尽快能使一般科学团体更易获得这种数据仅提交蛋白质序列在大多数情况下，蛋白质序列和 DNA 序列并存，但也有些例外人们直接处理蛋白质序列这些序列必须在没有相应的 DNA 序列的情况下提交对于这些提交而言，目前 SWISS-PROT 是最好的地方，EBI 处理这些提交，并将其传送到 SWISS-PROT如何提交到互联网Authorin 利用率的下降使这三个数据库决定在互联网上采用基于表格的方式，这个新的媒介能很好的适应提交过程三个数据库都设计了一种表格，以使DNA　序列提交到自身的数据库中：DDBJ 的 Sakura(樱花开)、EBI 的WebIn、和 GenBank 的 BankIt互联网是简单提交序列的理想提交途径（如图 14.1），也是那些不需要复杂注解和过多重复的提交序列的最佳选择（如：在种群研究中，很典型的有 30 条类似的序列，用 Sequin 提交最好）。

互联网对于那些只做少量提交和要求较。

点击阅读更多内容

生物信息学第十四章 提交DNA序列到数据库.doc

生物信息学第十四章提交DNA序列到数据库.doc