您所在位置：网站首页 > 行业资料 > 其它行业文档 > fasta格式

fasta格式.docx

3页

卖家[上传人]：jiups****uk12

文档编号：39262036

上传时间：2018-05-13

文档格式：DOCX

文档大小：23.08KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 3 举报版权申诉马上下载

文本预览

下载提示

常见问题

fasta 格式在生物信息学中，FASTA 格式（又称为 Pearson 格式），是一种基于文本用于表示核苷酸序列或氨基酸序列的格式在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释序列文件的第一行是由大于号第一行是由大于号“>“或分号或分号“;“打头的任意文字说明打头的任意文字说明（习惯常用“>“作为起始），用于序列标记从第二行开始为序列本身，只允许使用既定的核苷酸或氨基酸编码符号（参见下表）通常核苷酸核苷酸符号大小写均可符号大小写均可，而氨基酸氨基酸常用大写字母常用大写字母使用时应注意注意有些程序对大小写有明确要求有些程序对大小写有明确要求文件每行的字母一般不应超过字母一般不应超过 80 个字符个字符下面是 FASTA 格式的一条氨基酸序列实例：>MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA DIDGDGQVNYEEFVQMMTAK最常见的 FASTA 格式编辑序列文件的第一行第一行是由大于符号（（>）打头）打头的任意文字说明，主要为标记序列用标记序列用。

从第二行开始是序列本身，标准核苷酸符号或氨基酸氨基酸单字母符号通常核苷酸符号大小写均可，而氨基酸一般用大写字母文件中和每一行都不要超过 80 个字符（通常 60 个字符）对于核酸序列，除了为大家所熟知的 A、C、G、T、U 外，R 代表 G 或 A（嘌呤）；Y 代表 T 或 C（嘧啶）；K 代表 G 或 T（带酮基）；M 代表 A 或 C（带氨基）；S 代表 G 或C（强）；W 代表 A 或 T（弱）；B 代表 G、T 或 C；D 代表 G、A 或 T；H 代表 A、C 或T；V 代表 G、C 或 A；N 代表 A、G、C、T 中任意一种[1] EMBL 和 GenBank 数据库的主要内容和格式序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期序列特征表碱基组成序列（每行 60 个碱基）EMBL 标识字 GenBank 标识字含义ID LOCUS 序列名称DE DEFINITION 序列简单说明AC ACCESSION 唯一的序列编号SV VERSION 序列版本号KW KEYWORDS 与序列相关的关键词OS SOURCE 序列来源的物种名OC ORGANISM 序列来源的物种学名和分类学位置DT 建立日期RN REFERENCE 相关文献编号或提交注册信息RA AUTHORS 相关文献作者或提交序列作者相关文献作者或提交序列作者RT TITLE 相关文献题目RL JOURNAL 相关文献刊物名或作者单位RX MEDLINE 相关文献 Medline 引文代码RC REMARK 相关文献注释RP 相关文献其它注释CC COMMENT 关于序列的注释信息DR 相关数据库交叉引用号FH FEATURES 序列特征表起始FT 序列特征表子项SQ BASE CONTENT 序列长度、碱基数目统计数空格 ORIGIN 序列// // 序列结束标志、空行数据库的冗余(redundancy)DNA 和蛋白质数据库中的很多记录是属于同一基因和蛋白质家族，或在不同生物体上发现的同源基因。

不同的研究机构可能向数据库发送了相同的序列数据，如果没有被检查出来，则这些记录或多或少地紧密相关当然，这些记录如果的确非常相近，可以被认定为它们是相同序列，但一些显著的差异可能是由于基因组多样性的结果冗余数据至少可能导致以下 3 个潜在的错误一是如果一组 DNA 或氨基酸序列包含了大量非常相关序列族，则相应的统计分析将偏向这些族，在分析结果中，这些族的特性被夸大二是序列间不同部分的显著相关可能是在数据样本抽样时是有偏的和不正确的最后是如果这些数据是被用于预测，则这些序列将使预测方法—如人工智能方法—发生偏离非冗余(non-redundant, nr)生物数据非常复杂，它远非“冗余”二字可以准备描述例如，同一位点上的 2 个等位基因是不是冗余的？同一生物体内的 2 个同功酶是否冗余？因此，过于苛刻地去除“太过于相似的序列”可能导致一些有价值的信息被删除，应在数据规模和非冗余之间找到一个合理的平衡点序列数据的偏差或人为假象(artifacts) 主要来自实验过程，这与其它科学数据的情况相同这些人为假象主要来自以下几个方面：(1) 载体序列污染：在测定序列等实验过程中，载体序列可能造成污染，致使序列记录数据中包含了载体序列。

2) 异源(heterologous)序列污染：有研究表明一些人类 cDNA 测序结果在实验过程中被酵母和细菌序列污染3) 序列的重排和缺失4) 重复因子污染：cDNA 克隆方法有时会受到逆转录因子(如 Alus)的影响 5) 测序误差和自然多态性：测序过程存在一定的误差概率参考资料1．对于 fasta 格式字符意义说明的中文形式．。

点击阅读更多内容