好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

有参考基因组的转录组生物信息分析模板.docx

5页
  • 卖家[上传人]:天****步
  • 文档编号:299369443
  • 上传时间:2022-05-28
  • 文档格式:DOCX
  • 文档大小:17.47KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 本文格式为Word版,下载可任意编辑有参考基因组的转录组生物信息分析模板 一、生物信息分析流程 获得原始测序序列(Sequenced Reads)后,在有相关物种参考序列或参考基因组的处境下,通过如下流程举行生物信息分析: 二、工程结果说明 1 原始序列数据 高通量测序(如illumina HiSeqTM2000/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息 FASTQ格式文件中每个read由四行描述,如下: @EAS139:136:FC706VJ:2:2104:15343:197393 1:Y:18:ATCACG GCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT + @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF 其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性片面);其次行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性片面);第四行是对应序列的测序质量(Cock et al.)。

      illumina 测序标识符细致信息如下: EAS139 136 FC706VJ 2 2104 15343 197393 1 Y 18 ATCACG Unique instrument name Run ID Flowcell ID Flowcell lane Tile number within the flowcell lane 'x'-coordinate of the cluster within the tile 'y'-coordinate of the cluster within the tile Member of a pair, 1 or 2 (paired-end or mate-pair reads only) Y if the read fails filter (read is bad), N otherwise 0 when none of the control bits are on, otherwise it is an even number Index sequence 第四行中每个字符对应的ASCII值减去33,即为对应其次行碱基的测序质量值。

      假设测序错误率用e表示,illumina HiSeqTM2000/MiSeq的碱基质量值用Qphred表示,那么有以下关系: 公式一: Qphred = -10log10(e) illumina Casava 1.8版本测序错误率与测序质量值简明对应关系如下: 测序错误率 5% 1% 0.1% 0.01% 测序质量值 13 20 30 40 对应字符 . 5 ? I 2 测序数据质量评估 2.1 测序错误率分布检查 每个碱基测序错误率是通过测序Phred数值(Phred score, Qphred)通过公式1转化得到,而Phred 数值是在碱基识别(Base Calling)过程中通过一种预料碱基判别发生错误概率模型计算得到的,对应关系如下表所显示: illumina Casava 1.8版本碱基识别与Phred分值之间的简明对应关系 Phred分值 10 20 30 40 不正确的碱基识别 1/10 1/100 1/1000 1/10000 碱基正确识别率 90% 99% 99.9% 99.99% Q-sorce Q10 Q20 Q30 Q40 测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。

      对于RNA-seq技术,测序错误率分布具有两个特点: (1)测序错误率会随着测序序列(Sequenced Reads)的长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征(Erlich and Mitra, 2022; Jiang et al.) (2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度所以揣测前6个碱基测序错误率较高的理由为随机引物和RNA模版的不完全结合(Jiang et al.)测序错误率分布检查用于检测在测序长度范围内,有无奇怪的碱基位置存在高错误率,譬如中间位置的碱基测序错误率显著高于其他位置一般处境下,每个碱基位置的测序错误率都理应低于0.5% 图2.1 测序错误率分布图 横坐标为reads的碱基位置,纵坐标为单碱基错误率 2.2 GC含量分布检查 GC含量分布检查用于检测有无AT、GC 分开现象,而这种现象可能是测序或者建库所带来的,并且会影响后续的定量分析 在illumina测序平台的转录组测序中,反转录成cDNA时所用的6bp 的随机引物会引起前几个位置的核苷酸组成存在确定的偏好性。

      而这种偏好性与测序的物种和测验室环境无关,但会影响转录组测序的均一化程度(Hansen et al.)除此之外,理论上G和C碱基及A和T碱基含量每个测序循环上应分别相等,且整个测序过程稳定不变,呈水平线对于DGE测序来说,由于随机引物扩增偏差等理由,往往会导致在测序得到的每个read前6-7个碱基有较大的波动,这种波动属于正常处境 图2.2 GC含量分布图 — 5 —。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.