
单分子测序PacBio技术和应用解决方案.docx
11页完整 word 版)单分子测序 PacBio 技术和应用解决方案单分子测序 PacBio 技术和应用解决方案一、 技术原理SMRT:single molecular real time Sequencing PacBio RS,RS 表示 Real time Sequencing关键之一:DNA 聚合酶根本原理:DNA 聚合酶和模板结合,4 色荧光标记 4 种碱基,经过 Watson 配对后不同的碱基参与,会发出不同光,依据光的波长与峰值可推断进入的碱基类型和其他根本测序技术一样,在反响管中进展的是大规模平行的多分子反响,怎样在其中进展单分子反响检测?四周有大量的荧光标记的游离碱基,怎样将反响信号与四周游离碱基的强大荧光背景区分出来?通过一个物理现象解释:ZMW〔zero—mode waveguides,零模波导孔〕例如微波炉壁上可看到有很多密集的小孔.小孔直径有讲究,假设直径大于微波波长,能量就会穿透面板泄露假设孔径小于波长,能量不会辐射外部,起保护作用完整 word 版)单分子测序 PacBio 技术和应用解决方案在一个反响管(SMRTCell:单分子实时反响孔)中有很多这样的圆形纳米小孔,即 ZMW〔零模波导孔〕,外径 100 多纳米, 比检测激光波长小〔数百纳米),激光从底部打上去后不能穿透小孔进入上方溶液区,能量被限制在一个小范围(体积 20X 10—21L)里,正好足够掩盖需要检测的局部,使得信号仅来自这个小反响区域,孔外过多游离核苷酸单体照旧留在黑暗中, 将背景降到最低。
单个 ZMW 底部固定有一个结合了模板 DNA 的聚合酶,当参与测序反响试剂后,每个碱基配对合成后会发出相应的光并被 检测一个 SMRTCell 中有 15 万个 ZMW,每个孔中有一个单分子 DNA 链在高速合成,如众星闪耀原始检测数据的结 果,每合成一个碱基即显示为一个脉冲峰,每分钟>100 个碱基的速度,配上高区分率的光学检测系统,就能实时检进展检测关键点之二:荧光标记位点这是影响测序长度的格外关键的因素二代测序都标记在 5‘端甲基上,在合成过程中,荧光标记物保存在 DNA 链上,随 DNA 链的延长会产生三维空间阻力导致 DNA 链延长到确定程度后会消灭错读这是 NGS 的测序读长仅能到达 100 多 bp 到 200bp 的一个缘由PacBio 平台的碱基荧光标记在 3‘端磷酸键在 DNA 合成过程中正确的碱基进入时,在 3’端磷酸键的标记是会随磷酸键断裂自动被打断,标记物被弃去,亦即合成的 DNA 链不带荧光标记,和自然的 DNA 链合成产物全都,可以到达很长的读长关键点之三:时空段概念合成过程中,每次进入一个碱基,原始数据会实时地产生一个脉冲峰,每两个相邻的脉冲峰之间有确定的距离,也就是有一个时间段的概念。
距离与模板上碱基是否存在修饰有关,假设有碱基修饰,就像开车经过路障时,通过速度会减慢,导致两个相(完整 word 版)单分子测序 PacBio 技术和应用解决方案邻峰之间距离加大.依据这个距离的变化,可以推断模板相应位点是否消灭碱基修饰,并且结果是实时的甲基化就是一种主 要的碱基修饰,PacBio 技术不仅可以供给序列信息,还可供给实时信息了解模板修饰的状况,用于甲基化等碱基修饰争论二、 测序流程和策略配件:SMRT cell chip〔小拇指指甲盖大小〕一条 strip 可以放 8 个 SMRT cell,仪器一次可运行 2 条 strip,共 16 个 SMRT cell文库构建试剂盒,测序试剂盒流程和策略1. 文库制备材料:全基因组 DNA,或者 cDNA,或者目标扩增产物片段化:全基因组太大需要片段化,由于测序读长很长,可以做很大的片段文库(3—10kb〕连接:先把片段粘末端变成平端,两端分别连接环状单链:单链两端分别与双链正负链连接上,得到一个类似哑铃(“套马环“〕 的构造,称为 SMRT Bell连接半小时内完成〔问题:片段化用什么方法?两端的环状单链是同一序列吗?如何确定单链方向?假设两端一样,如何区分正负链?如何排解其他连接产物?连接效率有多高?如何纯化去掉酶?〕关于以上文库制备问题跟 NGS 类似,比方用片段化仪进展片段化,加接头等等。
通过优化的试验protocol 进展各步骤的优化如此,文库制备完成,简洁快速无需扩增.没有扩增偏向性,高或低 GC 含量区域掩盖均匀,尤其不会湮没稀有突变完整 word 版)单分子测序 PacBio 技术和应用解决方案2 引物退火 + 聚合酶结合当引物与模板的单链环部位退火后,这个双链部位就可以结合到已固定在 ZWM 底部的聚合酶上〔问题:大分子 DNA 进入小孔的集中速度?是否会存在有的 ZMW 没有模板进入的状况?SMRTCell 中样本和测序反响体系的配置都是在测序仪中程序化自动完成的,简洁快捷,标准化会,目前的通量基于目前的进入效率,因此这方面还有提高的空间)3. 测序策略万事俱备,一旦向反响中参与正常的离子,DNA 聚合反响开头了模板双链翻开成环形,先合成正链,单链区,跟着合成负链聚合酶每合成一圈,对于定向目标序列,就相当于 2x 掩盖度.由于合成产物和自然产物全都,聚合酶可以持续合成很长很长的产物,亦即循环合成很多圈〔重复屡次),对于定向单分子目标序列来说就可以得到很高的掩盖度,即获得很多 subread,这就意味着可以对格外低的频率的片段获得很高的准确度,这称为环形全都序列〔circle consensus〕模式,该模式适用于稀有突变及需要高准确度的测序.这也是单分子测序能比 NGS 灵敏度更高地,高准确度地检测到稀有突变的原理。
完整 word 版)单分子测序 PacBio 技术和应用解决方案除了特有的环形全都序列〔circle consensus)模式外,也可以通过增加同一序列的掩盖度(在不同 ZMW 中〕猎取高的全都性准确度单分子掩盖度和猎取序列全都性准确度的关系QV 10 代表 90%准确度,20 代表 99%准确度,30 代表 999%准确度,40 代表 9999%准确度,50 代表 99.999%准确度由图可见,5 个单分子叠加可以得到 99%准确度,10 个单分子叠加可以得到 999%准确度,15 个单分子叠加可以得到 9999%,20 个单分子叠加可以得到 5 个 9 的准确度.类推.而对于因此可以看出,利用环形全都序列模式这个策略,对同一单分子就可以得到格外格外高的准确度三、 Q&A1 关于准确度差的说法如何解释?答复补充于此:单分子测序 1x掩盖度的准确度为 87.5%,这是由于在测序过程中单个分子信号弱,间或会消灭信号难于区分的状况出错几率是随机的,和序列长度、序列组成无关.要提高准确率,只需要提高循环次数,提高单分子掩盖度即可, 15 个单分子叠加可以得到 99.99%的准确度问题:是否就是相当于 200bp 长度目标序列,15 个循环?用 PCR 扩增结果测序是否能通过提高重复拷贝数而提高掩盖度,从而同时到达长片段和高度准确的目的?是,可以通过提高重复拷贝数或对同一单分子环形测序两种方式,或二者结合,到达要求的掩盖度及准确度。
)一代和二代测序的每一个反响,原来就是 N 个分子同时叠加反响所得到的平均信号.(完整 word 版)单分子测序 PacBio 技术和应用解决方案假设需要很长的读取,策略是构建 3 kb—10 kb 的文库,就可以获得长的读长,这就是 continuous longread 模式这种模式,很长的读长适合做全基因组序列组装骨架读长分布图平均读长 31kb,top 5% 读长大于 8kb,最长读长 14〔问题:依据每分钟〉100bp 速度,平均 30 分钟内完成测序,最长需要 2 个多小时?如何平衡时间?读最长的酶有何不同?为何能读这么长?是序列变化,还是构象变化, 还是固定的问题?目前有标准的 protocol,长片段测序推举为 90min,实时上酶反响速度格外快,〉100bp,读长主要跟酶的活性保持有关,主要受激光对它的损伤的影响,固然其它如序列本身,构象也会有确定影响厂家还在不断优化聚合酶的 性能,比方给聚合酶加上免受激光影响的保护基团等,进一步地提高读长,提高测序质量和通量〕四、 技术应用一种技术的应用,通常倚借其技术特长的优势PacBio 单分子测序的技术特征超长的读长—-de novo 测序中完整基因组的组装; Target 测序中多个突变位点的单倍体型检测,简洁的多个重复片段的准确测定,长转录本及可变剪切体测定等等超高测序准确度及单分子区分率——特定序列的 SNP 检测,稀有突变及其频率测定(完整 word 版)单分子测序 PacBio 技术和应用解决方案动态信息——可获得甲基化等多种碱基修饰信息1。
超长的读长二代测序的短处在于读长太短就像拼图玩耍,越碎的碎片就越难拼接虽然供给海量的数据,但是照旧缺乏以完成全基因 组拼接去年在 Nature 上发表的一篇综述文章指出,二代测序读长太短是其技术的内有问题〔 fundamental data properties〕,数学模式所不能解决的.算法已经很成熟,算法再好,也缺乏以解决这个问题PacBio 的超长读长,可实现以相对较低的掩盖度到达很好的序列组装.有助于产生较少的重叠群,帮助全基因组组装.还可以获得简洁的 DNA 重组信息,比方由于断裂造成的融合基因的 Breakpoint,cDNA 里包含的剪切,内外显子间的关系,都需要很长的读长帮助组装跨越的区域因此,对于全基因组 de novo 测序来说,更适宜用组合的方法,将第三代和其次代测序方式结合冷泉港去年宣布研发一个软件,能将 PacBio 结果和二代测序结果结合举例:美国能源部对一个微生物进展测序,用二代测序最好的结果可以组装得到 58 个重叠群 contig.,而用 PacBio 可以直接得到一个 contig,一步完成全基因组组装.转录本剪切变异体:可检测出一个基因的 13 个剪切变异体,缘由在于读长大,跨度大.美国农业部对羊体内微生物进展测序。
用二代测序没能组装起全基因组,最少也有 18 个 contig用 PacBio,用 6K 长度21x 掩盖度,可以组装成单个 contig.这说明长序列测序确实可以帮助组装.另外一个重要问题,GC%对测序掩盖度的影响:对于二代测序技术,GC 含量高的地方掩盖度低,即使再提高全基因组掩盖度,但富含 GC 的区域掩盖度还是难以提高,无法填补.这就造成用二代测序很难完成一些物种的全基因组测序的缘由,或者有的全基因组测序结果存在不少洞的缘由单分子测序平台很适合困难基因组的测序,比方 GC 含量很高,AT 含量很高,多碱基串联重复〔如 CGG 重复〕,一般测序技术很难获得结果这个平台对这类很难测序的区域都能平稳的测序.单分子测序结果显示这种技术掩盖度不随 GC 含量变化而变化,曲线平稳均一的掩盖度对全基因组测序的完成格外重要举例,全长 cDNA 测序结果.5’端转录本开头,4 号外显子,5 号外显子,3‘UTR,polyA 区.polyA 区域 100 多个 A 的测序峰格外清楚.然后到。












