好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

系统生物学第二讲基因组学ppt课件.ppt

339页
  • 卖家[上传人]:新**
  • 文档编号:592076861
  • 上传时间:2024-09-19
  • 文档格式:PPT
  • 文档大小:27.11MB
  • / 339 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第二章 基因组学1 主要参考书《《基因组基因组》》,,Brown T A著,袁建刚等译,著,袁建刚等译,2006《《基因组学基因组学》》,,杨金水杨金水著,第二版,著,第二版,2007《《功能基因组学功能基因组学》》,徐子勤著,,徐子勤著,2006《《人类基因组-我们的人类基因组-我们的DNA》》,,Dennis C等著,等著,林侠等译,林侠等译,2003《《人类基因组研究基本技术人类基因组研究基本技术》》,陈赛娟著,,陈赛娟著,20022 掌握基因、基因组及基因组学的基本概念;掌握基因、基因组及基因组学的基本概念;掌掌握握基基因因组组学学分分支支学学科科的的定定义义以以及及主主要要研研究究内容;内容;3 (一)基因组学基本概念(一)基因组学基本概念l l基因(基因(genegene))l l基因组(基因组(genomegenome))l l基因组学(基因组学(genomicsgenomics))4 中心法则5 DNA结构特点1)DNA由两条具有极性的互补单链组成2)两条互补单链走向相反.3)DNA双螺旋大小沟槽交替排列4)碱基配对原则:A-T,C-G,A-T配对形成2对氢键,C- G配对形成3对氢键5)每旋转一圈为10.5 bp (碱基对) ..6 基因((gene))•(一)定义(一)定义•生物学定义:   ——具有遗传功能的DNA片段。

      •分子生物学定义:   ——DNA分子中含有特定遗传信息的核苷酸序列,是遗传物质的最小功能单位合成有功能的多肽链或RNA所必需的全部核酸序列(通常是DNA序列)7 基因的组成•一个基因应包含不仅是编码蛋白质肽链或RNA的核酸序列,还包括为保证转录所必需的调控序列、5′非翻译序列、内含子以及3′非翻译序列等所有的核酸序列(蛋白质基因和RNA基因)8 基因分类基因分类•第一类是编码蛋白质的基因,它具有转录和翻译功能,包括编码酶和结构蛋白的结构基因以及编码阻遏蛋白的调节基因•第二类是只有转录功能而没有翻译功能的基因,包括tRNA基因和rRNA基因•第三类是不转录的基因,它对基因表达起调节控制作用,包括启动基因和操纵基因9 基因组(基因组(genomegenome))•基因组(基因组(genome)一词系由德国汉堡大学)一词系由德国汉堡大学H. Winkles 教授于教授于1920年首创,从年首创,从GENe和和chromosOME组成用于表示生物的全部基因和组成用于表示生物的全部基因和染色体组成的概念染色体组成的概念10 基因组(genome)•(一)定义•生物学定义:    ——细胞内所携带的全部遗传信息DNA的总和;对多倍体生物指单倍体DNA的总和。

      •分子生物学定义:•——一种生物体或个体细胞所具有的一套一种生物体或个体细胞所具有的一套完整的基因及其调控序列完整的基因及其调控序列                       11 •                       编码蛋白的结构基因• 基因组DNA   复制转录的调控序列•                       功能尚不清楚的区域•不同生物体中具有不同的基因组大小对人人类而言:而言:22+X+Y+mtDNA12 遗传物质组成•                       病毒基因组•核基因组 原核生物基因组• 真核生物基因组• 线粒体DNA•核外遗传物质 叶粒体DNA•                                 质粒DNA•非独立的基因组:• 转位因子----能在基因组DNA中移动的DNA序列,不能独立存在,需插入核或核外DNA中13 基因组结构与进化的关系:基因组结构与进化的关系:•1.基因组的物质组成从多样 → 单一;• DNA、RNA分工明确• 单链、双链,线状、环状→ 双链线状•2. 基因组由小→ 大;•3. DNA的利用率越来越低;(多拷贝、非编码• 区、基因不连续)•4. 调控序列增多,调控方式更复杂。

      14 virusesplasmidsbacteriafungiplantsalgaeinsectsmollusksreptilesbirdsmammalsGenome sizes in nucleotide pairs (base-pairs)10410810510610710111010109The size of the humangenome is ~ 3 X 109 bp;almost all of its complexityis in single-copy DNA.The human genome is thoughtto contain ~30,000 to 40,000 genes.bony fishamphibians15 真核生物单倍基因组所包含的全部DNA量是相对恒定的,称该物种的C C值值(C-value)不同物种的C值差异很大,最小的支原体只有106bp,而最大的如某些显花植物和两栖动物可达1011bp随着生物的进化,生物体的结构和功能越复杂,其C值就越大 例如,高等植物的C值比真菌大得多这一点不难理解,因为结构和功能越复杂,所需要的基因产物的种类也越多,因而C值也会越大。

      16 另一方面,生物体复杂性和C值之间的关系也有令人不解的现象一些物种C值的变化范围很窄,如鸟类、爬行类和哺乳动物各门内C值的变化范围只有约2倍但大多数昆虫、两栖动物和植物的C值可以相差数十倍乃至上百倍突出的例子是肺鱼和百合属植物,具有比人类大得多的C值,两栖动物C值小的在109bp以下,大的则高达1011bp,而哺乳动物的C值均为109bp数量级真核生物的C值与生物体复杂性之间对应关系的的反常现象称C C值悖理(C value paradox) 17 完成全基因组测序的植物(部分)18 •真核生物基因组的结构与功能19 (1)基因组大 低等真核生物的基因组为107~108bp,比原核细胞大10倍以上而高等真核生物可以达到5×108~1010bp,有些植物和两栖类可达到1011bp哺乳动物基因组大于2×109bp,编码约3万个基因2)有染色体结构细胞核DNA与组蛋白质及多种非组蛋白质稳定地结合,形成多条呈线状的染色体,每条染色体DNA有多个复制起点(ori)3)重复序列和可移动序列多 真核细胞基因组DNA有大量重复序列,这些重复序列的单位长度从几个至几千个碱基对不等,重复次数从几次到几百万次不等。

      与原核生物相比,真核生物基因组中的可移动DNA序列比例较高真核生物基因组的特点20  (4) 多数基因为断裂基因    真核生物的绝大多数结构基因都含有内含子,属于断裂基因5) 基因表达的调控复杂    转录和翻译在时间和空间上被分隔,基因表达的各个阶段均有特定的调控机制功能上密切相关的基因通常分散存在于染色体的不同位置,甚至不同的染色体上基因表达的调控更复杂,有数目众多的调控因子,对功能上密切相关而又分离很远的基因表达进行调控 21 •真核生物基因组中通常存在大量的重复序列,可占整个基因组DNA的90%以上•采用复性动力学方法来研究真核生物基因组时,可按其复性速度的快慢或出现频率的高低,将这些重复序列分为高度重复序列,中度重复序列和单拷贝序列三大类 真核生物基因组中重复序列22 (一)高度重复序列:•高度重复序列(highly repetitive sequence)在基因组中重复频率高,可达106次,因此复性速度很快高度重复序列在基因组中所占比例随种属而异,一般在10~60%范围内•人的高度重复序列约占整个基因组的20% 左右23 1. 反向重复序列(inverted repeats):•是由两个相同顺序的互补拷贝在同一DNA       双链上反向排列而成。

      Ø高度重复序列按其结构特点可分为三种: 24 反向重复序列的两种形式发卡结构25 回 文 结 构26 2.卫星DNA(satellite DNA) :•卫星DNA的重复单位一般由2~70 bp组成,成串排列•卫星DNA占基因组的比例随种属而异,在0.5~31% 范围内27 •卫星DNA的碱基组成不同于其它部分,故可用等密度梯度离心法从基因组中分离出来28 卫星DNA集中在异染色质区,特别是在着丝粒和端粒附近,通常不转录卫星DNA可能与染色体折叠压缩和配对分离有关,因此,又被称为结构DNA29 人类基因组中可分离出三类卫星DNA ,共占人类基因组的5 ~ 6%:①大卫星DNA(macrosatellite DNA):其重复单位为5~171 bp,主要分布于染色体着丝粒区②小卫星DNA(minisatellite DNA):其重复单位为15~70 bp,存在于常染色体30 ③微卫星DNA/短串联重复序列(microsatellite DNA/short tandem repeat, STR):•其重复单位为2~5 bp,存在于常染色体,常见于内含子中•人类基因组DNA中平均每6~10kb就有一个STR位点。

      不同个体之间在一个同源STR位点的重复次数不同 由于重复单位及重复次数不同,使其在不同种族,不同人群之间的分布具有很大差异性,构成了STR遗传多态性31 Ø同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹 ØSTR分析法已经成为法医学领域个体识别和亲权鉴定的重要分析方法,可应用于司法案件调查,也就是遗传指纹分析32 33 34 (2) (2) 中度重复序列中度重复序列 中度重复序列中度重复序列(moderately repetitive sequence)在基因组内重复数十次至数十万次,平均长度6×105bp,重复程度和长度相差都很大,分散存在于基因组内 中度重复序列中有编码序列,如rRNA基因、tRNA基因和组蛋白基因等,其大量重复的拷贝有利于大量合成这些基因的表达产物,以满足细胞的需要也有不少非编码序列,如Alu家族、Kpn I序列和可移动DNA成分等 目前认为,大部分非编码的中度重复序列与基因表达的调控有关,它们可能是一些与DNA复制、转录起始和终止有关的酶及蛋白质因子的识别位点 35 •真核基因组中,中度重复序列主要包括短分散元件(short interspersed nuclear elements,SINEs)和长分散元件(long interspersed nuclear elements,LINEs)。

      36 AluAlu家族家族Alu顺序长约300bp,为短分散元件(short interspersed elements, SINEs),可由RNA多聚酶III转录,属于逆转座子在基因组中约100万个拷贝,在170bp处有一AluI 的酶切位点,由两个130bp的串联重复顺序组成,在二聚体的右半部有30bp插入序列 AluI30bpAlu序列37 •Alu家族的功能是多方面的,可能参与hnRNA的加工与成熟,也与遗传重组及染色体不稳定性有关最近研究表明,Alu顺序可能具有转录调节作用38 •典型的长分散元件(LINEs)是KpnⅠ重复序列家族,因在其序列中存在限制酶KpnⅠ的切点而得名•KpnⅠ家族的重复单位一般为6 ~ 7 kb或更长,其两侧也各有一段正向重复序列,功能上与Alu家族相似39 单拷贝序列单拷贝序列 绝大多数编码蛋白质的基因都是单拷贝序列单拷贝序列(single copy sequence)基因组中的基因在某一时空条件下并不同时都表达在一个细胞中大约只有1×104种不同的蛋白质,其中的80%是维持生命所必需的基本蛋白质一般将生物体内所有细胞都共同具有的蛋白质称为看家蛋白质看家蛋白质(housekeeping protein)。

      人体至少有250种不同的细胞,每种细胞一般表达300~400种自身特有的蛋白质,这些蛋白质的基因基本上都是单拷贝的 40 真核生物基因组中的重复序列真核生物基因组中的重复序列41 多基因家族与假基因•多基因家族(multigene family)——指DNA序列具有较高的同源性(通常大于50%),并且其编码产物具有相同或相似生理功能的一组结构基因•多基因家族中的基因通常是由同一祖先基因经进化或变异而来42 •多基因家族可分为两类:1.基因家族成簇地分布在同一染色体上并同时进行转录,如组蛋白基因家族;chromosome 743 2.基因家族成簇地分布于不同的染色体上并分别进行转录,且不同基因编码的蛋白质在功能上相关,如珠蛋白基因家族44 •假基因(pseudogene)——又称为加工基因或非功能基因这类基因的核苷酸顺序虽然与正常的结构基因很相似,但基本上不能表达 45 人类染色体上的假基因46 •假基因是由于在进化过程中,某些DNA片段发生了缺失、倒位或点突变,导致调控基因丢失;或无剪接加工信号;或编码区出现终止信号;或编码无功能或不完整的基因47 线粒体DNA的结构•线粒体DNA(mitochondrial DNA, mtDNA)属于真核细胞核外遗传物质,可独立编码存在于线粒体中的多肽链、rRNA或tRNA。

      •mtDNA为双链环状DNA,其分子结构特点与原核生物DNA相同•不同种属的生物mtDNA大小不同,动物mtDNA较小,酵母线粒体的基因组较大,植物线粒体DNA的大小差异很大,一般不小于100kb 48 • mtDNA长16,569 bp,含37个结构基因,编码13种蛋白、22种tRNA和2种rRNA这13种蛋白质为呼吸链酶复合物的单位49 Mitochondrial genomes have genes coding for (mostly complex 1~4) proteins, rRNAs, and tRNAs.50 •转座元件(transposable element)/转座子(transposon)是指能够在DNA分子内部或DNA分子之间移动的DNA片段或基因•它们从基因组的一个部位直接转移到另一个部位,这个过程称为转座(transposition)转座元件51 1983年诺贝尔生理学或医学奖McClintock(1902-1992)52 •转座子不仅能够在基因组内转移,而且还能够改变基因的活性并引起功能的改变•转座子有时插入到一个结构基因或基因调节序列内,引起基因表达的改变。

      •现在认为转座子存在于地球上所有的生物53 54 长分散元件(6~ 8kb,约85万个)短分散元件(0.1~ 0.3kb,约150万个,其中Alu元件超过100万个)简单序列重复大片段重复人类基因组序列的类型混杂的重复序列难以鉴定的转座子遗留?编码RNA55 •原核生物基因组的结构与功能56 1.基因组相对较小,由DNA组成,包括染色体DNA和质粒DNA两种DNA分子,均为共价闭环双链原核生物基因组的特点原核生物基因组的特点57 2.每个DNA分子(染色体DNA和质粒DNA)只有一个复制起始点4.2×106bp,有3000~4000个基因58 3.含可转移的序列,如插入序列、转座子等4.结构基因通常为连续基因,少量重叠基因,非编码区和重复序列少5.功能相关的基因常常组织形成操纵子结构,操纵子结构是原核基因组的一个突出的结构特点59 原核生物基因以操纵子方式组构•功能上相关的若干结构基因串联在一起,由一套调控序列控制其转录表达,构成基本转录单位,称为操纵子(operon)•其转录产生的mRNA通常为多顺反子(multicistron):一个mRNA可编码多个蛋白质60 原核生物中的质粒DNA•质粒(plasmid) 是指存在于细菌中独立于染色体DNA外的双链环状小分子DNA,可进行自主复制。

       61 •小型质粒的长度为1.5-15kb•质粒只有在宿主细胞内才能完成自己的复制,一旦离开宿主就无法复制和扩增但质粒对宿主细胞的生存不是必需的,宿主细胞丢失了质粒依旧能够存活 62       质粒所携带的遗传信息能够赋予细菌特定的 遗传性状,能把外源基因(目的基因)送到能把外源基因(目的基因)送到 宿主细胞中去克隆扩增或克隆表达因此质宿主细胞中去克隆扩增或克隆表达因此质 粒是基因工程的重要载体(粒是基因工程的重要载体(vectorvector) 63 •病毒基因组的结构与功能64 病毒(virus)是一种具有比较原始的生命形态和生命特征的非细胞生物完整的病毒颗粒包括衣壳蛋白和内部的基因组DNA或RNA,有些病毒的衣壳蛋白外面有一层被膜,被膜内含有病毒基因编码的糖蛋白病毒不能独立地复制,必须进入宿主细胞中借助细胞内的一些酶类和细胞器才能使病毒复制65 •(1) 基因组很小,只能编码少数的蛋白质有基因重叠,即同一个DNA序列可以编码2种或2种以上的蛋白质•(2) 病毒基因组可以由DNA或RNA组成,但一种病毒不会既含有DNA,又含有RNA。

      核酸的结构可以是单链或双链、闭合环状或线状分子病毒基因组的特点66 •(3) 基因之间的间隔序列(spacer sequence)非常短,非编码区只占基因组的很小部分,如ΦX 174的非编码区只占约4%•(4) 功能上相关的基因一般集中成簇,转录产物一般为多顺反子mRNA,之后加工成各个蛋白质的mRNA•(5) 噬菌体的基因是连续的,但大多数真核细胞的病毒都含有不连续基因除正链RNA病毒外,真核细胞病毒的基因一般先转录成mRNA的前体,再经剪接才能成为成熟的mRNA所以,真核细胞病毒基因的特性更像真核生物基因 67 巴尔的摩病毒分类系统,病毒分为以下七组:第一组(Group I): 双链DNA病毒( dsDNA viruses ) 包括有:腺病毒科、疱疹病毒科和痘病毒科 第二组(Group II): 单链DNA病毒( ssDNA viruses ) 包括有:细小病毒 第三组(Group III):双链RNA病毒( dsRNA viruses ) 包括有:呼肠孤病毒科 第四组(Group IV): 正义单链RNA病毒( (+)ssRNA viruses ) 包括有:微小核糖核酸病毒科和披膜病毒科。

       第五组(Group V): 反义单链RNA病毒( (-)ssRNA viruses ) 包括有:正黏液病毒科和炮弹病毒科 第六组(Group VI): 单链RNA逆转录病毒( ssRNA-RT viruses ) 包括有:逆转录病毒科 第七组(Group VII):双链DNA逆转录病毒( dsDNA-RT viruses )包括有:肝病毒科科 68 positive strand virusnegative strand virus69 ΦX174噬菌体基因组        ΦX174噬菌体基因组是单链环状DNA,含5386个核苷酸共11个基因,构成3个转录单元,从3个转录启动子Pa、Pb和Pd分别开始转录基因A、B和D在基因A和H之间有一强终止信号,所有转录均可在此位置终止在基因J和F之间有一个弱终止信号,部分转录在此位置被终止,一部分mRNA继续转录到基因H结束基因D-(E)-J-F-G-H都转录在同一条mRNA分子上(见图3-4)          ΦX174噬菌体11个基因的蛋白质产物都已被分离,蛋白质编码的总长度超过了DNA编码容量将蛋白质的一级结构与DNA全部序列进行比较,发现ΦX174噬菌体基因组内存在部分基因重叠。

      70       重叠基因(overlapping gene)即同一段DNA片段能够以两种或两种以上的阅读方式进行阅读,因而可编码两种或两种以上的多肽•按重叠方式不同,可分为完全重叠和部分重叠噬菌体×174的重叠基因71     逆转录病毒•逆转录病毒是属于RNA病毒的一个大科•所有逆转录病毒的共同特点是能够携带或编码合成逆转录酶72 逆转录病毒基因组•逆转录病毒(retro-viruses)的基因组是由两个相同的正链RNA组成的双倍体,长约3.5~9.0 kb•其病毒RNA具有5´-端帽子结构和3´-端polyA尾,两个RNA分子在5´-端通过氢键相结合73         人类免疫缺陷病毒(HIV)颗粒是至今发现的最复杂的逆转录病毒HIV的基本形态与其它逆转录病毒相似,有核心部分,衣壳和包膜等3种主要结构核心部分含两个单股正链RNA基因组,两个单体在5'-端由氢键相连每个RNA基因组长9.2kb,基因排列顺序为5'-LTR-gag-pol-env-3'-LTR,除上述3个结构基因外,还有tat, rev, nef, vif, vpr和vpu 6个调节基因,编码6种调控蛋白质,这在逆转录病毒中较少见。

      HIV的基因编码区域有许多重叠,除基因tat和rev两侧含有内含子外,大多数基因无内含子,最大限度地利用了有限的RNA序列(图3-11) 74 75 HIV的结构及其与宿主细胞的附着76 •逆转录病毒的许多特点使其成为基因转移载体的上佳选择最重要的一点是它可以有效的整合入靶细胞基因组并稳定持久地表达所带的外源基因77 人类基因组测序计划的过去与未来78 人类基因组测序计划--创议与实施1)第一阶段:2)第二阶段:3)第三阶段:酝酿论证实施79 盐湖城Alta会议—起点,19841984年12月,在美国犹他州盐湖城滑雪胜地Alta的环境诱变和致癌物防护国际会议上,  到会代表在讨论中提出了一个问题:在受辐射伤害的人群中,能检测到突变的比率比预期低三分之二.有什么新办法可以非常有效地,直接地检测出人类基因的突变?或者说,有没有新方法可在日本广岛,长崎原子弹爆炸后的幸存者及其子女的群体中直接测定基因突变?这是生物科学家首次讨论人类基因组计划.80 Santa Cruz会议, California,1985Walter Gilbert. A crucial early proponent,he later tried to set up a company to produceand sell genome data.81 Leroy Hood is recognized as one of the world’s leading scientists in molecular biotechnology and genomics. In 2000, Hood co-founded, and is currently President of, the Institute for Systems Biology in Seattle  which pioneers systems approaches to biology and medicine.Systems biology is a scientific discipline that endeavors to quantify all of the molecular elements of a biological system to assess their interactions and to integrate that information into graphical network models that serve as predictive hypotheses to explain emergent behaviors.         Science, 360, 640-643 (2004). 系统生物学之父82 推波助澜—杜贝克宣言1986年, 1975年医学和生理学诺贝尔奖得主,美国Salk Institute研究所癌症研究员杜贝可(Renato Dulbecco)在Science上发表题为“癌症研究的转折点:定出人类基因组序列”一文, 引起了美国社会大众的广泛关注,并使基因组测序计划的支持者和反对者进行了一场为时数年的争论.杜贝可提出了两条基因搜寻路线:1) DNA测序; 2) 基因组作图.83 Dulbecco基因组测序宣言A turning point in cancer research:sequencing the human genome癌症研究的转折点:人类基因组测序Renato DulbeccoScience 231: 1055-1056, 198684            人类基因组计划的确立 1986年3月美国能源部的生物物理学家C.Delisi 在新墨西哥州圣塔菲召开了一场会议,讨论人类 基因组测序问题。

      Gilbert参加了会议,与会者50多人一致支持这一设想但对美国人影响最大的 还是Dulbecco宣言 1986年6月在冷泉港的一次会议中, Gilbert在 黑板上写下 “30亿美元”,这是第一次提出人类 基因组计划的经费预算,其根据是每个碱基的费 用平均1美元85 反对的声浪人类基因组计划虽然是一个极富创意的想法, 但在当时的许多方面都超出了科学技术发展的实际水平, 因而不可避免遭到各方面的怀疑与反对, 其中包括像Jacob这样大名鼎鼎的生理学Noble奖得主, MIT和NIH(美国国家健康研究所)等著名单位. 主要原因在以下几点:1)   科学上的依据: 基因编码序列仅占人类基因组总量的2%, 是否值得花很多钱去测序整个基因组.以当时的技术测序费用太高.2)技术上不成熟: 按当时测序水平, 一个人每天最多只能完成1000 bp测序, 30亿对碱基仅测序需要1000个人工作3000年.3)   大量的投入将挤占其它领域的研究经费.86 政府介入1987年春, 美国能源部健康和环境研究顾问委员会在听取各种意见后写了一份报告“Human Genome  Initiation”, 肯定人类基因组测序计划的重要性, 并表示愿意独立承担这一计划.与此同时,美国科学院生命科学学部基础生物委员会指定15名科学家组成“全国研究委员会”, 经过14个月的努力写出一份报告“人类基因组的作图与测序”. 报告认为在开展人类基因组测序的同时,平行开展模式生物大肠杆菌,酵母,线虫,果蝇和小鼠基因组测序研究. 美国国会和商业委员会也委托所属技术评估办公室对人类基因组计划进行调查, 后者提供了一份报告“Mapping Our Genes, The Genome Projects: How Big, How Fast”, 其态度也是支持这一计划.美国国立卫生研究院(NIH)复杂基因组特别顾问委员会1988年也提出报告支持人类基因组计划.87 美国国会的态度1988年美国国会正式批准拨出专款资助能源部和国立卫生研究院同时负责实施人类基因组计划.一般以1989年为起始执行年.能源部: 测序技术和方法NIH: 遗传作图88 人类基因组计划目标(1)Area                            Goal                               Achieved                  Date------------------------------------------------------------------------------------------------Genetic MapSeptember 19942- to 5-cMresolution map(600 – 1,500 markers)1-cMresolution map(3,000 markers)Physical MapDNA Sequence30,000 STSs95% of gene-containing52,000 STSs99% of gene-containingOctoberApril19982003part of human sequencefinished to 99.99% accuracypart of human sequencefinished to 99.99% accuracyCapacity andCost of FinishedSequence 500 Mb/yearat < $0.25 per finished baseSequence >1,400 Mb/yearat <$0.09 per finished baseNovember   2002November  2002Sequence100,000 mapped human SNPs  3.7 million mapped human SNPs February 2003Human SequenceVariationGene IdentificationFull-length human cDNAs15,000 full-length cDNAsMarch    2003human cDNAsModel OrganismsComplete genome sequences ofFinished genome sequences of             April2003April2003E. coli, S .cerevisiae,C. elegans, D. melanogasterE. coli, S .cerevisiae,C. elegans,D. melanogaster ,Plus whole-genome drafts of severalothers, including: C. briggsae,D. pseudoobscura, mouse and rat89 人类基因组计划目标(2)Area                               Goal                                     Achieved                        Date-------------------------------------------------------------------------------------------------------Functional Analysis   Develop genomic-scaleHigh-throughput1994technologies                         oligonucleotidesynthesisDNA microarraysEukaryotic, whole-genomeknockouts (yeast)Scale-up of two-hybrid systemfor protein-protein interaction90 91 92 人类基因组测序计划进展Human Chr.20,  completed, February, 2002Human Chr.14,  completed, January, 2003Human Chr.Y,  completed, October, 2003Human Chr.7, completed,  October, 2003Human Chr.6, completed,  October, 2003Human Chr.13, completed,  March, 2004Human Chr.19, completed, March, 2004Human Chr.9,  completed, May, 2004Human Chr.10, completed, May, 2004Human Chr.X,  completed, March, 2005Human Chr.2-4, completed, April, 2005Human Chr.1, completed, May, 2006截止2006年5月, 人类基因组计划已完成22条常染色体和X,Y性染色体的精确测序与解读.93 人类基因组测序的耗费The overall budget needs for the effort are still anticipated to be the sameas those identified by the OTA and the NRC, namely about $200 millionper year for approximately 15 years. (引自:The First Five Years: FiscalYears 1991-1995, published April 1990. DOE/ER-0452P, NIH PublicationNo. 90-1590.)   经费预算15年每年2亿美金.预计:2002年: Sequence 500 Mb/year at < $0.25 per finished base.实际:2002年: Sequence >1,400 Mb/year at <$0.09 per finished base.94 人类基因组测序计划参加国家(1)共16个单位, 6个国家参加:1)  United State1. Baylor College of Medicine, Houston, Texa2. Genome Therapeutics Corporation, Waltham, MA3. Joint Genome Institute, U.S. Department of Energy, Walnut Creek,CA4. Stanford DNA Sequencing and Technology Development Center, PaloAlto, CA5. University of Washington Genome Center, Seattle, WA6. University of Washington Multimegabase Sequencing Center, Seattle,WA7. Whitehead Institute for Biomedical Research, MIT, Cambridge, MA8. Washington University Genome Sequencing Center, St. Louis, MO2) United Kingdom9.  The Sanger Centre, Hinxton95 人类基因组测序计划参加国家(2)3) Germany10. Max Planck Institute for Molecular Genetics, Berlin11. Gesellschaft fur Biotechnologische,  Forschung mbH, Braunschweig12. Institute for Molecular Biotechnology, Jena4) France13. Genoscope, Evry5) Japan14. Keio University, Tokyo15. RIKEN Genomic Sciences Center, Saitama6) China16. 中国华大基因中心: 于1998年申请参加人类基因组3号染色体端部约1%基因组的测序.96 白宫宣布人类基因组测序计划草图顺序完成June 25, 2000. PRESIDENTCLINTON ANNOUNCESTHE COMPLETION OFTHE FIRST SURVEY(初步测序) OF THEENTIRE HUMANGENOME. June 26, 2000White House 召开记者招待VenterCollins会庆贺这一具有历史意义的重要成就.97 Science 和Nature商定同时发表:“人类基因组草图顺序”—2001年2月February 2001,The HGP consortium publishes its working draftin Nature (15 February), Celera publishes its draft in Science ( 16 February).98 人类基因组测序计划总的耗费人类基因组计划于1988年实施,原定15年于2003年完成全部顺序测序。

      实际花了13年,于2001年初宣布完成草图顺序为完成此项研究,美国能源部(DOE)和美国国家健康研究所(NIH)共花费约35亿美元99 •20032003人类基因组计划序列图完成人类基因组计划序列图完成人类基因组计划序列图完成人类基因组计划序列图完成视频100 101 •2004年10月国际人类基因组计划合作组织在《Nature》杂志上宣布误差小于10万分之一的人类基因组完成图已成功绘就•已将原来15万个“缺隙(GAP)”减少到341个完成图显示人类基因组只含有约3万个基因,比原来的估计要少•目前估计,3×109bp中,仅 1.5%编码蛋白质,98.5%不编码蛋白质102 •2003年10月7日,人类表观基因组计划  (Human Epigenome Project ) 正式启动•这是世界上首项 针对 控制人类基因“开”和“关”的主要化学变化进行的图谱绘制工作,它将帮助科学家建立 人类遗传与疾病 之间的关键联系103 人类微生物基因组•人类微生物组计划(Human Microbiome Project,HMP)是美国NIH于2008年发起的鉴定与阐明和人类健康与疾病相关的微生物功能的计划。

      •目的是研究人类肠道中的微生物群落,进而了解其功能和对人类健康的影响•宏基因组学(Metagenomics)又称元基因组学是以特定生境中的整个微生物群落作为研究对象,无需分离培养,直接提取环境样本DNA进行测序,研究环境微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等视频104 国际水稻基因组计划1)   日本于1989年启动水稻基因组测序计划.2)   中国曾于1995年组织国内5家单位, 并以中国科学院国家基因中心为核心启动水稻基因组研究, 后因故中止.3)   1997年在新加坡第3届国际植物分子生物学会议期间举行了国际水稻基因组测序合作计划工作会议, 达成了许多共识,4)   参加国家与单位同意并承诺开展水稻基因组测序的合作研究.105 国际水稻基因组计划内容1)  目标: 完成水稻基因组测序, 功能基因组研究由各国自行安排, 不在此计划中.2)   路线: 采用作图测序法完成整个基因组的测序.3)   材料: 以粳稻日本晴单株种子为材料, 构建BAC库, PAC库用于测序.4)   精度: 99%的顺序差错率低于0.01%. 一个BAC或一个PAC只允许含有低于500bp长度的间隙.106 国际水稻基因组测序计划参加国1)2)3)4)5)6)7)8)9)日本美国法国中国(包括台湾)南朝鲜印度英国巴西泰国107 国际水稻基因组计划成员与分工108 •2002 年,杨焕明等在《Science》发表了水稻全基因组框架序列图•基因总数:46022~55615,约为人类的1.5倍;•其中10,000个基因的功能已确定;杨焕明院士109 水稻第四号染色体测序专家工作组组长、中科院国家基因研究中心韩斌院士110 •中、美、日、法等10个国家和地区的科学家于2005年8月11日在( Nature )杂志发表了水稻基因组“精细图”,覆盖率达95.3%。

      •中国对国际水稻基因组计划的贡献率达20%共定位了37,500个基因,还率先在动植物中完成了对着丝粒的测序 111 其它模式生物基因组测序计划Yeast  genome:    1.5E.coli:    4.0C.elegans:  0.97Drosophila  :  1.2Arabidopsis:  1.0Mouse:3.0xxxxxx107106108108108109bp,bp,bp,bp,bp,bp,199619981998200020012002112 国际植物基因组计划1)   大豆2)   番茄3)   葡萄4)   杨树5)   小麦6)   棉花7)   黑麦8)   香蕉9)   苜蓿10) 高粱11) 柑橘12) 番木瓜13) 百脉根14) 木薯15) 烟草16) 水稻17) 拟南芥18) 玉米113 •2002年,英、美、德等国的上百位科学家12月5日在英国《Nature》杂志上联合宣布他们成功破译了小鼠的基因组114 •2005年,由美国、以色列、德国、意大利和西班牙的67名科学家组成的国际黑猩猩基因测序与分析联盟初步完成了黑猩猩基因组序列草图与人类基因组序列的比较工作。

      •黑猩猩和人类基因组的DNA序列相似性达到99%;即使考虑到DNA序列插入或删除,两者的相似性也有96% 115 国宝大熊猫基因组• 2010年,由深圳华大基因研究院、中国科学院昆明动物研究所、中国科学院动物研究所、成都大熊猫繁育研究基地和中国保护大熊猫研究中心等单位共同完成的《大熊猫基因组测序和组装》•1月21日以封面故事形式在国际权威杂志《Nature》上发表,并获评2010年中国十大科技进展116 •2009-2010年,先后有包括中国在内的多国研究人员在《自然》《科学》等杂志上报告完成了苹果、青蒿、黄瓜、寄生性金小蜂、蚂蚁、蚜虫、珍珠鸟等多个重要物种的基因组图谱• •今后,基因组测序规模将越来越大仅仅2011年,就有土豆、绵羊、牦牛、几种鸟类等多项物种的基因组图谱陆续绘制完成117         比起20世纪40年代的曼哈顿原子弹计划和70年代阿波罗登月计划,跨世纪的全球人类基因组计划对人类社会的影响将更为深刻; 它的全面完成必将极大地提高人类的健康水平,改善人类的生存质量越来越多的包括癌症在内的多重疾病的致病基因和易感基因也通过基因组测序被揭示。

      它与信息科学和材料科学等学科的结合,将促成新的高新技术产业群的诞生,形成强大的生产力,推动人类社会的进步118 •人类基因组计划的重大影响•(1)在 HGP推动下,世界大公司纷纷投入生物技术•(2)推动新学科兴起     生物信息学       Bioinformatics     基因组学          Genomics•  (3) 个体化医疗:药物基因组学•  (4) 基因治疗的发展119 基因组学的应用与未来       可以设想,再过一二十年每个人都将拥有一张可以设想,再过一二十年每个人都将拥有一张““基基因身份证因身份证””,上面详细记录了你所有的遗传信息和基因,上面详细记录了你所有的遗传信息和基因缺陷疾病诊断向基因诊断的过渡,缺陷疾病诊断向基因诊断的过渡, 即即““此人患何病此人患何病??””转向转向““何人可能患此病何人可能患此病? ? ”” 就诊时,无论是去医院或在互联网上就诊,经过一就诊时,无论是去医院或在互联网上就诊,经过一系列的检查,系列的检查,确诊为某一种疾病时,确诊为某一种疾病时,只要把只要把““基因身份基因身份证证””插入电脑,同时输入疾病和检查的相关信息,电脑插入电脑,同时输入疾病和检查的相关信息,电脑就会提示你该选择什么药物、什么剂型、最佳剂量和注就会提示你该选择什么药物、什么剂型、最佳剂量和注意事项,既快捷又准确。

      意事项,既快捷又准确120       药物基因组学根本目的是运用遗传信息进行药物基因组学根本目的是运用遗传信息进行个性化用药,将正确的药物、正确的剂量在恰当个性化用药,将正确的药物、正确的剂量在恰当的时间给予合适的患者的时间给予合适的患者 药物基因组学在药物设计、制造和应用方面药物基因组学在药物设计、制造和应用方面正酝酿着一场根本性的革命!正酝酿着一场根本性的革命! 药物基因组学将在临床合理用药中得到广泛药物基因组学将在临床合理用药中得到广泛应用,真正实现应用,真正实现“量体裁衣量体裁衣”,因人而异,实现,因人而异,实现最佳的治疗效果,从而可能带来一个最佳的治疗效果,从而可能带来一个“个性化药个性化药物物” ((personalized medicine))的时代121 个体化的基因组医学个体化的基因组医学 基因芯片进入临床服务时,不仅可以高效进行DNA分子诊断,而且可以鉴定每个人基因组的表达格局       临床医生可以根据每个人的生物学密码,制定个人特异的治疗方案,避免药物的毒副反应;判断多基因复杂病的发病风险,通过改进生活方式,防止发病       临床医生必须注意为病人保守秘密,维护知情同意,反对基因增强和胎儿选择。

       122 基因组测序的现状与未来基因组测序的现状与未来•疾病发生发展的分子机制:细胞间通讯和信号转导•基因诊断•基因治疗•基因分析建立疾病诊断新技术•研究基因功能,从而研制新型疫苗和新型药物123 •高通量测序技术的发展和应用124 •DNA测序技术迄今经历了三代的发展DNA测序技术成熟于上世纪70年代中后期,随后的20多年第一代测序技术测出了不少简单的小型基因组1990年提出人类基因组计划,逐步诞生了高通量第二代测序技术近年来,单分子等第三代测序技术开始出现,也预示着测序技术将应用更广,测序的成本越低125 第一代测序技术•1975年 ,Sanger发明的DNA测序加减法(Plus and Minus)为实现这一企图起了关键性的作用•1977年, Maxam和Gilbert发明了化学降解法──由此而发展起来的大片段DNA顺序快速测定技术•1977年,Sanger发明了双脱氧链终止法(Sanger法)已是核酸结构与功能研究中不可缺少的分析手段 126        Sanger双脱氧方法:耗时长,费用高 中、美、英、日、法、德等国科学家用此法历时13年,耗资30亿美元,才绘制出首份人类基因组图谱。

      127 第二代测序技术 随着人类基因组计划的完成,人们开始进入后基因组时代(post-genomic era)科学家逐步测出多种生物的序列,传统的测序技术已经无法满足高通量和高效率的大规模基因组测序,第二代DNA测序技术(next-generation sequencing)就诞生了第二代测序技术主要有Roche公司应用焦磷酸测序原理的454测序技术及454基础上的GS  FLX、GS  Junior测序平台;Illumina公司应用合成测序原理的新一代Solexa Genome Analyzer测序平台,ABI公司使用连接技术的Solid测序平台第二代测序技术实现了高通量、高效率、高准确度的测序大大降低了测序的成本,DNA测序可以向个人测序发展第二代测序技术很好应用于单核苷酸多态性(Single Nucleotide Polymorphism,SNP)的研究,对探索人类的遗传及基因病有极大的意义128 相对于第一代测序技术:u高通量u高效率u高准确度u低成本129 第三代测序技术 然而在遗传学中,成千上万的基因组需要测出及分析,高通量的二代技术还是面临成本高、效率低、准确度不是很高等的难题,第三代测序技术已经开始崭露头角。

      第三代测序技术主要有Helicos公 司 开 发 的 单 分 子 测 序 、 Complete Genomics公司对人类大型基因组研究中最新技术、OpGen公司的Optical Mapping Solutions测序等130 第一代测序技术Ø加减法Ø化学降解法Ø双脱氧终止法(Sanger法)131 双脱氧终止法测序反应原理 在包括DNA聚合酶、DNA模板、单链寡核苷酸引物、4种dNTP及 4种ddNTP的测序反应体系中,DNA聚合酶在模板链指导下,不断地逐个将dNTP加到引物的3’-OH末端,使引物延伸,合成出新的与模板互补的DNA链 在链的延长过程中一旦加入双脱氧核苷三磷酸(ddNTP),由于其双脱氧核糖的3’位置缺少一个羟基,不能同后续的dNTP形成磷酸二酯键,链终止延伸形成一系列具有相同5’-引物端和以ddNTP残基为3’端结尾的长短不一的片段的混合物,通过毛细管电泳并经过分析从而获得模板DNA的核苷酸序列132 “ “双脱氧末端终止双脱氧末端终止” ”的含义的含义133 视频134 135 分子越小,上样越快分子越小,上样越快毛细管和电极置于样品溶液中,加电压毛细管和电极置于样品溶液中,加电压后,荷负电的后,荷负电的DNADNA进入毛细管,向正极进入毛细管,向正极泳动。

      泳动136 ABI 3730xl ABI 3730xl 自自自自动测动测序序序序仪仪外外外外观图观图137 第一代测序技术在分子生物学研究中发挥过重要的作用,如人类基因组计划(human genome project,HGP)主要基于第一代DNA测序技术目前基于荧光标记和Sanger的双脱氧链终止法原理的荧光自动测序仪仍被广泛地应用 随着人类基因组计划的完成,人们进入了后基因组时代,即功能基因组时代,传统的测序方法已经不能满足深度测序和重复测序等大规模基因组测序的需求,这促使了新一代DNA测序技术的诞生新一代测序技术即第二代测序技术138 第二代测序技术将片段化的基因组DNA两侧连上接头,随后用不同的方法产生几百万个空间固定的PCR克隆阵列每个克隆由单个文库片段的多个拷贝组成然后进行引物杂交和酶延伸反应由于所有的克隆都在同一平面上,这些反应就能够大规模平行进行,每个延伸反应所掺入的荧光标记的成像检测也能同时进行,从而获得测序数据DNA序列延伸和成像检测不断重复,最后经过计算机分析就可以获得完整的DNA序列信息 第二代测序技术包括:454测序技术、Solexa测序技术和SOLiD测序技术。

      139 •Sample fragmentation•Library preparation•Sequencing reaction•Data analysisRoche 454 Roche 454 焦磷酸焦磷酸焦磷酸焦磷酸测测序序序序Pyrophosphate SequencingPyrophosphate SequencingIllumina Solexa Illumina Solexa 合成合成合成合成测测序序序序Sequence by SynthesizeSequence by SynthesizeABI SOLiD ABI SOLiD 连连接法接法接法接法测测序序序序Sequence by LigationSequence by Ligation高通量测序技术简介高通量测序技术简介140 Roche 454 焦磷酸测序Pyrophosphate Sequencing基本原理141 •2005年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统——Genome Sequencer 20 System,被《Nature》杂志以里程碑事件报道,开创了边合成边测序的先河。

      •2007年又推出了性能更优的第二代基因组测序系统——Genome Sequencer FLX System•2008年10月,454推出了全新的GS FLX Titanium系列试剂和软件,让GS FLX的通量一下子提高了5倍,准确性和读长也进一步提升 142 Roche 454 焦磷酸测序 (Pyrosequencing)•Pyrosequencing技术是由四种酶催化的同一反应体系中的酶级连反应引物上每一个dNTP的聚合与一次荧光信号的释放偶联,通过检测荧光的释放和强度,达到实时测定DNA序列的目的•四 种 酶 是 : DNA聚 合 酶 ( DNA polymerase) 、 ATP硫 酸 化 酶 (ATP sulfurylase)、荧光素酶(luciferase)和三磷酸腺苷双磷酸酶 (Apyrase).•反应底物为5’-磷酰硫酸(adenosine 5’-phosphosulfate (APS))、荧光素(luciferin)反应体系还包括待测序DNA单链和测序引物反应体系配置好后就可以加入底物和dNTP进行序列分析了143 •在每一轮测序反应中,只能加入四种dNTP之一,如该dNTP与模扳配对,聚合酶就可以催化该dNTP掺入到引物链中并释放焦磷酸基团(PPi)。

      掺入的dNTP和释放的焦磷酸是等摩尔数目的.•硫酸化酶催化APS和PPi形成ATP,ATP和焦磷酸的摩尔数目是一致的ATP驱动荧光素酶介导的荧光素向氧化荧光素(oxyluciferin)的转化,氧化荧光素发出与ATP量成正比的可见光信号光信号仪器检测并反应为峰•每个峰的高度(光信号)与反应中掺入的核苷酸数目成正比ATP和未掺入的dNTP由双磷酸酶降解,淬灭光信号,并再生反应体系然后就可以加入下一种dNTP 随着以上过程的循环进行,互补DNA链合成,DNA序列由信号峰确定144 Pyrosequencing技术原理145 Roche GS FLX System•Roche GS FLX System是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统在测序时,使用了一种叫做“PicoTiterPlate”(PTP)的平板,它含有160多万个由光纤组成的孔,孔中载有化学发光反应所需的各种酶和底物测序开始时,放置在四个单独的试剂瓶里的四种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基如果发生碱基配对,就会释放一个焦磷酸这个焦磷酸在各种酶的作用下,经过一个合成反应和一个化学发光反应,最终将荧光素氧化成氧化荧光素,同时释放出光信号。

      此反应释放出的光信号实时被仪器捕获到有一个碱基和测序模板进行配对,就会捕获到一分子的光信号;由此一一对应,就可以准确、快速地确定待测模板的碱基序列146 •GS FLX 系统的流程概括,就是“一个片段 = 一个磁珠 = 一条读长•One fragment = One bead = One read147 •1)样品输入并片段化:GS FLX 系统支持各种不同来源的样品,包括基因组 DNA、PCR 产物、BAC、cDNA、小分子 RNA 等等大的样品例如基因组 DNA 或者 BAC 等被打断成 300-800 bp 的片段;对于小分子的非编码 RNA 或者 PCR 扩增产物,这一步则不需要148 •2)文库制备:借助一系列标准的分子生物学技术,将A和B接头(3’和 5’端具有特异性)连接到DNA片段上接头也将用于后续的纯化,扩增和测序步骤变性处理回收单链的DNA(sstDNA),具有A、B接头的单链DNA片段组成了样品文库149 •3)一个 DNA 片段=一个磁珠:单链 DNA 文库被固定在特别设计的 DNA 捕获磁珠上每一个磁珠携带了一个独特的单链 DNA 片段磁珠结合的文库被扩增试剂乳化,形成油包水的混 合物,这样就形成了只包含一个磁珠和一个独特片段的微反应器。

      150 •4)乳液 PCR 扩增:每个独特的片段在自己的微反应器里进行独立的扩增,而没有其他的竞争性或者污染性序列的影响整个片段文库的扩增平行进行对于每一个片段而言,扩增后产生了几百万个相同的拷贝随后,乳液混合物被打破,扩增的片段仍然结合在磁珠上151 •5)一个磁珠=一条读长:携带DNA的捕获磁珠随后放入“Pico TiterPlate”(PTP)板中进行后继的测序PTP孔只能容纳一个磁珠•放置在四个单独的试剂瓶里的四种碱基,依照T、A、C、G的顺序依次循环进入PTP板,每次只进入一个碱基如果发生碱基配对,就会释放一个焦磷酸这个焦磷酸在ATP硫酸化酶和萤光素酶的作用下,经过一个合成反应和一个化学发光反应,最终将萤光素氧化成氧化萤光素,同时释放出光信号152 Centrifuge StepLoad Enzyme BeadsLoad beads into PicoTiter™Plate 153 •6)数据分析:GS FLX 系统在 10 小时的运行当中可获得 100 多万个读长,读取超过 4-6 亿个碱基信息GS FLX 系统提供两种不同的生物信息学工具对测序数据进行分析,适用于不同的 应用。

      154 155 •GS FLX系统的准确率在99%以上其主要限制来自同聚物,也就是相同碱基的连续掺入,如AAA或GGG由于没有终止元件来阻止单个循环的连续掺入,同聚物的长度就需要从信号强度中推断出来这个过程就可能产生误差•454平台的突出优势是读长目前GS FLX系统的序列读长已超过400 bp156 Illumina Solexa 合成测序Sequence by Synthesize基本原理157 158 Solexa-Illumina￿Genome￿Analyzer•核心技术:“DNA簇”和“可逆性末端终止” •目前全球使用量最大的第二代测序机器•测序原理:将基因组DNA的随机片段附着到光学透明的玻璃表面(即Flow cell),这些DNA片段经过延伸和桥型扩增后,在Flow cell上形成了数以亿计Cluster,每个Cluster是具有数千份相同模板的单分子簇然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性终止的边合成边测序技术(Sequencing-By-Synthesis)对待测的模板DNA进行测序 159 Reversible￿Terminator￿Chemistry可逆终止反应•All 4 labelled nucleotides in 1 reaction核苷酸糖基的3‘连接修饰一个叠氮基团,遇到巯基试剂(例如:巯基乙醇),叠氮基团会发生断裂,并在原来的位置留下一个羟基。

      核苷酸的碱基通过叠氮基团连接一个荧光基团4种dNTP分别连4种不同颜色的荧光基团160 •因为荧光基团与碱基的连接处也是一个叠氮基,所以在用巯基试剂去掉3'位阻断的叠氮基团时,会把荧光基团一并切断,并在切断的位置留下一个羟基,而这个羟基正好是碱基原来应该有的•巯基试剂就这样起到一石二鸟的作用,一方面切掉了3'阻断基团,另一方面切掉了荧光基团,使这个荧光基团不会影响下一步的碱基识别•特别要说明的是巯基试剂切断叠氮基团的效率极高,这可以保证这个反应可以多次反复地高效地进行,而不影响每步反应的得率在要重复几百次的反应中,每步的得率差一点,最终的结果就会差许多,所谓的指数放大效应Reversible￿Terminator￿Chemistry可逆终止反应161 Sequencing-by-Synthesis (SBS)5’GTCAGTCAGTCAGT3’5’CAGTCATCACCTAGCGTAFirst base incorporatedCycle 1: Add sequencing reagentsRemove unincorporated basesDetect signalCycle 2-n: Add sequencing reagents and repeat1、每轮测序反应加入四种带有荧光标记的dNTP,末端带有可以被去除的阻断基团2、每轮反应只能整合一个核苷酸,仪器读取相应的荧光信号3、信号读取结束,用化学方法去除阻断基团,进行下一轮测序反应162 123789456T T T T T T T G T …T G C T A C G A T …The identity of each base of a cluster is read off from The identity of each base of a cluster is read off from sequential imagessequential images根据每个点每轮反应读取的荧光信号序列,转换成相应的根据每个点每轮反应读取的荧光信号序列,转换成相应的DNADNA序列序列Base calling from the raw data163 •利用超声波把待测的DNA样本打断成小片段,目前除了组装之外和一些其他的特殊要求之外,主要是打断成200-500bp长的序列片段,并在这些小片段的两端添加上不同的接头,构建出单链DNA文库。

      1. 1. 文库制备文库制备164 •利用微注射系统将已经加过接头和待测片断随机添加到玻璃Flow Cell内,Flowcell是用于吸附流动DNA片段的槽道,当文库建好后,这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的channel上•每个Flowcell有8个channel,每个channel的表面都附有很多接头,这些接头能和建库过程中加在DNA片段两端的接头相互配对•这就是为什么flowcell能吸附建库后的DNA的原因,并能支持DNA在其表面进行桥式PCR的扩增2.表面结合165 3.桥型扩增循环获得多拷贝待测DNA片断•在Flow cell内加入未被标记的dNTP和酶起始桥型扩增(3)所有单链桥型待测片段被扩增成双链桥片断,通过变性,释放出互补的单链,锚定到附近的固相表面(4,5)通过不断循环,将会在Flow cell的固相表面上获得上百万条成簇分布的双链待测片断(6)166 4.测序•加入DNA聚合酶和被荧光标记的dNTP 和接头引物进行扩增,在每一个测序列簇延伸互补链时,每加入一个被荧光标记的dNTP就能释放出相应的荧光,测序仪通过捕获荧光信号,并通过计算机软件将光信号转化为测序峰,从获得待测片段的序列信息。

      167 168 视频169 Illumina GA的特性•1. 可扩展的超高通量Genome Analyzer系统目前每次运行后可获得超过20 GB的高品质过滤数据经优化后通量还有望上升到95 GB,相当于人类基因组的30倍覆盖度•2. 需要样品量少Genome Analyzer系统需要的样品量低至100ng,能应用在很多样品有限的实验(比如免疫沉淀、显微切割等)中•3. 简单、快速、自动化Genome Analyzer系统提供了最简单和简洁的工作流程制备样品文库可以在几小时内完成,一个星期内就能得到高精确度的数据自动化的流程不减少了手工操作误差和污染可能性,也不需要机器人操作或洁净室170 •优点•叠氮基团即起到了可逆终止作用、又起到了连接荧光基团的作用•巯基试剂可以高效地切断两处叠氮基团,并且在原来的位置留下一个羟基,3'端的羟基是下一步的延伸所需,碱基上的羟基是碱基本来就该有的羟基•缺点•Prephasing•在边合成边测序过程中,每个循环应该合成一个碱基,因为某些原因,会一个循环合成二个或更多的碱基,这种多合成碱基的情况就称为Prephasing•Prephasing越严重,则测长越短。

      Prephasing占了Illumina测序长度中几乎一半的限制性因素•叠氮基团在常温下不是很稳定,尤其是3'位的叠氮基脱落,是导致测序时的Prephase的主要原因•所以Illumina的测序SBS试剂都要低温保存Illumina的新型测序仪(HiSeq/NextSeq/MiSeq等)的内部还内置了一个小冰箱,来给试剂降温•Phasing•在边合成边测序过程中,每个循环应该合成一个碱基,因为某些原因,会一个循环没有合成碱基,这种少合成碱基的情况就称为Phasing•Phasing越严重,则测长越短Phasing是除Prephasing外的另一个重要长限制因素另外还有的两个测长限制因素是:桥式PCR对文库长度的限制、和激光会打断DNA链)•用修饰的dNTP代替天然dNTP来进行边合成边测序的工作,就会遇到天然聚合酶对修饰dNTP的聚合效率低的问题•为解决这个问题,Illumina用基因工程定向进化的方法不断地改进其测序聚合酶,以提高酶对修饰dNTP的合成效率171 ABI SOLiD 连接法测序Sequence by Ligation基本原理172 •过去数十年,美国应用生物系统公司(ABI)在测序方面一直占据着垄断地位。

      自公司的共同创始人Leroy HoodLeroy Hood在上世纪80年代中期设计了第一台自动荧光测序仪之后,生命科学研究就摆脱了手工测序的繁琐和辛劳,骄傲地迈入自动测序的新时代直到2005年,454推出了FLX焦磷酸测序平台,ABI的领先地位开始有些动摇之后,ABI迅速收购了一家测序公司——Agencourt Personal Genomics,并在2007年底推出了SOLiD 新一代测序平台 173 ABI SOLiD (Sequencing by Oligonucleotide Ligation and Detection)的测序原理:•乳液PCR/微珠富集:同454类似•连接酶测序连接酶测序:这一步是SOLiD测序的独特之处它并没有采用以前测序时所常用的DNA聚合酶,而是采用了连接酶连接反应的底物是8碱基单链荧光探针混合物连接反应中,这些探针按照碱基互补规则与单链DNA模板链配对这样经过五轮测序反应后便可以得到所有的碱基序列•SOLiD的双碱基编码矩阵,极大地提高了测序准确率174 探针的5′末端标记了1种颜色的荧光染料探针3′端1~5位为随机碱基,其中第1、2位构成的碱基对表征探针染料类型,而3~5位的“n”为随机碱基,6~8位的“z” 是可以和任何碱基配对的特殊碱基。

      SOLiD测序反应的每一轮测序反应会连接第1~5位的碱基,同时切除第6~8位的碱基,同时记录下第1~2位碱基决定的荧光颜色.175 SOLiD的双碱基编码矩阵两个碱基共同决定一个颜色,可以极大的提高测序的准确率176 文库制备:微珠单分子克隆乳液乳液PCR/微珠富集微珠富集Solid的PCR过程也和454的方法类似,同样采用emulsion PCR,但这些微珠比起454系统来说则要小得多,只有1um在扩增的同时对扩增产物的3’端进行修饰,这是为下一步的测序过程作的准备Solid系统最大的优点就是每张玻片能容纳比454更高密度的微珠,在同一系统中轻松实现更高的通量177 文库制备•SOLiD系统能支持两种测序模板:片段文库(fragment library)或配对末端文库(mate-paired library)使用哪一种文库取决于你的应用及需要的信息•片段文库就是将基因组DNA打断,两头加上接头,制成文库如果想要做转录组测序、RNA定量、miRNA探索、重测序、3’-RACE, 5’-RACE、甲基化分析、ChIP测序等,就可以用它如果你的应用是全基因组测序、SNP分析、结构重排/拷贝数,则需要用配对末端文库。

      •配对末端文库是将基因组DNA打断后,与中间接头连接,再环化,然后用酶切,使中间接头两端各有27bp的碱基,再加上两端的接头,形成文库178 179 1024种8碱基探针4色荧光,4种双核苷酸,每色荧光有256个探针(4^6)SOLiD 利用探利用探针的的连接反接反应读取模板的取模板的DNA序列序列180 181 测序引物沿着序引物沿着Adapter移移动5次,确保每个位点都被次,确保每个位点都被检测182 0位置是位置是Adapter的最后一个碱基,因此只的最后一个碱基,因此只检测一次,一次,该碱基是碱基是进行解行解码所必所必须的183 视频184 •由于SOLiD系统采用了双碱基编码技术,在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能这样,双保险确保了SOLiD系统原始碱基数据的准确度大于99.94%,而在15X覆盖率时的准确度可以达到99.999%,是目前新一代基因分析技术中准确度最高的•但SOLiD测序所得序列的长度只有几十个碱基,数据分析过程依赖reference序列,目前尚没有基于SOLiD原始颜色序列的从头拼接软件,这些不足之处大大限制了SOLiD技术在新物种测序领域的应用。

      SOLiD测序仪内在技术特点决定其并不适合每个测序项目185 Advantage & disadvantage454 sequencing•读取长度大,400bp•可以对未知基因组进行从头测序(de novo sequencing)•当遇到polymer时,如AAAAAA等,荧光强度和碱基个数不成线性关系,判定重复碱基个数有困难Solexa sequencing•高度自动化的系统•读取片段多,适合进行大量小片段的测序,如microRNA profiling•基于可逆反应,随反应轮数增加,效率降低,信号衰减,读取序列较短,给de novo sequencing 拼接带来困难SOLiD sequencing•每个碱基读取两次非常高的准确性,特别是对于SNP的检测•灵活的系统,完善的磁珠编码系统,可以进行样品的pooling,分割测序区域•读取长度受连接反应的轮数限制,给de novo sequencing 拼接带来困难186 第三代DNA测序技术 第三代测序技术是以单分子测序为特点的测序技术如生物科学公司(BioScience Corporation)的HeliScope单分子测序仪(HeliScope SingleMolecular Sequencer)以及正在研制的太平洋生物科学公司(Pacific Biosciences)的单分子实时DNA测序技术(SingleMolecule Real Time (SMRT)DNA sequencing technology)和牛津纳米孔技术公司(Oxford Nanopore TechnologiesLtd)的纳米孔单分子测序技术等。

      187 第三代测序技术第三代测序技术非常惊人!非常惊人!1、它实现了DNA聚合酶内在自身的反应速度,一秒可以测10个碱基,测序速度是化学法测序的2万倍2、它实现了DNA聚合酶内在自身的processivity(延续性,也就是DNA聚合酶一次可以合成很长的片段),一个反应就可以测非常长的序列二代测序现在可以测到几百个碱基,但是三代测序现在就可以测一千个碱基这为基因组的重复序列的拼接提供了非常好的条件3、它的精度非常高,达到99.9999%4、可直接测RNA序列5、可直接测甲基化的DNA序列188 测序仪之——HeliScope    Helicos 的测序原理               Helicos单分子测序仪技术原理是利用合成测序理论,将样本DNA数以百万的单链分子绑定在该仪器特有的没有背景荧光的玻璃表面,通过加入荧光标记的核苷酸(一次加入四种核苷的一种)和聚合酶到单分子阵列中,核苷酸会结合到它的特异性接收位点上激光激发结合上的核苷的标记,使标记物释放出荧光,相机以15毫秒速度快速扫描整个阵列,检测特异性结合到片断上的碱基。

      在此之后,结合的核苷酸对会被移除,同时通过重复加入标记核苷酸进行循环反应189 •1 将DNA双链解开成单链,在3’端加上标记的多聚A尾(poly A tail),再用末端转移酶封闭3’端•2  3’端与固定在仪器表面的基因组模板寡核苷酸的5’端以共价键的形式杂交•3通过所提取的基因组模板合成测序的位点•4  在测序仪器玻璃表面加入被标记的碱基和DNA聚合酶的混合液,碱基自然延长,使用647nm的荧光下对Cy5直接扫描成像•5  使用化学方法对去除碱基中的染料标记•6 加入新的标记的碱基和DNA聚合酶使反应继续循环下去单程程单分子分子测序序视频190 PacBio-SMRTØ基于边合成边测序的思想,以SMRT芯片为测序载体进行测序反应ØSMRT芯片是一种带有很多ZMW(zero-mode waveguides,零模波导)孔的厚度为100 nm的金属片将DNA聚合酶、待测序列和不同荧光标记的dNTP放入ZMW孔的底部,进行合成反应191 PacBio-SMRT192 PacBio-SMRTØ当一个dNTP被添加到合成链上的同时,它会进入ZMW孔的荧光信号检测区并在激光束的激发下发出荧光,根据荧光的种类就可以判定dNTP的种类。

      Ø其它未参与合成的dNTP由于没进入荧光型号检测区而不会发出荧光在下一个dNTP被添加到合成链之前,这个dNTP的磷酸基团会被氟聚合物(fluoropolymer)切割并释放,荧光分子离开荧光信号检测区193 PacBio-SMRTØ合成过程中,每次进入一个碱基,原始数据会实时地产生一个脉冲峰,每两个相邻的脉冲峰之间有一定的距离Ø距离与模板上碱基是否存在修饰有关,如果有碱基修饰,就会导致两个相邻峰之间距离加大根据这个距离的变化,可以判断模板相应位点是否出现碱基修饰,并且结果是实时的可以用于甲基化等碱基修饰研究 视频194 PacBio-SMRT•SMRT测序的优势•最长的平均读长•最高的一致性序列准确性•均匀的覆盖•表观遗传的同时表征•单分子的分辨率195 测序技术的发展历程196 主流测序机器的成本比较197 198 199 DNA DNA测序技术的展望测序技术的展望 DNA测序技术经过30多年的发展,目前已经到了第三代,三代测序技术有各自的优势 第一代测序技术虽然成本高,速度慢,但是对于少量的序列来说,仍是最好的选择,所以在以后的一段时间内仍将存在; 第二代测序技术刚刚商用不久,正在逐渐走向成熟; 第三代测序技术有的刚刚出现,有的则正在研制,相信很快便可进行商业化运作。

      可以预见,在未来的几年里会出现三代测序技术共存的局面200 测序仪全球分布201 生物信息学如何入门?生物信息学如何入门?202 •生物信息学与以往的传统生物学不同,它本身是一个混合体,而且在今天看来它应当还要包含现在的NGS和基因组学•生物信息学重在数据,因此在这个领域中 比较重要的是数学和计算机——编程能力和算法设计能力203 •想要进入这个领域,一开始需要重点搞清楚几个基本概念•什么是基因组,什么是转录组,什么是蛋白组,什么是染色体,什么是基因,什么是染色体重组,什么是进化/演化,什么是表观遗传,什么是变异,变异类型有哪些,NGS技术是什么,测序仪的工作原理是什么,DNA是如何被测出来的•只有真正了解数据是如何来的,才能更好地明白数据该如何处理和分析,以及如何才能有效地挖掘出它背后隐含的生物知识204 •软件:•学会利用搜索引擎(Google、Baidu、Bing…)•学会使用Linux操作系统•至少掌握一门高级编程语言(python和R)•掌握常用的组学数据分析软件•多实践•善于交流:人和人、人和计算机、人和社会•硬件:•大型服务器(拼接,比对)•个人计算机(作图)205 Coursera的课程:genomic data scienceEMBO的课程:https://www.ebi.ac.uk/training/online/course/embo-practical-course-analysis-high-throughput-seq206 基因组测序的一般流程•1. 测序前的准备 •搜集物种相关信息,比如基因组大小,杂合度,•1.1 获取基因组大小•基因组大小的获取关系到对以后组装结果的大小的正确与否判断;基因组太大(>10Gb),超出了目前de novo组装基因组软件的对机器内存的要求,从客观条件上讲是无法实现组装的。

      •一般物种的基因组大小可以从数据库查到•如果没有搜录,需要考虑通过实验(流式细胞仪)获得基因组大小207 •1.2 杂合度估计•杂合度对基因组组装的影响主要体现在不能合并姊妹染色体,杂合度高的区域,会把两条姊妹染色单体都组装出来,从而造成组装的基因组偏大于实际的基因组大小•一般是通过SSR在测序亲本的子代中检查SSR的多态性杂合度如果高于0.5%,则认为组装有一定难度杂合度高则很难组装出来•杂和度估计一般通过kmer分析来做降低杂合度可以通过很多代近交来实现•杂合度高,并不是说组装不出来,而是说,装出来的序列不适用于后续的生物学分析比如拷贝数、基因完整结构208 •1.3 是否有遗传图谱可用•随着测序对质量要求越来越高和相关技术的逐渐成熟,遗传图谱也快成了de novo基因组的必须组成•1.4 生物学问题的调研•测基因组准备解决什么科学问题?不能白花钱随便测一个基因组•2. 测序样品准备•确定以上没问题,就意味着这个物种是可以尝试测序的测序样品对一些物种也是很大问题的,某些物种取样本身就是一个挑战的问题•基因组测序用的样品最好是来自于同一个个体,这样可以降低个体间的杂和对组装的影响•3. 测序策略的选择•一般都是用不同梯度的插入片段来测序,小片段(200,500,800)和大片段(1k, 2kb 5kb 10kb 20kb 40kb)。

      如果是杂合度高和重复序列较多的物种,可能要采取其他策略•策略的不同,花费也不同的209 •4. 基因组组装•4.1 测序数据预处理:数据纠错,数据错误校正•原始测序数据的质控•read比对,排序和去除重复序列•Indel区域重(“重新”的“重”)比对•碱基质量值重校正•变异检测•变异结果质控和过滤•4.2 组装软件比较•4.3 组装质量评估•4.4 基因组注释•4.5 基因组可视化210 211 •FASTA和FASTQ格式•FASTA•FASTA文件主要由两个部分构成:序列头信息(有时包括一些其它的描述信息)和具体的序列数据头信息独占一行,以大于号(>)开头作为识别标记,其中除了记录该条序列的名字之外,有时候还会接上其它的信息212 •连续的fasta格式213 •FASTQ•这是目前存储测序数据最普遍、最公认的一个数据格式•FASTA文件,它所存的都是已经排列好的序列(如参考序列)•FASTQ存的则是产生自测序仪的原始测序数据,它由测序的图像数据转换过来,也是文本文件,文件大小依照不同的测序量(或测序深度)而有很大差异,小的可能只有几M,大的则常常有几十G上百G,文件后缀通常都是xxx.fastq,xxx.fq或者xxx.fq.gz(gz压缩)214 •每四行成为一个独立的单元,我们称之为read。

      •第一行:以‘@’开头,是这一条read的名字,这个字符串是根据测序时的状态信息转换过来的,中间不会有空格,它是每一条read的唯一标识符,同一份FASTQ文件中不会重复出现,甚至不同的FASTQ文件里也不会有重复;•第二行:测序read的序列,由A,C,G,T和N这五种字母构成,这也是我们真正关心的DNA序列,N代表的是测序时那些无法被识别出来的碱基;•第三行:以‘+’开头,在旧版的FASTQ文件中会直接重复第一行的信息,但现在一般什么也不加(节省存储空间);•第四行:测序read的质量值,这个和第二行的碱基信息一样重要,它描述的是每个测序碱基的可靠程度,用ASCII码表示215 •质量值:•碱基质量值就是能够用来定量描述碱基好坏程度的一个数值如果测序测得越准确,这个碱基的质量就应该越高;反之,测得越不准确,质量值就应该越低也就是说可以利用碱基被测错的概率来描述它的质量值,错误率越低,质量值就越高216 •Q = -lg(p_error),质量值是测序错误率的对数•如果该碱基的测序错误率是0.01,那么质量值就是20(俗称Q20),如果是0.001,那么质量值就是30(俗称Q30)•Q20和Q30的比例常常被用来评价某次测序结果的好坏,比例越高就越好。

      217 •以illumina为首基本都是运用边合成边测序的技术但这个合成的过程中随着合成链的增长,DNA聚合酶的效率会不断下降,特异性也开始变差,这就会带来一个问题——越到后面碱基合成的错误率就会越高•有时候测序仪在刚开始进行合成反应的时候也会由于反应还不够稳定,同样会带来质量值的波动218 •如何认识一个原始的测序数据(fastq data)呢?一般我们可以从如下几个方面来分析:•read各个位置的碱基质量值分布•碱基的总体质量值分布•read各个位置上碱基分布比例,目的是为了分析碱基的分离程度•GC含量分布•read各位置的N含量•read是否还包含测序的接头序列•read重复率,这个是实验的扩增过程所引入的219 •read各位置的碱基质量分布220 221 GC含量指的是G和C这两种碱基占总碱基的比例二代测序平台或多或少都存在一定的测序偏向性,通过查看这个值来协助判断测序过程是否足够随机对于人类来说,基因组的GC含量一般在40%左右222 N在测序数据中一般是不应该出现的,如果出现则意味着,测序的光学信号无法被清晰分辨,如果这种情况多的话,往往意味着测序系统的错误223 224 •为什么需要比对?•我们已经知道NGS测序下来的短序列(read)存储于FASTQ文件里面。

      虽然它们原本都来自于有序的基因组,但在经过DNA建库和测序之后,文件中不同read之间的前后顺序关系就已经全部丢失了因此,FASTQ文件中紧挨着的两条read之间没有任何位置关系,它们都是随机来自于原本基因组中某个位置的短序列而已•因此,需要先把这一大堆的短序列捋顺,一个个去跟该物种的参考基因组比较,找到每一条read在参考基因组上的位置,然后按顺序排列好,这个过程就称为测序数据的比对这也是核心流程真正意义上的第一步,只有完成了这个序列比对我们才有下一步的数据分析•【注】参考基因组:指该物种的基因组序列,是已经组装成的完整基因组序列,常作为该物种的标准参照物,比如人类基因组参考序列,fasta格式225 •在NGS测序之前都需要先构建测序文库,打断原始的DNA序列,然后选择特定长度范围的序列去进行扩增并上机测序•很多时候我们构建测序文库时能用的细胞量并不会非常充足,而且在打断的步骤中也会引起部分DNA的降解,这两点会使整体或者局部的DNA浓度过低•片段扩增的作用就是为了把这些微弱的DNA复制,增大它们在溶液中分布的密度,使得能够在取样时被获取到但由于整个反应都在一个试管中进行,因此其他一些密度并不低的DNA片段也会被同步放大,那么这时在取样去上机测序的时候,这些DNA片段就很可能会被重复取到相同的几条去进行测序。

      226 •局部区域重比对,通常也叫Indel局部区域重比对局部重比对的目的是将比对过程中所发现有潜在序列插入或者序列删除(insertion和deletion,简称Indel)的区域进行重新校正•这个过程往往还会把一些已知的Indel区域一并作为重比对的区域,但为什么需要进行这个校正呢?•根本原因来自于参考基因组的序列特点和比对算法本身这类在全局搜索最优匹配的算法在存在Indel的区域及其附近的比对情况往往不是很准确,特别是当一些存在长Indel、重复性序列的区域或者存在长串单一碱基(比如,一长串的TTTT或者AAAAA等)的区域中更是如此•另一个重要的原因是在不同比对算法中,对碱基错配和gap的容忍度是不同的227 228 •重新校正碱基质量值( Base Quality Score Recalibration,BQSR )•在WGS分析中,变异检测是一个极度依赖测序碱基质量值的步骤因为这个质量值是衡量我们测序出来的这个碱基到底有多正确的重要(甚至是唯一)指标•它来自于测序图像数据的base calling因此,基本上是由测序仪和测序系统来决定的但不幸的是,影响这个值准确性的系统性因素有很多,包括物理和化学等对测序反应的影响,甚至连仪器本身和周围环境都是其重要的影响因素。

      当把所有这些东西综合在一起之后,往往会发现计算出来的碱基质量值要么高于真实结果,要么低于真实结果那么,我们到底该如何才能获得符合真实情况的碱基质量值?229 230 231 •变异检测的内容一般会包括:•SNP(单核苷酸多态性)•Indel(插入缺失)•CNV(拷贝数变异)•SV(结构变异)•在获得了原始的变异检测结果之后,我们还需要做的就是质控和过滤这一步或多或少都有着一些个性化的要求•对于人类而言,一般来说,每个人最后检测到的变异数据大概在400万左右(包括SNP和Indel)232 基因组学(基因组学(genomicsgenomics))•由美国科学家由美国科学家Thomas Roderick于于1986年首创233 基因组学(基因组学(genomics))    基因组学(基因组学(genomics),研究生物基因组和如何利用基因),研究生物基因组和如何利用基因的一门科学该学科提供基因组信息以及相关数据系统利的一门科学该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学,和工业领域的重大问题用,试图解决生物,医学,和工业领域的重大问题    基因组学是研究生物基因组的组成基因组学是研究生物基因组的组成,组内各基因的精确结构、组内各基因的精确结构、相互关系及表达调控的科学。

      相互关系及表达调控的科学234 基因组学发展趋势基因组学发展趋势•基因转录及其调控的研究基因转录及其调控的研究 解析控制整个发育过程或反应通路的基因表达网解析控制整个发育过程或反应通路的基因表达网络 •蛋白质组学研究蛋白质组学研究 从整体上研究蛋白质的水平和修饰状态从整体上研究蛋白质的水平和修饰状态 研究蛋白质之间的相互关系研究蛋白质之间的相互关系 •基因组多样性的研究基因组多样性的研究    已知物种的重测序已知物种的重测序 对其它生物的测序对其它生物的测序 235 (二)基因组学分支(二)基因组学分支 n n结构基因组学n n功能基因组学n n比较基因组学 236 结构基因组学 结构基因组学:结构基因组学: 通过基因组作图、核苷酸通过基因组作图、核苷酸 序列分析确定基因组成、序列分析确定基因组成、 基因定位的科学基因定位的科学237 遗传图谱和物理图谱遗传图谱和物理图谱 对于序列测定而言,高等生物的染色体是巨大的研究对象,如人类基因组最大的1号染色体有263 Mb,最小的21号染色体也有50 Mb 因此结构基因组学研究的第一阶段,是要对染色体进行分解,将其分为容易操作的小的结构区域,这个过程简称为染色体作图(Mapping)。

      根据使用的标记和研究方法的不同,染色体作图可以分为遗传连锁作图和物理作图 238 基因定位基因定位 基因定位的一个基本方法是重组分析,若某致病基因和某个分子标记如微卫星DNA(即短串联重复序列)的重组率超过5%,说明二者不连锁,若重组率接近于零,说明该基因位于标记位点符近 另一个基本方法,是根据蛋白质结构的氨基酸序列,设计特异性的探针,通过分子杂交,筛选cDNA文库,这种方法称作功能克隆 近年来对基因定位的常用方法是在测序的基础上,用生物信息学的方法确定开放阅读框,再用分子杂交等方法验证 239 功能基因组学功能基因组学 功能基因组学功能基因组学:: 利用结构基因组学利用结构基因组学 提供的信息和产提供的信息和产 物,在基因组系统物,在基因组系统 水平上全面分析基水平上全面分析基 因功能的科学因功能的科学240 狭义的功能基因组学是研究细胞、组织或器官在特定条件下的基因表达广义的功能基因组学是结合基因组来定量分析不同时空表达的mRNA谱、蛋白质谱和代谢产物谱,所有对基因组功能的高通量研究,除了转录组学和蛋白质组学外,还包括在此基础上产生的不同分支,如药物基因组学、比较基因组学、进化基因组学等。

      241 功能基因组学的研究内容功能基因组学的研究内容l基因表达分析和基因转录调控信息基因表达分析和基因转录调控信息l所有基因产物的功能,这是目前基因组功能分析的主所有基因产物的功能,这是目前基因组功能分析的主要层次l研究基因的表达调控机制,研究基因在生物体发育过研究基因的表达调控机制,研究基因在生物体发育过程以及代谢途径中的地位,分析基因、基因产物之间程以及代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图的相互作用关系,绘制基因调控网络图242 关于基因功能的研究,传统的方法是从生物体的表型出发,通过遗传学实验,来确定决定该表型的基因这样的研究一般实验周期长,只能用于研究部分表型明确,遗传学实验容易设计的基因 利用基因重组技术可以将某一基因导入细胞或生物体,观察这一基因引起的表型变化,来确定基因的功能,还可以用基因敲除或RNA干扰来分析缺失某基因或其表达产物,所引起的表型变化,这种由基因到表型的研究方法称反向生物学反向生物学(Antibiology) ,是近年确定基因功能的常用方法特别是近些年RNA干扰技术的发展,大大促进了反向生物学的发展 在核酸层面上研究基因功能,新技术包括cDNA微阵列或DNA芯片、基因表达谱等,可进行基因表达的系统分析。

      鉴定基因功能的一个有效的方法,是观察基因表达被阻断或增加后在细胞和整体水平所产生的表型变异 243 比较基因组学比较基因组学 比较基因组学:研究不同物种之间在基因组结比较基因组学:研究不同物种之间在基因组结构和功能方面的亲源关系及其内在联系的学科构和功能方面的亲源关系及其内在联系的学科 244 比较基因组学的研究内容n通过研究不同生物基因组结构和功能上的相似之处,不通过研究不同生物基因组结构和功能上的相似之处,不仅能勾画出一张详尽的系统进化树,而且将显示进化过仅能勾画出一张详尽的系统进化树,而且将显示进化过程中最主要的变化所发生的时间及特点据此可以追踪程中最主要的变化所发生的时间及特点据此可以追踪物种的起源和分支路径物种的起源和分支路径n了解同源基因的功能了解同源基因的功能n对序列差异性的研究有助于认识产生大自然生物多样性对序列差异性的研究有助于认识产生大自然生物多样性的基础245 利用模式生物基因组与人类基因组之间编码序列结构上的同源性,可以克隆人类疾病基因,揭示基因功能和疾病的分子机制比较基因组学对于阐明物种之间的进化关系,分析某些蛋白质的生物学功能也有重要意义如绝大多数的重要生物功能由直系同源蛋白质承担,同线性(Synteny)连锁的同源基因在不同的基因组中有相同的连锁关系等规律,可为功能基因组学的研究提供很好的线索。

      功能基因组学涉及众多的新技术,包括生物信息学技术、生物芯片技术、转基因和基因敲除技术、酵母双杂交技术、基因表达谱系分析、蛋白质组学技术和高通量细胞筛选技术等 246 (三)基因组学的意义(三)基因组学的意义•生物学研究生物学研究 例如:人类疾病基因研究例如:人类疾病基因研究•医学医学•生物技术生物技术•制药工业制药工业•社会经济社会经济•生物进化生物进化•伦理,法律及社会伦理,法律及社会247 人类疾病基因研究人类疾病基因研究•疾病的遗传学基础•致病基因及相关基因的克隆在基因组学研究中占据着核心位置 •对疾病的预防,诊断,治疗等有重要意义•人类基因组计划的直接动因是要解决包括肿瘤在内的人类疾病的遗传学基础问题•单基因病疾病基因研究:例如血友病•多基因病疾病基因研究:例如心脏病,糖尿病,癌症等248 单基因病疾病基因研究单基因病疾病基因研究•人类基因组计划使我们了解基因组序列人类基因组计划使我们了解基因组序列 •现在采用定位候选克隆方法现在采用定位候选克隆方法 极大地提高了发现疾病基因的效率极大地提高了发现疾病基因的效率249 定位候选克隆定位候选克隆•通过遗传分析等方法将疾病基因定位到染色体区通过遗传分析等方法将疾病基因定位到染色体区段上。

      段上•对人类基因组图上该区段内的基因进行功能分析,对人类基因组图上该区段内的基因进行功能分析,并筛选出疾病基因并筛选出疾病基因   单基因病疾病基因克隆单基因病疾病基因克隆   导致了导致了亨廷顿舞蹈病亨廷顿舞蹈病、遗传性、遗传性结肠癌结肠癌和和乳腺癌乳腺癌等一大批单基因遗传病致病基因的发现,为这些等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础疾病的基因诊断和基因治疗奠定了基础   250 多基因病疾病基因研究多基因病疾病基因研究•比单基因病困难,目前疾病基因研究的重点比单基因病困难,目前疾病基因研究的重点 •用比较基因表达谱的方法来识别疾病状态下基因用比较基因表达谱的方法来识别疾病状态下基因的激活或抑制的激活或抑制 癌症基因组剖析计划(癌症基因组剖析计划(Cancer Genome Anatomy Project,,CGAP))251 举例:举例:癌症基因组剖析计划癌症基因组剖析计划((Cancer Genome Anatomy ProjectCancer Genome Anatomy Project,,CGAPCGAP))•1996年癌症基因组剖析计划开始。

      年癌症基因组剖析计划开始•主要由美国癌症研究所(主要由美国癌症研究所(National cancer institute)开展252 基因组学数据库253 小小 结结Ø基因注释与功能分类是功能基因组学和计算系统生物学的重要基础Ø本小节重点介绍Gene Ontology(GO)数据库 和 Kyoto Encyclopedia of Genes and Genomes(KEGG)数据库分别从基因功能注释和通路注释两个层面阐述功能注释与分类254 基基因因组组测测序序后后,,快快速速有有效效的的基基因因注注释释对对进进一一步步识识别别基基因因,,研研究究基基因因的的表表达达调调控控机机制制,,研研究究基基因因在在生生物物体体代代谢谢途途径径中中的的地地位位,,分分析析基基因因、、基基因因产产物物之之间间的的相相互互作作用用关关系系,,预预测测和和发发现现蛋蛋白白质质功功能能,,揭揭示示生生命命的的起起源源和和进化等具有重要的意义进化等具有重要的意义 255 一、研究人员已经掌握了大量的一、研究人员已经掌握了大量的全基因组数据全基因组数据,同时,同时关于基因、基因产物以及关于基因、基因产物以及生物学通路生物学通路的数据也越来越的数据也越来越多,解释生物学实验的结果,尤其从基因组角度,需多,解释生物学实验的结果,尤其从基因组角度,需要系统的方法。

      要系统的方法二、在基因组范围内描述蛋白质功能十分复杂,最好二、在基因组范围内描述蛋白质功能十分复杂,最好的工具就是计算机程序,提供结构化的标准的生物学的工具就是计算机程序,提供结构化的标准的生物学模型,以便计算机程序进行分析,成为从整体水平系模型,以便计算机程序进行分析,成为从整体水平系统研究基因及其产物的一项基本需求统研究基因及其产物的一项基本需求 基因注释数据库产生的原因基因注释数据库产生的原因         256 一、基因本体(一、基因本体(gene ontology,GOgene ontology,GO)数据库)数据库GO数据库数据库 http://www.geneontology.org/GO组织(组织(Gene Ontology Consortium)在)在2000年构建年构建的一个结构化的标准生物学模型,旨在建立基因及其的一个结构化的标准生物学模型,旨在建立基因及其产物知识的标准词汇体系,涵盖了基因的产物知识的标准词汇体系,涵盖了基因的Ø细胞组分(细胞组分(cellular component))Ø分子功能(分子功能(molecular function))Ø生物学过程(生物学过程(biological process)) 257 GO数据库主页数据库主页258 ØGO数据库最初收录的基因信息来源于3个模式生物数据库:果蝇、酵母和小鼠,随后相继收录了更多数据,其中包括国际上主要的植物,动物和微生物基因组数据库。

      ØGO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性 GOGO数据库收录的基因组数据列表数据库收录的基因组数据列表 259 GO数据库收录的基因组数据列表数据库收录的基因组数据列表260 GOGO注释体系特点注释体系特点ØGO通过控制注释词汇的层次结构使得研究人员能够从不同层面查询和使用基因注释信息Ø从整体上来看GO注释系统是一个有向无环图(directed acyclic graphs),包含三个分支,即: 生物学过程(biological process),分子功能(molecular function)和细胞组分(cellular component)Ø注释系统中每一个结点(node)都是基因或蛋白的一种描述,结点之间保持严格的关系,即“is a”或“part of”261 1. 用关键词检索GO数据库Ø检索GO数据库通常先进入AmiGO 2.0的首页在GO数据库中,每条记录都有一个数据标识号GO:XXXXXX和对应的术语因此检索时需要知道待查基因的数字标识号或术语,将它们直接输入框中检索即可如果检索的基因或蛋白质存在别名,可在检索框下勾选“gene or proteins”,并在检索框中输入别名检索;“exact match”表示是否完全匹配,可供选择。

      二、使用二、使用GOGO数据库数据库 262 AmiGO 2检索网页检索网页263 Ø以检索神经细胞分化因子6(NEUROD6)为例,选择“Advanced Search”下的“Genes and gene products”选项,在检索框中输入“NEUROD6”,运行后所得基因产物检索结果如图所示 264 AmiGO 2检索结果示例检索结果示例Ø检索得到的检索得到的8个记录分别是不同物种中的神经源性分化因子个记录分别是不同物种中的神经源性分化因子6Ø点击物种为人类点击物种为人类“Homo sapiens”的的“NEUROD6”记录,显示了该基因的记录,显示了该基因的基本信息,包括类型、物种、名称来源等信息基本信息,包括类型、物种、名称来源等信息 265 AmiGO 2基因描述示例基因描述示例1Ø点击物种为人类点击物种为人类“Homo sapiens”的的“NEUROD6”记录,显示了该基因的记录,显示了该基因的基本信息,包括类型、物种、名称来源等信息基本信息,包括类型、物种、名称来源等信息 266 链接链接UniProt检索结果检索结果 http://www.uniprot.org267 268 Ø检索下方还显示了该基因产物的关联(检索下方还显示了该基因产物的关联(gene product associations)图,要)图,要查看该基因的分子功能,可点击查看该基因的分子功能,可点击“GO class”中的记录查看,如点击中的记录查看,如点击“protein dimerization activity”的结果如图所示。

      的结果如图所示269 270 2. 用序列检索GO数据库Ø在AmiGO 1.8 版本中,对于未知基因名的序列,还可以用序列直接检索GO 数据库点击AmiGO 1.8首页上方的“BLAST”Ø界面风格类似于其他数据库BLAST搜索的网页,在检索框中输入氨基酸或核酸序列,网页能自动识别并相应地做BLASTP或BLASTX和数据库中的序列比对Ø这里以检索RPIA基因的序列为例,如图所示271 AmiGO 1.8 BLAST序列检索网页序列检索网页 272 KEGG数据库 http://www.genome.ad.jp/kegg京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG) 是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究三、三、京都基因与基因组百科全书京都基因与基因组百科全书273 ØKEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。

      Ø此外,KEGG还提供基于Java的图形工具访问基因组图谱、比较基因组图谱和操作表达图谱,以及其他序列比较、图形比较和通路计算的工具因此,KEGG数据库是进行生物体内代谢分析、代谢网络分析等研究的强有力工具之一274 275 ØKEGG目前共包含了19个子数据库,它们被分类成系统信息、基因组信息和化学信息三个类别 KEGGKEGG存储内容存储内容 276 Ø基基因因组组信信息息存存储储在在GENOME数数据据库库里里,,包包括括全全部部完完整整的的基基因因组组序序列列和和部部分分测测序序的的基基因因组组序序列列,,并并伴伴有有实实时时更更新新的的基基因因相相关关功功能的注释能的注释ØKEGG BRITE数数据据库库是是一一个个包包含含多多个个生生物物学学对对象象的的基基于于功功能能进进行行等等级级划划分分的的本本体体论论数数据据库库,,它它包包括括分分子子、、细细胞胞、、物物种种、、疾疾病病、、药物、以及它们之间的关系药物、以及它们之间的关系Ø一一些些小小的的通通路路模模块块被被存存储储在在MODULE数数据据库库中中,,该该数数据据库库还还存存储了其他的一些相关功能的模块以及化合物信息。

      储了其他的一些相关功能的模块以及化合物信息ØKEGG DRUG数数据据库库存存储储了了目目前前在在日日本本所所有有非非处处方方药药和和美美国国的的大部分处方药品大部分处方药品ØKEGG DISEASE是是一一个个存存储储疾疾病病基基因因、、通通路路、、药药物物、、以以及及疾疾病病诊断标记等信息的新型数据库诊断标记等信息的新型数据库 277 Ø下面以人类编码葡萄糖磷酸变位酶的基因“PGM1”为例:首先进入KEGG首页,在首页顶端的输入框中输入人类葡萄糖磷酸变位酶基因名称“PGM1” KEGGKEGG数据库的注释与检索数据库的注释与检索 278 Ø点击搜索按钮进入查询结果页面,该页面会列出针对基因“PGM1”在KEGG数据库中的搜索结果,除人类外,包含“PGM1”基因的物种条目也会被列出279 Ø其中排在第一位的是人类基因“PGM1”的相关信息,点击该条目进入到详细信息页面Ø该页面以表格的形式列出了该基因有关的详细信息,包括基因编号,基因的详细定义,所编码的酶的编号,基因所在通路,以及序列的编码信息同时,在页面的右侧还提供了该基因在其他分子生物学数据库的链接,如OMIM、NCBI、GenBank等。

      280 详细信息页面详细信息页面281 Ø通过点击相应的链接,我们可以进入该基因相应信息的页面在pathway这一栏中列出了该基因所在的生物学通路,点击编号为hsa00010(糖酵解/糖异生通路)的通路,进入到该通路的相应页面该编号为hsa00010的通路页面以简单的几何图形显示出了糖酵解/糖异生相关生物过程图中红色的方框即为基因“PGM1”所编码的酶,以此就可以通过该酶所在位置以及通路的拓扑结构来综合分析基因282 通路图通路图283 Ø此外,可以通过页面顶部的下拉列表框来选择该通路在其他物种中的信息,也可以通过该列表框的选择来查看相关的基因、酶、反应、化合物等相关通路信息284 285 Ø KEGG PATHWAY还存储了一些人类疾病通路数据,这些疾病通路被分为六个子类:癌症、免疫系统疾病、神经退行性疾病、循环系统疾病、代谢障碍、传染病循环系统疾病KEGGKEGG数据库的改进与更新数据库的改进与更新 286 ØKEGG DRUG数据库也在不断地完善,其中的药物数据几乎涵盖了日本的所有非处方药和美国的大部分处方药品DRUG 是一个以存储结构为基础的数据库,每条记录都包含唯一的化学结构以及该药物的标准名称,以及药物的药效、靶点信息、类别信息等。

      287 Ø药物的靶点通过KEGG PATHWAY查询,药物的分类信息是KEGG BRITE数据库的一部分,通过药物的标准名称可以找到该药物的商品名,还可以找到药物销售的标签信息此外,DRUG还包括一些天然的药物和中药的信息,有些药物被日本药典所收录288 ØKEGG对通路数据新增了两个补充内容:第一个补充是一张全局通路图,这张全局通路图是通过手工拼接KEGG的120多个现存通路图生成的,存储为SVG文件另一个补充内容是KEGG MODULE数据库,这是一个收集了通路模块以及其他一些功能单元的新型数据库,功能模块是在KEGG子通路中被定义为一些小的片段,通常包括几个连续的反应步骤、操纵子、调控单元,以及通过基因组比对得到的系统发生单元和分子的复合物等289 Ø近来已经发展了很多基于近来已经发展了很多基于GO数据库或数据库或KEGG数据数据库的方法,利用高通量的基因表达和蛋白质互作库的方法,利用高通量的基因表达和蛋白质互作数据进行功能预测,其中一些新开发的方法试图数据进行功能预测,其中一些新开发的方法试图整合多种数据类型,通过构建功能相关网络的方整合多种数据类型,通过构建功能相关网络的方式预测基因功能。

      式预测基因功能 基因功能预测算法基因功能预测算法 290 Ø首先,从总体上宏观地概括抽取信息,如不同样本间、不同时间点间全部差异基因;Ø其次,通过GO或KEGG分析,即从GO分类结果找到实验涉及的显著功能类别或将差异基因映射到通路中,根据基因在通路中的位置及表达水平的变化算出受影响显著的通路,从而预测未知的基因功能等当前基于当前基于GOGO或或KEGGKEGG的基因功能预测策略的基因功能预测策略291 整合蛋白质互作数据、表达谱和序列数据的功能预测整合蛋白质互作数据、表达谱和序列数据的功能预测292 Ø随着功能基因组学在人类复杂疾病研究中应用的逐步深入,基因功能注释的尺度也逐步从单基因注释发展到多基因注释和通路(或特定功能的基因集合)注释基于GO和KEGG发展起来的David、GOEAST、GOSim、KEGGSpider、KEGGArray、PathwayMiner等软件从不同角度实现注释、富集分析和功能预测,方便临床医学工作人员对感兴趣的基因或基因组进行研究293 基因组学研究策略基因组学研究策略294 •有参考基因组物种ü 个体基因组再测序ü 多种品系基因组重测序ü 群体遗传学分析。

       ü 图谱构建与家系连锁分析ü 全基因组关联分析ü 基因组重测序开发新标记 基因组研究策略基因组研究策略295 基因组基因组 个体基因组重测序个体基因组重测序对于已测序的重要经济物种和模式物种的野生种、突变种或亚种进行基因组测序策略:￿1.￿近缘物种的de￿novo￿;2.全基因组重测序+de￿novo1.基因组de￿novo组装;近缘物种进化分析;2.序列比对+￿de￿novo组装;SNP、插入/缺失和结构变异鉴定;进化分析296 栽培大豆基因组—第一个大豆基因组Genome sequence of the paleopolyploid soybean. Nature, 2010, 463:178-183.美国农业部 美国联合基因组研究中心华盛顿大学美国普渡大学等研究目的研究目的大豆基因组测序大豆基因组测序GS≈1.1Gb((2n=40))实验设计研究材料:研究材料:栽培大豆Glycine max var. Williams 82 测序策略:测序策略:建库3 kb,  8 kb, fosmid  及 BAC;Sanger:6.5X研究结果研究结果1.  组装:组装:contigN50::189.4 Kb;  scaffoldN50::47.8 Mb ;;锚锚定定染染色色体体上。

      上2. 46,430个个蛋蛋白白编编码码位位点点,,283个个豆豆科特有基因家族科特有基因家族3. 两两次次基基因因组组复复制制事事件件::5900万万年年前和前和1300万年前4. 结结瘤瘤基基因因::28个个结结瘤瘤基基因因和和24个个关键调控基因关键调控基因5. 控控油油基基因因::脂脂类类代代谢谢相相关关基基因因远远多多于于拟拟南南芥芥,,大大豆豆具具有有更更复复杂杂的的转转录调控297 野生大豆基因组野生大豆基因组——第二个大豆基因组第二个大豆基因组Whole-genome sequencing and intensive analysis of the undomesticated soybean (Glycine soja Sieb. and Zucc.) genome. PNAS, 2010. 107: 22032-22037 .韩国首尔大学  韩国生命工学研究院研究目的野生大豆与栽培大野生大豆与栽培大豆基因组比较豆基因组比较实验设计研究材料:研究材料:野生大豆G. soja IT182932植株纯合型测序策略:测序策略:454+Solexa序列比对+ de novo 组装。

      研究结果研究结果1、序列比对得到、序列比对得到915.4M的的G. soja 基基因组,覆盖已发表大豆基因组序列因组,覆盖已发表大豆基因组序列的的97.65%;;2、软件分析发现复制区域占、软件分析发现复制区域占G. soja 基因组的基因组的80%,鉴定得到,鉴定得到2.5million SNPs;;3、发现、发现35.6%的高可信度基因都是的高可信度基因都是受受G. soja 基因组的非同义基因组的非同义SNPs影响影响的;的;4、通过序列比对和软件计算,证明、通过序列比对和软件计算,证明G. soja 和和G.max基因组在基因组在27万年前产万年前产生分化,远远早于驯化得到生分化,远远早于驯化得到G.max的的时间(时间(6000-9000年前);栽培大豆年前);栽培大豆来自于先于来自于先于G. soja/G. max 复合体存复合体存在的祖先在的祖先298 野生大豆与栽培大豆的进化关系野生大豆与栽培大豆的进化关系野生大豆与栽培大豆分化时间早于大豆驯化时间野生大豆与栽培大豆分化时间早于大豆驯化时间 G.max 本质上是本质上是G. soja的驯化形式的驯化形式.G. soja/G.max 复合复合体至少在体至少在270,000 y 前就出现了。

      前就出现了299 多种品系基因组重测序多种品系基因组重测序核心种质资源资源是育种家最为宝贵的财富通过对核心种质资源进行重测序,可以实现:Ø核心种质资源数据库(分子标记,材料间聚类关系);Ø研究与品种优良性状相关的分子机制300 玉米重测序玉米重测序研究材料:研究材料:6个中国重要玉米骨个中国重要玉米骨干亲本干亲本测序:测序:Illumina 每株每株5xSOAP v2.18比对参比对参考基因组序列考基因组序列Ø发现了发现了100多万个多万个SNPs位点和位点和3万多个万多个IDPs位点,建立了高密度分子标记遗传图位点,建立了高密度分子标记遗传图谱谱Ø发现了发现了101个序列多态性较低的区域,在这个序列多态性较低的区域,在这些区域中含有大量在选择过程中与玉米性些区域中含有大量在选择过程中与玉米性状改良有关的候选基因状改良有关的候选基因实验设计实验设计研究发现研究发现301 玉米重测序玉米重测序        玉米自交系的重测序数据与玉玉米自交系的重测序数据与玉米米B73的基因组序列进行比对,的基因组序列进行比对,发现不同的自交系中存在不同发现不同的自交系中存在不同数量的基因丢失与获得性变异数量的基因丢失与获得性变异((PAVs)。

      302 材料选择•样品数量30个以上•物种内亚群的划分明确,且相同亚群的个体具有一定的代表性测序•每个样品全基因组重测序5X-10X标准信息分析SNP的检测及注释InDel的检测及注释SV的检测及注释高级信息分析•连锁不平衡分析•群体进化分析•群体结构分析•选择分析等选择有代表性品种重测序,能够揭示物种在驯化过程中发生变化的机制,研究进化和驯化在基因组上留下的“痕迹”,重新找回因人工选择而流失的优秀基因群体遗传学分析SNP:单核苷酸多态性INDEL:插入缺失SV:大的结构性变异303 研究目的鉴定野生、栽培大豆的遗传分化和选择实验设计研究材料:17野生大豆14株栽培大豆测序策略:illumina￿每个个体5X左右研究成果1、发现了630多万个SNP,￿筛选出20多万个tag￿SNP￿2、鉴定出18多万个两种大豆中获得和缺失变异(PAVs)3、鉴定了470个受选择的区域,分布在大概5%的基因组范围4、发现大豆基因组存在较高程度的基因连锁不平衡和较高比例的单核苷酸非同义替换/同义替换比例香港中文大学￿￿￿华大基因大豆重测序Resequencing￿of￿31￿wild￿and￿cultivated￿soybean￿genomes￿identifies￿pattern￿of￿genetic￿diversity￿and￿selection.Nature￿genetics,2010,42(12):1053-1059304 材料选择•RIL、DH系等作图群体•子代个体在100个以上测序•双亲10X以上重测序•子代0.1-2X的全基因组重测序或基因芯片分型标准信息分析SNP的检测及注释InDel的检测及注释SV的检测及注释高级信息分析•分子标记筛选•子代基因分型•遗传图谱构建和QTL分析图谱构建与家系连锁分析。

      遗传图谱是QTL定位的基础对作图群体进行低深度重测序或者SNP分型,可以构建高分辨率的遗传图谱,通过连锁分析,进行QTL定位、进而辅助育种305 研究目的通过全基因组重测序检测得到SNPs进行基因分型实验设计9311和日本晴构建的F11的150个RILs,每个RIL测0.02X数据,所得数据与2个亲本基因组数据相对比,找出SNPs研究成果1.以SNPs构建了高精度的基因分型图(bin￿map)2.以bins￿为markers￿构建了全基因组高密度分子标记的连锁图谱3.标记的平均密度为0.66cM水稻重测序构建遗传图谱High-throughput￿genotyping￿by￿whole-genome￿resequencing.Genome￿Research,2009,19:1068-1076306 全基因组关联分析￿￿通过对核心种质资源进行重测序,结合物种LD(连锁不平衡(Linkage￿disequilibrium)信息,构建物种HapMap,获得该物种大量Tag￿SNPs(有代表性的SNPs),应用Tag￿SNPs进行全基因组关联分析(GWAS),从而挖掘功能相关基因•具备广泛代表性样品•样本数量100个以上•3X以上全基因组重测序或30X以上外显子组测序材料选择•SNP,￿Indel,￿SV检测及注释等测序•TagSNP筛选,构建HapMap•全基因组关联分析标准信息分析•在大样本中用芯片验证候选位点•剔除假阳性关联位点高级信息分析候选位点验证307 基因组重测序开发新标记基因组重测序开发新标记 308 •无参考基因组物种ü 基因组 de novo测序。

      ü 简化基因组 de novo测序开发SNP标记ü SNP分型构建遗传图谱 基因组基因组309 家蚕重测序项目 (家养蚕29种,野生蚕11种,各测3X)蚕品种进化谱系关系310 大熊猫重测序•选取全国各区系的代表大熊猫以及博物馆中大熊猫样品约50种,每个进行6X以上全基因组测序•探查大熊猫种群的多态性,群体结构,推断种群进化历史,为大熊猫保护提供科学依据311 •大熊猫为什么吃竹子?312 已发表植物基因组物种信息已发表植物基因组物种信息 313 已发表动物基因组物种信息已发表动物基因组物种信息 314 已发表动物基因组物种信息已发表动物基因组物种信息 315 基因表达研究进入数字时代基因表达研究进入数字时代316 数字基因表达谱数字基因表达谱D DIGITAL IGITAL G GENE ENE E EXPRESSION PROFILLINGXPRESSION PROFILLING317 数字基因表达谱数字基因表达谱DIGITAL GENE EXPRESSION PROFILLINGDIGITAL GENE EXPRESSION PROFILLING318 数字基因表达谱数字基因表达谱DIGITAL GENE EXPRESSION PROFILLINGDGE实验流程DGE实验流程319 数据分析流程数据分析流程320 •基本特点Ø  测量准确度高Ø  通量高Ø  可重复性高•独特优势Ø  无需重复实验Ø  检测低丰度基因Ø  检测新转录本Ø  检测反义链转录本数字基因表达谱数字基因表达谱DIGITAL GENE EXPRESSION PROFILLINGDIGITAL GENE EXPRESSION PROFILLING321  数字基因表达谱VS基因芯片数字基因表达谱VS基因芯片322 转录组分析转录组分析323 RNA‐SeqRNA‐SeqcDNA文库构建测序比对到参考序列324 RNA‐SeqRNA‐Seq325 RNA‐SeqRNA‐Seq数据分析流程数据分析流程326 RNA‐Seq新转录本新转录本327 RNA‐SeqRNA‐Seq可变剪接可变剪接328 可变剪接形式可变剪接形式329 RNA‐SeqRNA‐Seq融合基因融合基因330 Small RNA Small RNA 分析分析331      分析流程     分析流程332 人类甲基化组研究:2009年Science杂志评出的10大科学新闻之一333 334 Integrate genomics technology into breeding•Genomic breeding:A high stage of molecular breedingMuch higher speed and accuracy, low costTowards molecular design breeding.•Three methods of gene location:基于遗传图谱和作图群体(QTL)全基因组范围关联分析突变体或者单片段替换系测序335335 新型分子标记图谱•De novo测序 + 核心种质资源重测序,得到基因组参考序列,以及种群内全部的SNP,Indel和SV多态性信息。

      •利用多态性标记分析连锁模式,构建Haplotype图谱,挑选一套tag-site构建genetic map•如果选用SNP,可用genotyping技术来分型;如果选择长度多态性(类似于SSR标记),则可仍然使用传统的PCR+电泳技术分型336 利用测序技术对作图群体进行分型父本:测10X母本:测10X杂交,产生分离群体(作图群体),如BC1,DH, RIL等子代:取200个,各测0.1X,总共20XTwo steps:1.比较父本和母本,得到 全部SNP位点2.根据map上的reads确 定SNP型, 对每一个子 代进行染体片段分型337 突变体或者单片段替换系测序•用物理或者化学诱变剂得到的突变体材料突变位点弥散分布在整个基因组中,但是突变位点数很少这时,可采用全基因组高深度测序(30X),来得到全部的突变位点,然后通过过滤筛除,得到起作用的突变位点•用多代回交方法得到的单片段替换系材料突变型与原型只有一个很小的染色体片段是不同的,而其他基因组部分都相同在原型基因组序列已知的条件下,可通过低深度测序(0.1X),来找到不同的那个染色体片段338 Advantages by genomic technology  339lWhole genome sequence (fine or finished Whole genome sequence (fine or finished map)map)lComplete set of polymorphism markers (among Complete set of polymorphism markers (among large population)large population)lFast and accurate location of phynotype-Fast and accurate location of phynotype-associated genes.associated genes.lFast and accurate selection of wanted Fast and accurate selection of wanted individuals in breedingindividuals in breeding339 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.