
人类基因组概况.ppt
47页Department of MicrobiologyFuquan Hoo人类类基因组组概要Outline of Human Genome有科学史以来的过过去几百年中,人们对们对 于人类类基因组组的认识认识 大多限于染色体和个别别基因的认识认识 真正对对于人类类基因组组有“整体序列水平”的认识认识 是在人类类基因组计组计 划完成之后因此,我们们要讨论讨论 人类类基因组组就不得不先谈谈一谈谈“人类类基因组计组计 划”( Human Genome Project,HGP)1. 什么是人类类基因组计组计 划?HGP是研究人类类基因组组(及相关的大肠肠杆菌、酵母、线线虫、果蝇蝇及拟拟南芥基因组组)的、宏大的跨国科研计计划,它可与阿波罗计罗计 划媲美 HGP在20世纪纪80年代中期提出,自1990年正式开始,计计划用15年时间时间 ,耗资资 30 亿亿美元,完成人类类基因组组的测测序和基本注释释,完成 4 套图谱图谱 :遗传图谱遗传图谱 、物理图谱图谱 、序列图谱图谱 及基因图图谱谱一. 人类类基因组计组计 划 美国马萨诸马萨诸 塞州的Cambridge基因组组研究中心的Whitehead Institute英国剑桥剑桥 的 Sanger Center美国密苏苏里的 Washington University美国加州的 DOE 联联合基因组组研究所美国得州的 Baylor College Of Medicine美国的一些其它单单位中国、德国、法国、日本2.哪些国家和单单位参加了HGP?3.谁谁的DNA被用来测测序?在构建文库实验库实验 室附近刊登了为为HGP捐献DNA的广告,选选择择了不同人种的健康捐献者。
采集样样品经经匿名处处理:取样实样实验验室撕去所有样样品标记标记 ,记记以随机号码码,交样样品处处理室样样品处处理室再撕去原标记标记 并重新标记标记 最终终使用的每一样样品大约约收集了5~10个样样本捐献者与DNA样样品之间间不再有任何联联系, 所以捐献者的身份是不被知道的而 Celera 的测测序样样本来自5个人:分别别属于西班牙裔、 亚亚洲裔、非洲裔、美洲裔和高加索裔(2男3女),是从21个志 愿者样样本中挑选选的最后公布的序列图谱图谱 中还标记还标记 了140万个SNP位点,因此,它不是某一个确定人物的图谱图谱 ,而是“人类类”的图谱图谱 4. HGP的目标标 ldetermine the sequences of the 3 billion chemical base pairs that make up human DNA, lidentify all the genes in human DNA, lstore this information in databases, limprove tools for data analysis, ltransfer related technologies to the world publicladdress the ethical, legal, and social issues (ELSI) that may arise from the project.两个“人类类基因组计组计 划”前面提到的由多个国家合作进进行的计计划,称为为“国际际合作”计计划。
这这个计计划是由国家拨拨款资资助,自1990年开始,轰轰轰轰 烈烈干了整8年,做了大量艰艰苦、细细致的工作,也使得测测序方法得到相当的完善,大规规模自动动化测测序仪仪已经经出现现,不用做遗传图遗传图 和物理图图的“鸟枪鸟枪 法测测序”技术术于1995年在流感嗜血杆菌中获获得成功. 1998年有一个私人公司 Celera突然宣布,要用3年时间抢时间抢 在“国际际合作组织组织 ”之前完成人类类基因组测组测 序计计划,并将人类类基因专专利注册私人公司的介入,引入了竞竞争机制,迫使“公共合作组组 织织”不得不加大投资资、加快速度结结果两个计计划都在2001年 完成了“草图图”The HGP consortium published its working draft in Nature 409 (15 February). Celera publishes its working draft in Science (16 February).“草图图”(Draft Genome Sequence)意味着什么 ?“草图图”还还不是完成图图,还还有1000多个“缺口”, 缺口 主要集中在异染色质质区域。
目前,没有一个真核生物的基因组组被测测序到100% 有一些区域-通常是高度重复区域-用当今的技术术 很难难或根本不可能被克隆或测测序但是,公布的草图图中,90%~93%常染色质质区域( 富含基因区)已经经被测测序2003年,人类类基因组计组计 划完成它的“完成图图”,98%以上的基因编码编码 区已被测测序,精度达 99.99%,至此,人类类基因组计组计 划宣告它的完成这这一年,正值值James Watson and Francis Crick 发发表DNA双螺旋结结构50周年人类类基因组计组计 划的完成为为50周年庆庆典送了一份大礼!Nature和Science分别发别发 表了专专文,介绍绍了人类类基因组计组计 划在2001~2003这这两年中又取得的进进展及人类类基因组组学今后的发发展方向基因组组的完成图图1. Barbara R. Jasny and Leslie Roberts: Introduction,Science Apr 11 2003: 2772. Francis S. Collins, Michael Morgan, Aristides Patrinos:The Human Genome Project: Lessons from Large-Scale Biology。
Science Apr 11 2003: 2863. Marvin E. Frazier, Gary M. Johnson, David G. Thomassen, Carl E. Oliver, Aristides Patrinos:Realizing the Potential of the Genome Revolution: The Genomes to Life ProgramScience Apr 11 2003: 2904. Francis S. Collins, Eric D. Green, Alan E. Guttmacher, Mark S. Guyer :A Vision for the Future of Genomics Research. A blueprint for the genomic era. Nature Apr 24 2003: 835.5. Sean B. Carroll: Genetics and the Making of Homo sapiens. Nature Apr 24 2003: 849. 6. Jonathan Arnold, Nelson Hilton: Genome Sequencing: Revelations from a Bread Mould. Nature Apr 24 2003: 821. It is essentially immoral not to get it (the human genome sequence) done as fast as possible.James Watson人类类基因组计组计 划的完成,使得我们们今天有可能来探 讨讨基因组组的概,但我们们仍然无法来谈论细节谈论细节 。
基于我们们人类类今天知识识的局限性,目前我们还们还 无法 完全读读懂这这本天书书基于我们们个人的知识识局限性,没有任何一个人能完 全读读懂这这本天书书既使是集人类类集体之智慧,我们们也无法将目前人类类 能够认识够认识 到的有关基因组组的全部知识识集中到一篇论论 文中来因此,今天只能讨论讨论 有关基因组组的概况二. 人类类基因组组概况(对对草图图的统计统计 ) 基因组大小2.91GbpA+T含量54% G+C含量38% 不能确定的碱基9% 重复序列(不含异染色质)35% 编码序列(基因)数目26588 功能未知基因比例42% 外显子最多的基因Titin(234) SNP数量约300万个 SNP密度1/12500 bp最长的染色体2(240 Mbp)最短的染色体Y(19 Mbp)基因最多的染色体1(2453)基因最少的染色体Y(104)基因密度最大的染色体19(23/Mb)基因密度最小的染色体13,Y(5/Mb) 重复序列含量最高的染色 体19(57%)重复序列含量最低的染色 体2,8,10,13,18( 36%) 编码外显子序列的比例1.1~1.4%基因的平均长度27 Kb女平均男染色体上距着丝丝粒越远远,重组组率越高在遗传遗传 作图图中,各遗传标记遗传标记 之间间的距离是用重组组率来表示的,将遗传标记遗传标记 距着丝丝粒的实际实际 距离对对重组组率作图图,不难难看出下述关系: 着丝丝粒附近的重组组受到抑制,距着丝丝粒序列距离越远远, 重组组率越高染色体长长臂的平均重组组率为为 1 cM/Mb染色体短臂的平均重组组率为为 2 cM/Mb女性染色体重组组率比男性高三. 人类类基因组组GC含量与CpG岛岛人类类基因组组的GC含量围绕围绕 平均含量41%长长距离波动动。
存在GC富含区及GC贫贫乏区 GC富含区及GC贫贫乏区具有不同的生物学意义义GC富含区与基因密度程正相关GC贫贫乏区存在大量重复序列染色体深色G带带对应对应 的是低GC含量区染色体浅色G带带对应对应 的是高GC含量区GC含量的“板块块”变变化是由于基因组进组进 化过过程中转转座事件导导致的“区域镶镶嵌”GC含量与基因密度呈正相关基因组组序列GC含量直方图图(20Kb 窗口)基因组组中的CpG岛岛人类类基因组组中的CpG岛岛出现现率很低预计值预计值 :胞嘧啶嘧啶 与嘌呤的比列的乘积积, 约约4% 实际值实际值 :约约0.8 % 这这是因为为: 基因组组中大多数二核苷酸CpG中的胞嘧啶嘧啶 是甲基化的, 被脱氨基成为为胸腺嘧啶嘧啶 T, 即 CpG TpGCpG多出现现于基因的5‘端, 故对对于预测预测 基因很有意义义基因组组内有CpG岛岛 50267 个重复序列内的 CpG岛岛 21377 个, 一般不具功能非重复序列内的 CpG岛岛 28890个CpG岛岛的分布密度与染色体上的基因密度高度相关 染色体上的CpG岛岛数量与基因数程正比四.人类类基因组组中的重复序列 生物学中的一个困惑现象是基因组的大小与物种复杂性的不 一致,如人基因组比Amoeba dubia 小200倍。
其中一个解释 是基因组中含有大量重复序列重复序列是指基因组中不编 码蛋白质且有多个拷贝的序列,是人类基因中的主要成分, 占据全基因组的大部分区域 重复序列的生物学意义有待阐明重复序列是一种重要的分子标记l 散在插入重复序列:多由转座子插入引起的重复l 大片段复制性重复:约10~300Kb,基因组不同区域间重复l 串联重复:高度重复的串联重复,也称卫星DNA,多存在 于着丝粒、端粒、近着丝粒短臂等位置人类类基因组组中的散布重复序列 类型家族单位长 度拷贝 数总长 度比 例 SINEAlu0.13 kb1百万288 Mb9.9MIR40万66 Mb2.3 LINELINE10.8 kb35万466 Mb16. 1LINE20.25 kb27万 LTRHERV1.3 kb5万155 Mb5.3 RTLV, LTR0.5 kb20万DNA TnMER,THE 等0.25 kb20万50 Mb1.7总记1025 Mb35. 3lSINE:short interspersed nuclear elements.lLINE。












