
中山大学遗传学课程《基因组水平上的遗传学》2009.ppt
85页第五章 基因组水平上的遗传内容大纲• 1、基因组及基因组学; • 2、基因组的序列组织; • 3、人类基因组计划; • 4、DNA分子标记; • 5、染色体外基因组; • 6、基因组印记;1. 基因组及基因组学• Genome(基因组)一词是由H.Winkler 于1920年提出,原意是基因与染色体的 组合,表示一个生物种配子中染色体的 总和 • 现在基因组更常指细胞或生物体的全套 遗传物质C 值• 基因组的大小通常以一个基因组中的 DNA的含量来表示,称为C值 • C值是指单倍体染色体中的DNA总量 • 每种生物各有其特定的C值,而不同物 种之间有很大的C值差异基因组大小的分类支原体 0.58 X 106 细菌 2.8 X 106 酵母 3.0 X 107 霉菌 5.5 X 107 蠕虫 1.1 X 108 昆虫 0.5 X 109 鸟类 0.2 X 1010 两栖类 0.1 X 1010 哺乳类 2.8 X 1010基因组大小与进化的关系总体来说,进化程度越高,进化地位越 高,结构越复杂的生物一般其基因组也 越大。
基因组大小种类 Mb 大肠杆菌 4.64 啤酒酵母 12.1 线 虫 100 果 蝇 140 蝗 虫 5000 小 鼠 3300 豌 豆 4800 玉 米 5000 小 麦 17000 人 3000C值悖论(C-value paradox)• 高等生物具有比低等生物更复杂的 生命活动,所以,理论上应该是它们的 C值也应该更高但是事实上C值没有体 现出与物种进化程度相关的趋势高等 生物的C值不一定就意味着它的C值高于 比它低等的生物。
这种生物学上的DNA 总量的比较和矛盾,称为C值悖论C值悖论的两层含义• 第一,一些物种之间的复杂性变化程度并不大 ,但是C值却有很大的变化范围,或低级生物 的C值较高级生物的C值还要大得多• 第二,与预期的编码蛋白质的基因的数目相比 ,基因组DNA的含量过多 • C值悖论启示我们:真核生物基因组中必然存 在大量不编码基因产物的DNA序列(非结构 基因的DNA序列)C值悖论引出两个问题• 1、非结构基因的DNA序列的结构和功 能是怎样的? • 2、基因组DNA的C值巨大差异在生物学 功能和进化中有什么意义? • 上述问题的解决,将随着一门新兴学科- 基因组学的发展而逐步解决基因组学(Genomics)• 基因组学一词是美国的H.Roderick于 1986年提出来的,它是随着基因组计划 的发展而逐步发展起来的一门新兴学科 ,其主要研究内容是生物基因组的结构 和功能它分为两个部分:结构基因组 学(主要研究基因和基因组的结构、基 因组作图和基因定位等)和功能基因组 学(着重研究不同序列结构的功能、基 因的相互作用、基因表达及其调控等) 蛋白质组(proteome)和蛋白质组 学(proteomics)• 一个细胞或生物体内所含的全部蛋白质 叫蛋白质组。
• 研究全部蛋白质的组成及其活动规律的 学科叫蛋白质组学DNA序列的分类• 基因序列和非基因序列基因序列:以起始密码子开始,终止密码子 结束的一段DNA序列,称为开放阅读框( open reading frame, ORF)非基因序列:基因序列以外的DNA序列• 编码序列和非编码序编码序列:编码RNA和蛋白质的DNA序列非编码序:内含子和基因的间隔序列2. 基因组的序列组织• 单一序列和重复序列 单一序列(非重复序列): 基因组中只有一个 拷贝的DNA序列细菌基因组的绝大部分是 单一序列DNA,人类基因组中,单一序列约 占总RNA量的50%左右大多数单一序列是结 构基因,它编码许多重要的蛋白质 重复序列:基因组中重复出现的序列例如, STR,SNP,微卫星DNA等它又分为轻度重 复、中度重复和高度重复序列重复序列• 轻度重复序列:在基因组中只有2-10个拷贝的 DNA序列,但一般2-3个拷贝的DNA序列常常 被视为单一序列 • 中度重复序列:指在每个基因组中出现10至几 百个拷贝的DNA序列,重复单位长度约300bp ,一般代表高度保守的多基因家族的分散重复 序列(功能基因或假基因)和转座因子。
人的 珠蛋白基因属于这一类 • 高度重复序列:指存在大量拷贝的序列,在基 因组中出现几百至几百万个拷贝的序列,一般 长度在6-200bp,如卫星DNA等重复序列的功能• 一般认为大多数重复序列是过剩的DNA,但 其中某些重复序列具有特殊的功能,如调节基 因的表达,增强同源染色体之间的配对和重组 ,维持染色体结构的稳定性,调节mRNA前提 的加工过程,参与DNA复制等 • 原核生物含有完全不重复的DNA,低等真核 生物大部分DNA是非重复的;在动物细胞中 ,接近50%的基因组DNA是中度或高度重复的 ;在植物和两栖动物中,中度或高度重复序列 占80%基因家族• 基因家族(Gene family)是指真核生物基因组 中来源相同、结构相似、功能相关的一组基因 一个基因家族的成员在特殊的染色体区域上 可以成簇存在,中间常以中度重复序列相间隔 ;同一基因家族的成员在整个染色体上可广泛 分布甚至可存在于不同的染色体上根据家族 成员的分布形式,可把不同的基因家族分为成 簇存在的基因家族(clustered gene family)或 基因簇以及散布的基因家族(interspersed gene family)。
成簇存在的基因家族• 一个基因家族的各成员紧密成簇排列在 某一染色体上,成大段的串联重复单位 ,从而形成一个基因簇它们是一个祖 先基因扩增的产物例如,编码免疫球 蛋白重链和轻链的基因复合体在成簇 的多基因家族中偶尔分散的成员称为孤 独基因(orphon)散布的基因家族• 有些基因编码一组密切相关的蛋白质, 但这些成员的序列并不相同,且这些不 同的成员成簇地分布在不同染色体上, 它们也组成一个基因家族假基因• 所谓假基因,是指在多基因家族中,那 些在结构和DNA序列上与有功能的基因 具有相似性,但并不产生具功能的基因 产物的成员假基因与功能基因同源, 原来可能是有功能的基因,由于缺失、 倒位或突变等原因使该基因失去活性而 成为无功能基因假基因常用希腊字母 ψ(psi /psi:/ )表示假基因分类• 1、未加工的假基因也称常规假基因是通 过基因组DNA的复制产生的它们与有功能 的同源基因有相似的结构,偶尔可以通过一个 有利的突变而重新激活 • 2、加工的假基因也称为反转录假基因是 通过对mRNA的反转录和获得的cDNA的随机 整合而产生的加工的假基因只在真核生物中 发现,一般不表达重复序列DNA• 重复序列DNA是由特定大小序列(重复单位)以特定 拷贝数在空间上以特殊的方式所组成。
它有三种组织 形式: • 第一种是串联重复(tandem repeats):在单个重复单 位间没有间隔;(如AGGTAGGT) • 第二种是不完善重复(hyphenated repeats),被小间隔 分离,但还是成群排列;(AGGTNNNNNAGGT) • 第三种是分散重复(dispersed repeats),重复单位散 布在整个基因组中 • 串联重复DNA中最简单的结构是重复单位只有一个核 苷酸,这被称为同聚体(homopolymer)卫星DNA(Satellite DNA)• 各种DNA在氯化铯梯度离心中,平衡时的浮力密度决 定于它的GC含量,GC含量越高,浮力密度越大真 核生物的DNA一般含有30-50%的GC含量 • 对一个物种来说,当将基因组DNA切断成数百个碱基 对的片断进行氯化铯密度梯度超离心时,根据荧光强 度分析,其浮力密度曲线是覆盖一定浮力密度范围的 一条宽带,但有些DNA片断含有异常高或低的GC含 量,常在主要DNA带的前面或后面有一个次要的DNA 带相伴随,这些小的区带就像卫星一样围绕着DNA主 带,故称卫星DNA小鼠DNA氯化铯密度梯度离心后的主带 和卫星带吸光率浮力密度主带卫星带卫星DNA的特性• 它是一类高度重复的DNA序列,由非常短的 串联多次重复DNA序列所组成,是高等真核 基因组中重复程度最高的成分。
卫星DNA具 有串联集中分布的特点,多位于着丝点的异染 色质区,可能在染色体功能中起作用,重复频 率约为106-108卫星DNA重复单位的长短不 一,由于一般分布在异染色质区,难以用分子 杂交或PCR的方法揭示其多态性,因而不适于 作为基因组的指纹分析或遗传图的分子标记小卫星DNA(minisatellite DNA)• 由11-60个核苷酸对的串联重复序列组成,总 长度可达数百至数千碱基对,不同个体间串联 重复的数目是有差异的,当用某种限制性内切 酶对某基因组进行切割时,如果在重复序列中 没有切点,而在重复序列的两侧有切点的话, 则从不同个体中切割下来的片断将由于所包含 重复序列的数目不同而出现长度的变化,因此 由小卫星DNA组成的染色体座位具有丰富的 多态性,这种多态性亦称为VNTR序列( variable number of tandem repeats)DNA指纹(DNA fingerprints)• 当将人类的总DNA用限制性酶切成不同长度 的片断(各种VNTR上都没有酶切位点)后, 以VNTRs中的特异序列为探针进行Southern杂 交,即可发现阳性片断的长度各不相同这是 由于不同个体的这种串联重复的数目和位置都 不相同,所以VNTR的Southern 杂交带谱就具 有高度的个体特异性,这就是人们常说的 DNA• 指纹,它可用于亲子鉴定,法医鉴定等。
微卫星DNA(microsatellite DNA)• 又称短的串联重复序列(short tandem repeat,STR),是由更简单的重复单位 (1-5个核苷酸)组成的小序列,分散于 基因组中,大多数重复单位是二核苷酸 ,也有少量含有三核苷酸和四核苷酸的 重复单位,它们有高度的多态性,分布 在基因组的不同位置,是理想的遗传标 记3. 人类基因组计划• 人类基因组计划(Human Genome Project, HGP)是以 测定人类基因组全序列为目 标的巨大工程 • 它与曼哈顿原子弹计划和阿 波罗登月计划一起被称为20 世纪三大科学工程为什么要进行人类基因组计划?• 1、人类基因组所蕴含的几万个基因迄今只有 极少数被克隆或鉴定,对于与复杂生物学功能 相关的基因可能只知道一部分,按照传统的研 究模式,不能从整体上搞清生物学功能的基因 机理; • 2、这些相关基因是通过相互作用来实现生物 学功能的,孤立的研究不可能全面了解基因间 的相互作用 • 人们认识到应进行基因组水平上的整体研 究人类基因组计划所采取的策略就是“基因 组学”这们科学的策略人类基因组计划的意义•生物与医学基础研究•基因诊断、基因疗法、基因药物•带动一批高技术产业的发展人类基因组计划的启动• 1985年,美国能源部(Department of Energy, DOE。
