好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第六节探索遗传语言.doc

9页
  • 卖家[上传人]:ldj****22
  • 文档编号:30163379
  • 上传时间:2018-01-27
  • 文档格式:DOC
  • 文档大小:105KB
  • / 9 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第 六 节 探 索 遗 传 语 言1、基因组 DNA 的奥秘生命是大自然最伟大的创造物,经过亿万年的进化,生命的形式从简单的有机物发展到现在高度复杂但有序的生物系统蛋白质是构造生命机器的基本元件,大量结构不同、功能各异的蛋白质在遗传信息的控制之下,被不断地合成出来,并有机地组成复杂的生物体遗传信息存贮在基因组中,具体说就是存贮在 4 种字符组成的核酸序列中随着分子生物学中心法则的确立,人们逐渐认识到遗传信息的载体主要是 DNA(在少数情况下RNA 也充当遗传信息载体) ,控制生物体性状的基因则是一系列 DNA 片段一方面,DNA 通过自我复制,在生物体的繁衍过程中传递遗传信息另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状在基因表达过程中,基因上的遗传信息首先通过转录从 DNA 传到 RNA,然后再通过翻译从 RNA 传递到蛋白质基因控制着蛋白质的合成,基因的 DNA 序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的遗传密码1961 年科学家 Nirenberg 使用信使 RNA 分子研究得到第一个遗传密码,1969 年确定全部的遗传密码。

      遗传密码的发现开创了在分子水平上的生命信息科学,启动了人类探索遗传语言奥秘的进程许多科学家认为基因组 DNA 序列并非是一种简单的生物分子序列,而可能是一种语言,该语言描述遗传信息,控制生物体的性状,规定生物个体的生老病死为了深刻揭示这种遗传语言的奥秘,美国在 1990 年提出人类基因组计划,该计划与阿波罗登月计划、曼哈顿原子弹计划同称为人类自然科学史上的三大计划该计划的最终目标是测定人类全部 24 条染色体(22 条常染色体和 2 条X、Y性染色体)的 3×109个碱基对的序列,进而解读和破译遗传信息,使人类在分子水平上全面地认识自我由于生物技术的高速发展,人类基因组计划可望提前至 2003 年全部完成,届时我们将得到的关于人类遗传信息的长达数百万页的“天书” 这本天书就是用遗传语言书写的人类遗传蓝本,是解读遗传语言的基础之所以称它为天书,不单是因为它所包含的信息量巨大,更重要的是目前人类对它了解甚少,还无法读懂它天书中只有 4 个字符(碱基 A、T、G、C) ,既没有段落,也没有标点符号,是一个长度为 3×109的一维序列迄今为止,科学家对这本天书了解最多的部分就是遗传密码,或者说掌握了 DNA 对蛋白质编码的规律。

      遗传密码又称为三联体密码,它说明 DNA 序列三个连续的碱基为一个蛋白质的氨基酸编码已知自然界中的蛋白质由 20 种不同的氨基酸所组成,究竟需要几个连续的碱基为 1 个氨基酸编码呢?显然 1 个碱基不行,1 个碱基最多只能编码 4 种氨基酸那么 2 个碱基是否能够完成编码任务呢?2 个碱基最多能产生 16(4 2)密码子,只能为 16 种氨基酸编码,也不行而 3 个连续碱基可能形成的密码子共有 64(4 3)个,完全满足编码的需要,所以遗传密码是三联体密码由于三联密码的密码子数大于氨基酸种类数,所以对于一种氨基酸,可能存在多个密码子,同义密码子一般在第三位发生变化例如 UCU、UCC、UCA 和 UCG 均为丝氨酸的密码子显然这种编码方式具有一定的容错性,一位编码发生错误可能不会对蛋白质翻译结果产生影响假设丝氨酸密码子的最后一位变化,其变化结果仍然是同义密码子,对信息传递影响不大遗传密码具有通用性,在生物界除了线粒体等细胞质基因外,密码子几乎是通用的因而可以说生物界中的遗传语言也是通用的密码子的使用是非随机的如果密码子的第一、第二位碱基是 A、U,那么第三位将尽可能使用 G、C;反之亦然。

      G、C 之间可以形成三对氢键,而 A、U 之间只能形成两对氢键如果三位都用G、C,则配对容易,分解难;三位都用 A、U,则相反一般地说,高表达的基因,要求翻译速度快,要求密码子和反密码子配对快、分手也快密码子的使用是有一定的统计规律的对同义密码子的使用存在着偏爱,但不同种属偏爱的密码子不同,并且偏爱程度也不同特别的是,根据统计,在人类基因组中密码子第三位取 A、U 的情况占 90%,而第三位取 G、C 仅占 10%密码子中三个碱基所处的位置,与它所编码的氨基酸性质存在着某种联系第一位碱基是 G 的密码子,所编码的氨基酸是代谢途径起始的氨基酸,而且也是非生物体系实验中丰富的氨基酸以Asp 为出发点的一族氨基酸,其密码子的第一位都是 A;以 Glu 为出发点的一族氨基酸,其密码子的第一位都是 C芳香族氨基酸的密码子,以 U 作为第一位碱基由密码子中间位置碱基的性质,可以判断所编码的氨基酸是亲水性的或是疏水的编码疏水氨基酸的密码子,其第二位碱基是 U;编码亲水氨基酸的密码子,其第二位碱基是 A;第二位碱基是 G、C 的密码子所编码的氨基酸亲水性、疏水性居中人类基因组是科学家研究的第一个脊椎动物染色体基因组,人类基因组已成为其它脊椎动物中的代表。

      它比最近测序出来的蠕虫和果蝇基因组大 30 倍左右,比酵母的大 250 倍左右(它是第一个被测序的真核基因组) 尽管它的长度比较大,它的基因数目似乎只有果蝇和蠕虫基因组基因数目的两倍或三倍(Birney et al., 2001; Gu et al., 2000)人类基因组大约有 3 万个基因,这些基因分布在染色体中的 DNA 序列上,或者说就隐藏在“天书”中到目前为止已明确定位的基因仅占 3 万个基因中的一部分那么如何在“天书”中找到其它的基因呢?一种方法是通过分子生物学实验确定基因的位置,另一种方法就是前一节介绍的通过信息分析寻找基因科学家已经发现在基因的前后端存在一些特殊的信号,基因的蛋白质编码区域与非编码区域在序列的统计特征上有明显的差异,因此可以用数学方法、人工智能的模式识别方法或神经网络方法识别 DNA 序列上与基因相关的信号,区分统计特性,从而识别基因虽然我们已经了解基因的结构,掌握了遗传密码,但是相对于庞大的基因组,我们了解得还很少就人类基因组而言,编码区域只占人类基因组的 3%-5%其余 95%是非编码序列对于非编码序列,人们了解得比较少,尚不清楚其含义或功能然而,非编码区域对于生命活动具有重要的意义。

      这部分序列主要包括内含子、简单重复序列、移动元件(mobile element)及其遗留物、伪基因(pseudo gene)等卫星(satellite)DNA、小卫星(mini-satellite)DNA、微卫星(micro-satellite)DNA 就是一些典型的重复序列移动元件有:以 DNA 为基础的移动元件(DNA based transposable element) 、自主的逆转录转座子(autonomous retrotransposon) 、非自主的逆转录转座子(non autonomous retrotransposon)等除此之外还有顺式调控元件,如启动子、增强子、沉默子等也属于非编码序列Li 等人分析了人类基因组(Li et al., 2001) ,发现四种主要的重复元件覆盖了 43%的人类基因组,这四种重复元件包括短散布序列(SINEs)、长散布序列(LINEs)、长末端重复元件(LTR elements)、DNA 转座子在人类基因组中共有超过四百三十万个的重复元件,其中出现最频繁的是 Alu 和 LINE1许多重复 元件都已经退化到计算机重复标记程序(http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker)检测不到的程度,超过50%的人类基因都可能来自于重复元件的插入。

      我们知道基因组有 GC 碱基含量相对较高的区域和 AT 含量较高的区域,然而是什么使得基因组中 GC/AT 比值不调和仍然是一个未被解答的问题我们所了解的事实是:在基因组中的富含 GC 碱基区域,基因密度较大且内含子的平均大小较小虽然对 95%的非编码区的含义和作用人们还不清楚,但是从生物进化的观点来看,这部分序列肯定具有重要的生物学功能人类是大自然完美的创造物,难以想象在人类基因组中存在那么多无用的东西目前对非编码区普遍的认识是,它们与基因在四维时空的表达调控有关,即控制各个基因在什么时间、在生物体的什么部位表达基因的表达调控必定存在着一套严格的规律,这些规律有待我们去探索、发现我们确实也了解一小部分非编码区域,如与基因转录和翻译有关的调控区,像基因的启动子、增强子等内含子自 1977 年被发现以来,逐渐被明确地定义为:基因中间插着的若干段序列,在 RNA 转录物水平上经剪接除去,不参与该基因在蛋白质水平上的表达那么,内含子是如何来的?内含子的存在究竟有何意义?它担负着什么样的功能?内含子又何以能在一些真核生物中如此广泛地分布呢?关于内含子如何起源的问题,还没有确定的说法(Hurst,1994) 。

      一直有两种假说一种假说认为,内含子与它所在的基因一样古老,在装配第一个这样的基因时,内含子就已存在(Gilbert, 1978; Darnell and Doolittle,1986) 早期的内含子具有自催化、自我复制等能力,因此它们是原始基因和基因组的组织与复制必不可少的而今天的原核生物和少数低等的真核生物,由于它们需要进行快速的DNA复制从而进行快速的细胞分裂,因而失去了内含子现代的内含子是一类进化遗迹,它们之所以能继续存在,是因为具有重新组合基因组中的外显子以形成新的基因的能力,即内含子能赋予其携带者更大的进化潜力另一种假说认为内含子不是该基因原有的,而是在进化的某一过程通过转座作用插入到连续基因中去的(Dibb and Newman,1989; Cavalier-Smith,1991) 内含子在较高级的功能基因或在真核生物出现之后才产生,这种假说必须面对一个难题,即内含子最初如何能插入到连续编码的基因中而对其功能丝毫无损?近年来有些科学家通过对整个基因家族中内含子分布的研究,探索内含子的来源(Thompson et al., 1995; Jellie et al., 1996; Sahrawy et al.,1996) 。

      Dibb 和 Newman 通过分析微管蛋白家族各成员中的内含子分布而推断出内含子是在进化过程插入的(Dibb and Newman,1989) ;Bagavathi 等(Bagavathi and Malathi R. 1996)对整个肌动蛋白基因家族的内含子的插入位置及分布作了分析,强调内含子插入位置的保守性;Elder 对球蛋白的研究结果表明,有些球蛋白的内含子具有祖传的特点,而其它内含子则可能是后来附加上去的,也可能是原始基因复制崩溃所造成的(Elder,1997) 中国军事医学科学院吴加金对肌动蛋白家族中的内含子序列按同亚型和不同亚型在相同插入位置作了比较分析(吴加金,1998) ,结果表明:整个肌动蛋白的外显子序列是高度保守,由此推断整个肌动蛋白可能是从共同祖先蛋白进化的同亚型肌动蛋白的内含子序列的类似性随进化距离而变化,并且在短进化距离的物种间,在相同插入位置的内含子序列类似性都较高不同亚型肌动蛋白的内含子序列的类似性都较低,即使是同一物种,如人,不同亚型肌动蛋白的内含子序列的类似性也远低于同亚型但进化距离较近的物种由此可推断同亚型肌动蛋白的内含子序列可能从共同祖先进化,不同亚型肌动蛋白的内含子序列从不同祖先进化。

      综上结果可推出内含子可能是在蛋白异化过程中获得最近又发现某些内含子可含有编码与它们活动有关的蛋白质的基因,这就格外引起人们对内含子研究的热情2、探索遗传语言对于遗传语言,可以用语言学的方法进行研究,以发现遗传语言的规律人类已经成功地使用了两种语言,一种是人类进行感情和信息交流的自然语言,它是随人类社会文明发展而不断发展丰富的另一种语言是计算机高级程序语言,如 Basic、For。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.