
序列比较的生物学基础.ppt
36页单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,序列比较的生物学基础,构成生命的基本单位是蛋白质;,20种氨基酸组成的多肽折叠而成;,什么决定蛋白质的氨基酸序列?,DNA由4种脱氧核苷酸组成:ATGC,RNA由4种核肝酸组成:AUGC,重要特征:互相配对,4种核苷酸组成64个三联密码子,形成6个开放读码框,序列测定,序列比较的生物学基础,构成生命的基本单位是蛋白质,而作为在细胞中催化各种化学反应的分子机器的酶,也是蛋白质另外,细胞的许多结构也是蛋白质组成的连非蛋白质的构成部分也是由属于蛋白质的酶所催化生产的一个人体含有大约100,000种不同的蛋白质,正是这100,000种蛋白质的特性及其相互作用使我们无所不能序列比较的生物学基础,蛋白质由20种氨基酸组成的多肽折叠而成,蛋白质由20种不同的氨基酸组成不同长度的聚合体,也称为肽或,多肽,由这种线性拓朴结构的聚合体折叠起来产生形状各异的不同蛋白质,不同的,形状,以及20种氨基酸的,化学特性,决定了蛋白质的,功能,现代生物学中的一个很主要的概念是,蛋白质的功能特性主要决定于线性多肽链中20种氨基酸的序列。
由于大多数蛋白质都是,自身折叠,而成,所以理论上知道了一个蛋白质的序列后即可推导出其功能序列比较的生物学基础,什么决定蛋白质的氨基酸序列?,分子生物学的,中心内容,就是描述我们从父母获得的遗传信息是如何储存于DNA中,它们是如何被用于复制相同的DNA副本,如何从DNA转录到RNA再翻译到蛋白质的序列比较的生物学基础,DNA由4种脱氧核苷酸组成:ATGCDNA是由4种脱氧核苷酸形成的线性多聚体,这4种核苷酸是:,腺嘌呤脱氧核苷单磷酸,(deoxyAdenosine monophosphate,A)、,胸腺嘧啶脱氧核苷单磷酸,(deoxyThymidine monophosphate,T)、,鸟嘌呤脱氧核苷单磷酸,(deoxyGuanosine monophosphate,G)、,胞嘧啶脱氧核苷单磷酸,(deoxyCytidine monophosphate,C)序列比较的生物学基础,RNA,则是由A、U、G、C,4种核苷酸形成的相似线性多聚体,,这4种核苷酸是:,腺嘌呤核苷单磷酸(Adenosine monophosphate,A)、,尿嘧啶核苷单磷酸(Uridine monophosphate,U)、,鸟嘌呤核苷单磷酸(Guanosine monophosphate,G),胞嘧啶核苷单磷酸(Cytidine monophosphate,C)。
序列比较的生物学基础,DNA和RNA的重要特征:互相配对,DNA和RNA的一个重要特征是线性多聚体可以互相配对,其配对是序列特异的,由此而形成的双链聚合体因其特殊的形状而被称为“,双螺旋,”(double helix)双链中,G与C,配对,,A与T,或U配对,其中一链可以作为合成另一链的,模板,,这就是DNA复制以至所有遗传学的基础由DNA,转录,为RNA也使用类似的模板合成方式,而由RNA序列转化为蛋白质序列则较为复杂,这是通过,三联密码子翻译,成氨基酸的过程完成的,这一过程有,转移RNA,和,核糖体,(tRNA和ribosomes)的参与序列比较的生物学基础,遗传密码三联子,mRNA上每3个核苷酸翻译成蛋白质多肽链上的一个氨基酸,这3个核苷酸就称为一个密码,也叫三联子密码翻译时从起始密码子AUG开始,沿mRNA53的方向连续阅读直到终止密码子,生成一条具有特定序列的多肽链mRNA中只有4种核苷酸,而蛋白质中有20种氨基酸,若以一种核苷酸代表一种氨基酸,只能代表4种(41=4)若以两种核苷酸作为一个密码(二联子),能代表42=16种氨基酸而假定以3个核苷酸代表一个氨基酸,则可以有43=64种密码,满足了编码20种氨基酸的需要。
序列比较的生物学基础,4种核苷酸组成64个三联密码子4种核苷酸可以组成64个不同的三联,密码子,(triplet codes),用于编码20种氨基酸绰绰有余其中三个为,终止密码子,,代表多肽序列的末端,一种氨基酸可以由16个三联密码子编码由多个密码子编码的氨基酸,不同密码子的,使用频率,并不相等,这种使用频率的不同分布称为“,密码子偏好,”(coden usage)不同种的生物密码子偏好不同序列比较的生物学基础,4种核苷酸组成61个编码氨基酸的密码子和,3个终止密码子,,它们不能与tRNA的反密码子配对,但能被终止因子或释放因子识别,终止肽链的合成由一种以上密码子编码同一个氨基酸的现象称为,简并,(degeneracy),对应于同一氨基酸的密码子称为,同义密码子,(synonymous codon)序列比较的生物学基础,形成6个开放读码框,由于氨基酸是由三联密码子编码的,因此DNA序列就包含三个不同的开放读码框,取决于从第一、第二或第三位核苷酸开始(第四位和第一位同框)而双链DNA的两条链都可以转录RNA,后者翻译蛋白质因此,一个DNA序列及其互补链可以有6个不同的读码框(reading frames)。
序列比较的生物学基础,基因,一般概念,基因作为唯一能够自主复制、永久存在的单位,其生理学功能以蛋白质形式得到表达DNA序列是遗传信息的贮存者,它通过自主复制得到永存,并通过转录生成mRNA,翻译生成蛋白质的过程控制所有生命现象编码链(coding strand)又称sense strand,是指与mRNA序列相同的那条链非编码链(anticoding strand),又称antisense strand,是指那条根据碱基互补原则指导mRNA生物合成的DNA链序列比较的生物学基础,基因表达的一般概念,基因表达包括转录(transcription)和翻译(translation)两个阶段转录,是指拷贝出一条与DNA链序列完全相同(除了TU之外)的RNA单链的过程,是基因表达的核心步骤翻译,是指以新生的mRNA为模板,把核苷酸三联子遗传密码翻译成氨基酸序列、合成蛋白质多肽链的过程,是基因表达的最终目的只有mRNA所携带的遗传信息才被用来指导蛋白质生物合成,所以人们一般用U、C、A、G这4种核苷酸而不是T、C、A、G的组合来表示,遗传性状,序列比较的生物学基础,序列测定可以用化学方法测定蛋白质的氨基酸序列以及DNA和RNA的核苷酸序列。
可是,就目前来说,测定DNA的核苷酸序列比测定RNA序列和蛋白质序列容易的多由于蛋白质序列可以由编码它的DNA序列推导出来,,许多已知的蛋白质序列其实就是从DNA序列推导出来的,将mRNA,转为DNA(cDNA)是一个简单的实验技术,因此,RNA,分子的序列通常是以cDNA序列测定的,序列分析其实就是从已知蛋白质、RNA、DNA序列作出生物学推论的过程序列分析的困难,技术欠缺,DNA非编码区比编码区多,编码区不连续:内含子、外显子,mRNA非编码区、tRNA、SnRNA,从DNA序列推导蛋白质序列,从蛋白质序列推导结构和功能,二级结构:alpha helix、beta sheet,超级二级结构、三级结构、四级结构,为什么结构命名如此复杂?,结构决定功能、实验方法欠缺,蛋白质三级结构推导的基础,目前不能从结构推导功能,序列分析的困难,技术欠缺,尽管从理论上来说,知道一个蛋白质的序列后,完全可以,推导出它的特性,,可是目前的生物学技术还远远不能做到这一点当前的序列分析手段实际能做的与希望做到的还相去甚远下面就谈谈序列分析困难在哪里另外,上面也已提到,由于,蛋白质序列测定的困难,,目前大多数的蛋白质序列其实都是由编码它的DNA推导出来的。
遗憾的是,从DNA转录RNA再翻译蛋白质的细胞学途径所具有的特点使这种推导难度大增序列分析的困难,DNA非编码区比编码区多许多蛋白质是由一个片段的DNA编码的,所以当分析DNA序列时,生物学家只需要知道蛋白质编码区从哪里开始,到哪里结束然而在人类基因组中情况就不是那么简单了,因为人类基因组中包含着远远多于编码区的非编码区序列,随机获取的一个片段很可能并不编码任何蛋白质序列分析的困难,编码区不连续:内含子、外显子,编码蛋白质的DNA并不是连续的,而是在其中分布有许多叫做“内含子”的分隔区大多数情况下,这个问题可以通过测定mRNA(cDNA)的序列来解决,因为cDNA中所含的非编码的额外部分很少,而原来被分隔开的外显子(exons)在mRNA(cDNA)中已经被连接成为一个连续的片段当然,在某些特殊情况下,难以分析RNA而只能分析DNA本身序列分析的困难,mRNA非编码区、tRNA、SnRNA,虽然RNA分子中编码蛋白质的区域相对非编码区的比例远大于DNA分子,然而RNA分子中也还存在非编码区,如编码区的上游和下游,有时甚至比编码区还大许多RNA分子并不编码任何蛋白质例如,核糖体RNA(Ribosomal RNA,rRNA),转移RNA(transfer RNA,tRNA)以及一些核仁小分子RNA(small nuclear ribonucleoproteins,SnRNA)等就属于非编码的RNA。
序列分析的困难,从DNA序列推导蛋白质序列,就目前来说,从DNA序列推导编码的蛋白质序列还没有一个总体的、通用的、完全的解决办法不过,通过各种计算方法以及一些实验生物学,人们已经比较成功的做到这一点目前,这个问题仍然是计算生物学最重要的问题之一序列分析的困难,从蛋白质序列推导结构和功能,当我们得到一个蛋白质序列之后,从序列推导它的结构和功能遇到的困难更大上面提过,蛋白质的结构是通过多肽链本身的折叠,有时还有多个多肽链的组合这种折叠通过组成肽链的氨基酸内部的化学键的转动和氨基酸之间肽键的转动而达成遗憾的是,折叠的可能方式实际上是无限多的为了帮助解决这一棘手问题,生物学家们将蛋白质的结构特征分成了等级一级结构指的是蛋白质中氨基酸的序列(primary structure),这是我们已经知道的序列分析的困难,二级结构:alpha helix、beta sheet几十年前,人们发现多肽链可以形成有规则的结构,也就是在不同的多肽中都会形成一些相同形状的结构其中之一是螺旋,被称为a-螺旋(alpha helix);另一种形状是多肽链来回折叠所产生的片状面,这个结构被称为b-折叠(beta sheet)。
它们形成蛋白质的二级结构也有一些多肽根本不形成这种规则结构,事实上,大多数较长的多肽链在不同区域折叠成不同的二级结构序列分析的困难,超级二级结构、三级结构、四级结构,上面描述的肽链环绕形成,a,-,螺旋和前后折叠形成,b,-,片层都属于简单和规则的结构,还有一些比较复杂的结构,其中之一的是在许多转录因子中发现的螺悬-环-螺旋模体(helix-loop-helix motif)这些被称为超二级结构当我们看一个真实的多肽链时,其最终的形状是由二级结构的特征、也许有超二级结构的特征、加上一些随机的形态构造所一起形成的,这一整体结构被称为三级结构最后,许多生物蛋白质由多个多肽链构成的,多条多肽链组合的方式被称为蛋白质的四级结构序列分析的困难,为什么结构命名如此复杂?,为什么要对蛋白质的结构作如此复杂的命名呢?因为对蛋白质结构的理解实在是太重要又太困难了其重要性体现在以下两点:,1.结构决定功能,2.实验方法欠缺,序列分析的困难,结构决定功能、实验方法欠缺首先,蛋白质的功能绝对取决于它的结构其实,让蛋白质失活的常规方法之一就是破坏它的结构,如通过加热或机械力(如抽打鸡蛋白)只有完全正确折叠的蛋白质才有活性;,其次,通过实验的方法测定蛋白质的结构极端困难。
至今,已测定序列的蛋白质有约30000,而已知三级结构的蛋白只有约500个显然,如果能够从一级结构推导出三级结构,甚至功能,将引起医学、药理学、化学以。












