基因组、转录组和蛋白组.ppt
114页基因组、转录组和蛋白质组Genomes, Transcriptomes and Proteomes结构基因组学、功能基因组学、比较基因组学概念概念•基因组基因组–是指一个单倍体细胞中遗传物质得总量染色体或基因•转录组转录组–一个细胞全部的mRNA 含量,是一个细胞在某一阶段必须的生物信息,这些RNA分子会指导合成基因组表达的最终产物,蛋白质组•蛋白质组蛋白质组–一个细胞合成的功能蛋白质的总和•蛋白质组学蛋白质组学–是人类基因组计划研究发展的基础上形成的交叉学科,主要是从整体水平研究细胞内蛋白质的组成,结构及其自身特有的活动规律 蛋白质组研究的意义蛋白质组研究的意义•基因虽是遗传信息的源头,而功能性蛋白是基因功能的执行体• 蛋白质本身的存在形式和活动规律,如翻译后修饰、蛋白质间相互作用以及蛋白质结构等问题,必须要依赖于对蛋白质组学的研究来解决•任何一种疾病在表现出可察觉的症状之前,就已经有一些蛋白质发生了变化因此寻找各种疾病的关键蛋白和标志蛋白,对于疾病的诊断、病理的研究和药物的筛选都具有重要意义•肿瘤组织与正常组织之间蛋白质谱差异,找到肿瘤特异性的蛋白分子,可能会对揭示肿瘤发生的机制有帮助,目前已应用于肝癌、膀胱癌、前列腺癌等研究中。
•开发新蛋白质、获得新基因Figure 3.1. The genome, transcriptome and proteome. •基因组的表达不仅仅是一个遗传信息由DNA-RNA-蛋白质的一个过程,这个法则忽略了信息流由基因组到蛋白质组传递过程是被调控的,这个过程每一步都是受到调控,从而使得转录组和蛋白组的成分能够做出迅速和准确的改变,并能使细胞调整自己的生化状态能对外界的刺激做出反应,转转 录录 组组 Transcriptomes•转录组是特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA•蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述,而由于目前蛋白质实验技术的限制,转录组成为研究基因表达的主要手段转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,转录水平的调控是目前研究最多的,也是生物体最重要的调控方式编码和非编码编码和非编码RNA•细胞的RNA含量可以分为两类–编码RNA–非编码RNA编码和非编码编码和非编码RNA–编码编码RNA•mRNA•4%•寿命短–细菌的mRNA半衰期几分钟,–真核细胞大部分mRNA的半衰期也只有几小时–转录组的成分不是固定的,可以通过快速的改变mRNA的合成来改变编码和非编码编码和非编码RNA•非编码非编码RNA–rRNA–tRNA–真核生物特有的真核生物特有的RNA•小核RNA(Small nuclear RNA) (snRNA; 也叫 U-RNA )参与前体mRNA的剪接•小核仁RNA(Small nucleolar RNA) (snoRNA),参与rRNA前体的加工以及 核糖体亚基的装配。
•小胞质RNA(scRNA), 包括几种,有些功能已知,有些功能还未知小核小核RNA(( snRNA,核内小核内小RNA))•存在于真核细胞的存在于真核细胞的细胞核内细胞核内,为小分子核,为小分子核糖核酸,长度为糖核酸,长度为106-189个核苷酸个核苷酸•作用作用::参与参与hnRNA 的剪接的剪接和转运•hnRNA::核内不均一核内不均一RNA,是成熟,是成熟mRNA的前体Figure 3.3. The RNA content of a cell. This scheme shows the types of RNA present in all organisms (eukaryotes, bacteria and archaea) and those categories found only in eukaryotic or bacterial cells. The non-coding RNAs of archaea have not yet been fully characterized and it is not clear which types are present in addition to rRNA and tRNA. For abbreviations, see the text. 1. 无参考基因组的大规模功能基因的发掘(de novo transcriptome analysis); 2. 非编码区域功能研究:Non-coding RNA研究、microRNA前体研究等 3. 转录本结构研究,包括UTR(Untranslated Regions即非翻译区)鉴定、Intron边界鉴定、可变剪切研究,融合基因鉴定等 4. 基因转录水平研究 5. 全新转录区域研究转录组研究的应用领域转录组检测的方法(一)构建cDNA文库并测序(二)基因表达序列分析技术 Serial analysis of gene expression (SAGE) (三)利用DNA chip 可以比较不同的转录组(四)大规模平行信号测序系统MPSS(massively parallel signature sequencing,MPSS)。
(一)(一)cDNA文库文库(cDNA library)的构建的构建•cDNA:以以RNA为模板,在反转录酶的作用为模板,在反转录酶的作用下合成的下合成的DNA•cDNA基因文库基因文库:从:从一定生长阶段或条件一定生长阶段或条件的的某种细胞分离到的全部某种细胞分离到的全部mRNA经经反转录反转录成成 cDNA后后再重组和增殖再重组和增殖形成的基因文库形成的基因文库cDNAcDNA文库的特点文库的特点 1. 1. 细胞特异性细胞特异性 来自结构基因,仅代表来自结构基因,仅代表正在表达正在表达的基因的遗传信息:的基因的遗传信息:1 1—5% mRNA5% mRNA,,8080—85% 85% rRNArRNA,,1010—15% 15% tRNAtRNA 2. 2. 组织、器官特异性组织、器官特异性 不同器官或组织的功能不一样不同器官或组织的功能不一样4. 4. 可了解基因的表达丰度可了解基因的表达丰度 在同一个在同一个cDNAcDNA文库中,不同类型的文库中,不同类型的cDNAcDNA分子的数分子的数目是大不相同的,尽管它们都是由单拷贝基因转录而目是大不相同的,尽管它们都是由单拷贝基因转录而来的。
这与基因组文库中的单拷贝基因均具有相同的来的这与基因组文库中的单拷贝基因均具有相同的克隆数相较,这是两种文库的另一差别克隆数相较,这是两种文库的另一差别3. 3. 代谢或发育特异性代谢或发育特异性 处于不同代谢阶段(或发育阶段)的结构基因表处于不同代谢阶段(或发育阶段)的结构基因表达亦不相同达亦不相同 cDNA文库的优点文库的优点•cDNA不存在间隔序列cDNA文库的缺点文库的缺点•要测序所有的cDNA克隆,费时费力•每一个cDNA克隆都只含有一种mRNA序列•cDNA 基因文库 是分离基因的重要手段 (二)基因表达序列分析技术(二)基因表达序列分析技术 Serial analysis of gene expression (SAGE)•表达的基因和表达丰度•SageSage技术的主要理论依据技术的主要理论依据– 一个短得寡核苷酸序列(一个短得寡核苷酸序列(12bp12bp)含有鉴定一)含有鉴定一个转录物个转录物特异性特异性的足够信息,可以作为区别转的足够信息,可以作为区别转录物的录物的标签标签((tagtag))4 4–这些标签串联在一起,形成大量这些标签串联在一起,形成大量多联体多联体((concatemerconcatemer),对每个克隆到的多联体进行),对每个克隆到的多联体进行测序并应用测序并应用SAGESAGE软件分析,可确定表达的基因软件分析,可确定表达的基因的的种类种类和和丰度丰度12Figure 7.22. SAGE. See the text for details. In this example, the first restriction enzyme to be used is Alu I, which recognizes the 4-bp target site 5 -AGCT-3 (see Table 4.3 ). The oligonucleotide that is ligated to the cDNA contains the recognition sequence for Bsm FI, which cuts 10 14 nucleotides downstream, and so cleaves off a fragment of the cDNA. Fragments of different cDNAs are ligated to produce the concatamer that is sequenced. Using this method, the concatamer that is formed is made up partly of sequences derived from the Bsm FI oligonucleotides. To avoid this, and so obtain a concatamer made up entirely of cDNA fragments, the oligonucleotide can be designed so that the end that ligates to the cDNA contains the recognition sequence for a third restriction enzyme. Treatment with this enzyme cleaves the oligonucleotide from the cDNA fragment. •用生物素酰化的oligo(dT)引导合成cDNA第一链,再合成双链cDNA,用专门识别4bp碱基的锚定酶(anchoring enzyme),如NlaIII(识别位点为CATG)消化合成的双链cDNA,释放5‘序列,而生物素酰化的3’端仍被吸附在链霉亲和素蛋白磁珠(streptavidin-coatedbeads)上•分离与磁珠结合的具3‘端poly(A)尾巴的cDNA片断,与含有IIS类限制酶位点的接头连接,酶切位点一般位于识别位点后20bp处,再用标签酶(tagging enzyme),如BsmFI等IIS类限制酶处理样品,释放带有接头的SAGE标签•带有接头的SAGE标签经DNA聚合酶(Klenow)补平后,由连接酶产生带有两个接头的双标签(ditag),对双标签PCR扩增后,再用锚定酶消化,得到尾尾相连的SAGE双标签,双标签的两端分布着锚定酶的酶切位点•去除接头的SAGE双标签彼此连接形成长短不一的多联体,电泳分离后收集大小适中的片段克隆到高拷贝的质粒载体,由此形成SAGE库•随机挑选SAGE库中的克隆测序,用专门设计的SAGE软件分析得到的标签序列,通过与GenBank、dbEST或SAGEmap等数据库进行比较,获取所需的资料。
•SAGE的应用–确定不同组织或细胞的表达谱,并能确定基因的表达丰度•1995年Velculescu等首次从人类胰腺中得到了1000个标签,其中351个(41.6%)只出现一次,77个标签出现多次,10个丰度最高的标签中有9个至少与GenBank序列匹配一致这个结果与cDNA文库结果一致–鉴定新的基因•利用13bp寡核苷酸(9bp标签加上4bp锚定酶位点)做为探针,筛选胰腺cDNA文库分离了4个未确定标签所对应的克隆,结果有3个标签对应的克隆代表了两个已知的基因,其中一个可能代表新的基因(三)生物芯片技术(三)生物芯片技术•生物芯片技术是20世纪90年代生命科学领域中迅速发展起来的一项新技术,是综合运用生物、微电子、微加工和计算机等知识制作的高科技杰作其本质是固定在玻片等载体上的微型生物化学分析系统,芯片上每平方厘米可密集排列成千上万个生物分子,能快速准确地检测细胞、蛋白质、DNA及其他生物组分,并获得样品的有关信息,其效率是传统方法的成百上千倍,被美国科学促进会评为1998年的世界十大科技突破成果之一 •生物芯片技术:高通量的杂交技术•生物芯片分类–根据芯片上的固定的探针不同,•基因芯片、蛋白质芯片、细胞芯片、组织芯片,–根据原理•元件型微阵列芯片、通道型微阵列芯片、生物传感芯片等新型生物芯片基因芯片(基因芯片(genechip))http://bmes.alfred.edu/degree.html基因芯片基因芯片((Genechip))DNA微阵列微阵列(DNA Microarray) •原理–基本原理与传统的核酸印迹杂交(Southern blot, Northern blot)相似,是基于核酸探针互补杂交技术原理而研制的。
所谓核酸探针只是一段人工合成的碱基序列,在探针上连接上一些可检测的物质,根据碱基互补的原理,利用基因探针到基因混合物中识别特定基因,当探针与芯片上的靶基因杂交后,经严格的洗涤,除去未杂交或部分配对的探针DNA分子(正常配对的双链热力学稳定性比错配双链高),用荧光检测仪定量分析杂交信号强度,由于探针与靶基因完全配对时产生的荧光信号强度比含一个或两个错配碱基的杂合分子高数十倍,因而精确测定荧光信号即可实现检测的特异性同时通过检测每个靶基因分子的杂交信号强度,就可获得样品分子的数量和序列信息 •分类–cDNA芯片–有寡核苷酸芯片–Genomic芯片•优点:大规模、高通量、高效率、并行性、自动化Figure 7.23. Transcriptome analysis. (A) Transcriptome analysis with a DNA chip carrying oligonucleotides representing all the genes in a small genome. After adding labeled cDNA, the positions of the hybridization signals on the chip indicate which genes have contributed to the transcriptome under study. (B) With a larger genome, cDNA clones prepared from the transcriptome of one tissue are immobilized as a microarray and probed with cDNAs representing the same or a different transcriptome. By comparing the hybridization patterns, genes that are expressed differently in the tissues from which the transcriptomes are obtained can be identified. 基因芯片的应用基因芯片的应用•根据应用领域的不同可将基因芯片分为表达谱芯片、测序芯片和诊断芯片三大类。
•表达谱基因芯片:基因的功能分析、疾病发生机理探讨、发育模式调控机理探讨、药物研究和筛选等众多方面;•测序芯片:主要用于测定DNA序列;•诊断芯片:检测基因变异和诊断疾病•分析基因的表达与功能–例1:拟南芥•Schena等采用拟南芥基因组内共45个基因的cDNA微阵列(其中14个为完全序列,31个为EST)•检测该植物的根、叶组织内这些基因的表达水平,用不同颜色的荧光素标记逆转录产物后分别与该微阵列杂交•根和叶组织中存在26个基因的表达差异,而参与叶绿素合成的CAB1基因在叶组织较根组织表达高500倍•检测基因变异与诊断疾病 –正常人的基因组中分离出DNA与DNA芯片杂交就可以得出标准图谱从病人的基因组中分离出DNA与DNA芯片杂交就可以得出病变图谱通过比较、分析这两种图谱,就可以得出病变的DNA信息 •Affymetrix公司,把P53基因全长序列和已知突变的探针集成在芯片上,制成P53基因芯片,将在癌症早期诊断中发挥作用–Heller等构建了96个基因的cDNA微阵,用于检测分析风湿性关节炎(RA)相关的基因–现在,肝炎病毒检测诊断芯片、结核杆菌耐药性检测芯片、多种恶性肿瘤相关病毒基因芯片等一系列诊断芯片逐步开始进入市场。
•筛选药物 –即可以利用基因芯片分析用药前后机体的不同组织、器官基因表达的差异 •但是芯片无法同时大量地分析组织或细胞内基因组表达的状况,而且由于芯片技术需要准备基因探针,所以可能漏掉那些未知的、表达丰度不高的、可能是很重要的调节基因 (四)大规模平行信号测序系统(四)大规模平行信号测序系统MPSS(massively parallel signature sequencing,MPSS)•2002年诺贝尔生理学或医学奖获得者Sydney Brenner发明 •是微阵列的替代方法:可以在一个sample中计数所有的mRNA•是设计用来捕获完整的转录组 •对低丰度转录子高度敏感•一般可以分析100万个转录子•数字资料容易构建大的相关数据库Digital data that is amenable to developing large relational databases•可以被应用于任何生物•大规模平行测序技术( massively parallel signature sequencing , MPSS) 是Brenner 等于2000 年建立, 由美国Lynex 公司将其商品化的一种基因克隆新技术.是基于序列分析技术的高通量、高特异性和高敏感性的基因分析技术. 本文就最新建立的大规模平行测序技术做简要介绍, 并比较该技术与其他几种常用技术的优缺点.•布伦纳在学术上极富开拓创新精神。
他参与开创和独立开拓的科学领域一个接着一个,并且在每个领域中他的原创性研究成果都绚丽夺目•布伦纳是参与分子生物学创建的主要功臣之一–1956年底,布伦纳成为克里克最亲密的合作者在基因如何指导蛋白质合成的研究中, 用实验证明遗传密码的“非重叠”、“无逗号”和“三联体”等性质方面作出了重大贡献–1961年布伦纳同雅各布(F.Jacob)和梅塞尔森(M.Meselson)合作,用实验证明了mRNA的存在使得用实验方法破译遗传密码的研究才有可能开始•这些重要发现使得当时的分子生物学家都把布伦纳视作生命科学革命的领军人物之一,期待着他何时能获诺贝尔奖,因为,他在破译遗传密码和证明mRNA的存在这两项工作中的贡献,任何一项都可获诺贝尔奖;而此时的布伦纳却在想别的事•经过多年探索,布伦纳证明了用乙基甲磺酸能诱导秀丽新小杆线虫(Caenorhabditis elegans)基因组特定的基因突变,完成了秀虫的遗传学分析,并在1974年的《遗传学》杂志上发表了“秀丽线虫的遗传学”一文在这篇具有里程碑意义的论文中,他把遗传学分析方法和显微镜观察方法结合起来,即首先制备秀虫的各种突变体,然后分析某个特定的基因突变对发育的影响。
这项工作成为其后大量出现的发育生物学研究的重要基础之一;秀丽线虫作为一种新的模式生物也迅速走红秀丽线虫•秀虫的确是很合适的实验材料它与人蛔虫、人蛲虫等营寄生生活的线虫不同,是营自由生活的线虫它身长1mm透明的表皮使每个细胞清晰可见它在20℃时的生命周期是3天半,非常适合做遗传学研究最可贵的是细胞数目少且固定,在发育过程中总是产生1090个细胞,其中有131个细胞注定要凋亡•1976年,与布伦纳合作研究的苏尔斯顿(J.E.Sulston)首次为秀虫发育中的神经系统描绘了细胞谱系图,后来,又描绘出完整的细胞谱系图,使秀虫成为唯一一种从单细胞受精卵开始直到成熟成体的全部细胞分裂过程被阐明的多细胞生物1986年,曾与布伦纳合作研究的霍维茨(H.R.Horvitz)首次用遗传学方法鉴定了2个与秀虫细胞凋亡有关的基因ced-3和ced-4后来,又鉴定出14个基因与秀虫细胞凋亡有关•布伦纳、苏尔斯顿和霍维茨因在器官发育和程序性细胞死亡(细胞凋亡)过程的基因调节方面的发现而获2002年诺贝尔生理学或医学奖•有人认为,“有的人需要诺贝尔奖为自己增辉,而有的人的获奖却是让诺贝尔奖增辉布伦纳的获奖无疑是属于后者。
•世人对布伦纳的评价是:“他用强烈的好奇心、想像力、智慧和决断力这样4根丝线编织了丰富多彩的具有特定结构的科学画面他在许多探索领域留下的研究成果必将延伸到未来MASS 与 Microarray比较•MPSS确实能在一个样品中检测到所有的所有的mRNAs , microarrays对检测的基因成分有限制(因为需要已知基因的序列做探针)• MPSS 即使是一般的检测都对低丰度基因具有很高的敏感性低丰度基因具有很高的敏感性,而microarray的敏感性受许多因素的影响而且很难进行严格的控制 •MPSS的结果是以数字资料的形式输出数字资料的形式输出,使得这些结果很容易整合进复杂的相关数据库•而 microarray的输出的数据时根据荧光的强度算出的比率很难准确反应表达水平相 •MPSS可以用于基因表达的定量分析,可以用于任何生物用于任何生物,即使对那些基因组未被测序或进行过详细研究的生物•Microarrays 的优点是高通量,可以分析大量的样本MPSS和和Sage比较比较•SAGE 的特征序列是14个核苷酸,而MPSS是17个–基因组作图时会少了歧义少了歧义–很容易把MPSS的标签与已知的基因对应起来•典型的SAGE的数据集是20,000-60,000个标签,而MPSS有约百万个特征序列 –MSPP很容易实现高通量,因为其克隆和测序用的是不同的技术–SAGE是利用的传统的克隆和测序技术,昂贵、耗时、劳动强度大 –更大的MPSS数据集可以增强分析的深度•MPSS是对SAGE的改进,它能在短时间内检测细胞或组织内全部基因的表达情况,是功能基因组研究的有效工具。
因其需要配套的软硬件较为昂贵,目前国内外的相关应用报道不多MPSS技术对于致病基因的识别、揭示基因在疾病中的作用、分析药物的药效等都非常有价值,该技术的发展将在基因组功能方面及其相关领域研究中发挥巨大的作用 •MPSS的特点是: •a1 不必事先知道基因的序列, 适用于任何生物体及任何性状;• b1 基因组覆盖面高, 能测量出样品中几乎所有表达了的基因;•c1 基因表达水平的测量是通过直接计算样品中cDNA 的拷贝数目, 属于非连续变量, 所以只要有病理和正常个体(或组织) 两个样品即可以进行严格的统计检验, 能有效地检测差异性中等或较小的基因; •d1 实验效率高, 只要两个星期即可获得几十万个克隆的16 至20 个碱基序列.深度测序技术深度测序技术•测序深度是测序量除以基因组长度,例如测序深度10*就相当于测了10次的全基因组 •Nature methods:高通量深度测序法探测:高通量深度测序法探测RNA结构结构 •在2010的(Nature Methods)(Nature)杂志两篇最新的论文中Underwood和Kertesz两个研究小组利用高通量测序技术确定了所有确定了所有RNA转录物的二级结构转录物的二级结构。
•最近的研究证实RNAs在调控基因表达和基因组稳定性中在调控基因表达和基因组稳定性中发挥了多重功能(发挥了多重功能(RNAi)),这一课题日益引起了研究界的广泛关注在这些调控过程中,RNA的结构是一个关键的影响因素——决定了是直接监控外部或内部信号,或是为反式作用因子提供特异的结合位点• RNA转录物是一种单链分子,当其发生自身折叠并形成碱基对,可形成各种长度和不同复杂性的发夹结构发夹结构是RNA中最普通的二级结构形式,其进一步组装则形成了复杂的三维结构了解RNA二级结构是研究人员揭示RNA活性,发现伴侣蛋白结合印迹及突变影响关键性的第一步 高通量测序技术-深度测序深度测序-deep sequencing •高通量测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定,使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing) • Roche(罗氏公司)推出了454 FLX焦磷酸测序平台(454 FLX pyrosequencing platform)•2006年美国Illumina公司推出的Solexa基因组分析平台(Genome Analyzer platform)•2007年ABI公司推出了SOLiD 测序仪。
这三个测序平台即为目前高通量测序平台的代表 高通量测序的应用高通量测序的应用 •可以帮助研究者跨过文库构建这一实验步骤,可以非常轻松完成基因组重测序(re-sequence)–但是也应该看到,由于高通量测序读取长度的限制,使其在对未知基因组进行从头测序(novo sequencing)的应用受到限制,这部分工作仍然需要传统测序(读取长度达到850 碱基)的协助但是这并不影响高通量测序技术在全基因组mRNA表达谱,microRNA表达谱,ChIP-chip以及DNA甲基化等方面的应用– 2008年Mortazavi等人对小鼠的大脑、肝脏和骨骼肌进行了RNA 深度测序,这项工作展示了深度测序在转录组研究上的两大进展,表达计数和序列分析•高通量测序另一个被广泛应用的领域是小分子小分子RNA或非编或非编码码RNA(ncRNA)研究研究–测序方法能轻易的解决芯片技术在检测小分子时遇到的技术难题(短序列,高度同源),而且小分子RNA的短序列正好配合了高通量测序的长度,使得数据“不浪费”,同时测序方法还能在实验中发现新的小分子RNA•在DNA—蛋白质相互作用的研究上,染色质免疫沉淀—深度测序(ChIP-seq)实验也展示了其非常大的潜力。
–染色质免疫沉淀以后的DNA 直接进行测序,对比ref seq可以直接获得蛋白与DNA结合的位点信息,相比ChIP-chip,ChIP-seq可以检测更小的结合区段、未知的结合位点、结合位点内的突变情况和蛋白亲合力较低的区段 高通量测序的应用高通量测序的应用 深度测序带来人类转录组深度测序带来人类转录组“空前空前”全貌全貌 • 德国马普分子遗传学研究所和Genomatix测序软件公司的科学家 通过胚肾和B细胞系的转录子(本)进行测序,揭示出人类转录组前所未有的复杂性和可变性• 他们发现,50%的转录子对应于特定的基因组域,其中有80%吻合已知的基因多聚腺苷酸化的转录组(polyadenylated transcriptome)的66%对应于已知基因,其余的34%则为新的基因• 此外,研究人员还进行了一项关于信使RNA剪接(mRNA splicing)的全局研究他们共确定出94241个剪接位点,其中有4096个是全新的• 领导该项研究的马普分子遗传学研究所Marie-Laure Yaspo博士说,“深度测序(deep sequencing)让我们首次直接探索人类转录组的复杂性和动力学成为可能。
•而此次的细胞内和细胞间选择性剪接的对比研究,以及对基因表达的同步分析是此前从未进行过的新的研究结果将导致远超出现有程度的全新哺乳动物基因组注释图此外,一个越来越明显的情况就是,目前可用的方法只能带来哺乳动物细胞的部分表达图谱,尤其是当考虑到基因调控分析时2008 science 一个典型的哺乳动物细胞,例肝细胞,大约包含10000-20000个不同的蛋白,大约8 × 10 个分子占细胞总重量的18-20%蛋白质组蛋白质组 the proteome•某一特殊时期细胞中所有蛋白的总和某一特殊时期细胞中所有蛋白的总和 9•高丰度蛋白:高丰度蛋白:每个细胞中,一个蛋白分子超过每个细胞中,一个蛋白分子超过50 50 000000个个copycopy的时候,属于高丰度蛋白的时候,属于高丰度蛋白•哺乳动物细胞中有哺乳动物细胞中有20002000个蛋白属于高丰度蛋白,个蛋白属于高丰度蛋白,•高丰度的蛋白含量变化小,说明这些是高丰度的蛋白含量变化小,说明这些是看家基因看家基因的蛋白,在细胞中执行基本的生理功能,通常与的蛋白,在细胞中执行基本的生理功能,通常与细胞的特异性无关细胞的特异性无关Figure 3.12. The central role of the proteome. 蛋白质的结构蛋白质的结构•蛋白质的四级结构–一级结构:氨基酸顺序–二级结构:线性多肽形成的不同构型•主要有a-helixa-helix 和b-sheetb-sheet •多肽的氨基酸之间由氢键连接形成•多数多肽可形成一系列的二级结构。
三级结构:由二级结构折叠形成的三维构型•氢键、疏水作用力、二硫键(两个半胱氨酸之间)四级结构:多个形成三级结构的多肽相互作用形成的多亚基蛋白•并不是所有的蛋白都形成四级结构,它是许多具有复杂功能蛋白的特点•二硫键、氢键和疏水作用力Figure 3.13. The general structure of an amino acid. All amino acids have the same general structure, comprising a central a-carbon attached to a hydrogen atom, a carboxyl group, an amino group and an R group. The R group is different for each amino acid (see Figure 3.17 ). Figure 3.14. In polypeptides, amino acids are linked by peptide bonds. The drawing shows the chemical reaction that results in two amino acids becoming linked together by a peptide bond. The reaction is called a condensation because it results in elimination of water. 一级结构一级结构Figure 3.15. The two main secondary structural units found in proteins: (A) the a-helix, and (B) the b-sheet. The polypeptide chains are shown in outline with the positions of the a-carbons indicated by small dots. The R groups have been omitted for clarity. Each structure is stabilized by hydrogen bonds between the C=O and N-H groups of different peptide bonds. The b-sheet conformation that is shown is anti-parallel, the two chains running in opposite directions. Parallel b-sheets also occur. 二级结构二级结构Figure 3.16. The tertiary structure of a protein. This imaginary protein structure comprises three a-helices, shown as coils, and a four-stranded b-sheet, indicated by the arrows. Redrawn from Turner et al. (1997). 三级结构三级结构•蛋白的功能不同是因为他们的氨基酸序列不同•不同的氨基酸序列形成不同的空间结构,这不仅反映在蛋白的整体结构也反映在蛋白的活性基团在蛋白表面的位置•合成的蛋白质会经过一系列的修饰,包括乙酰化、磷酸化、糖基化等•不同的二级结构有氨基酸的偏爱氨基酸序列决定蛋白的功能氨基酸序列决定蛋白的功能•不同的二级结构有不同的二级结构有氨基酸偏爱氨基酸偏爱,可根据不同的氨基酸的序列来可根据不同的氨基酸的序列来推测它的结构推测它的结构 (?)(?)•多数蛋白的三级结构都有几个多数蛋白的三级结构都有几个结构域结构域,它们之间具有相互作用,,它们之间具有相互作用,这些结构域都是独立折叠而成。
这些结构域都是独立折叠而成•经尿素变性的蛋白在复性的过程中仍然能经尿素变性的蛋白在复性的过程中仍然能自发的折叠自发的折叠成正确的成正确的高级结构高级结构•细胞中有种蛋白称为细胞中有种蛋白称为分子伴侣分子伴侣((molecular chaperones )可)可以协助其他的蛋白形成正确的高级结构以协助其他的蛋白形成正确的高级结构• 不是所有的蛋白质都能正确的形成高级结构,尤其是大的蛋不是所有的蛋白质都能正确的形成高级结构,尤其是大的蛋白质分子,蛋白质在复性的过程中可能采用了其他的折叠方白质分子,蛋白质在复性的过程中可能采用了其他的折叠方式,这样后续的过程就不能形成正确的折叠式,这样后续的过程就不能形成正确的折叠Figure 3.17. Amino acid R groups. These 20 amino acids are the ones that are conventionally looked upon as being specified by the genetic code (Section 3.3.2). The classification into non-polar, polar etc. is as described in Lehninger (1970). Figure 3.22. Formation of a secondary structure in a polypeptide. An a-helix is shown nucleating at a position containing amino acids that favor helix formation, and extending in either direction until groups of amino acids that block helix formation are reached. 蛋白质组学研究蛋白质组学研究•研究目标研究目标–是对机体或细胞的所有蛋白质进行是对机体或细胞的所有蛋白质进行鉴定鉴定和和结构结构功能功能分析分析 •两个最主要的技术两个最主要的技术–蛋白电泳(蛋白电泳(protein electrophoresis))– 质谱分析(质谱分析(mass spectrometry))•步骤步骤–2维聚丙烯酰氨凝胶电泳(维聚丙烯酰氨凝胶电泳(2D))–取蛋白点进行质谱分析取蛋白点进行质谱分析–样品制备:样品制备:破碎、沉淀蛋白和去除杂质破碎、沉淀蛋白和去除杂质 •第一维:第一维:等电聚焦等电聚焦 :Ph•第二维:第二维:SDS-PAGE::分子量和电荷分子量和电荷2D蛋白电泳每一个点代每一个点代表一个蛋白,表一个蛋白,但不是所有但不是所有的蛋白都能的蛋白都能显示,跟染显示,跟染色的方法有色的方法有关关对照两个电对照两个电泳图谱可以泳图谱可以比较蛋白表比较蛋白表达的差异和达的差异和表达量的差表达量的差异异•样品制备:–应使所有待分析的蛋白样品全部处于溶解状态(包括多数疏水性蛋白),且制备方法应具有可重现性。
–防止样品在聚焦时发生蛋白的聚集和沉淀–防止在样品制备过程中发生样品的抽提后化学修饰(如酶性或化学性降解等)–完全去除样品中的核酸和某些干扰蛋白–尽量去除起干扰作用的高丰度或无关蛋白,从而保证待研究蛋白的可检测性•十二烷基硫酸钠-聚丙烯酰胺凝胶电泳(SDS-PAGE),主要用于测定蛋白质亚基分子量,SDS是一种阴离子去污剂阴离子去污剂,作为变性剂和助溶剂变性剂和助溶剂,它能段裂分子内和分子间的氢键,使分子去折叠,破坏蛋白质分子的二级和三级结构强还原剂则能使半光氨酸残基之间的二硫键段裂•在样品和凝胶中加入SDS和还原剂后,分子被解聚成它们的多肽链解聚后的氨基酸侧链与SDS充分结合形成带负电荷的蛋白质-SDS复合物,所带的负电荷大大超过了蛋白质分子原有的电荷量,这就消除了不同分子之间原有电荷的差异因此这种复合物在SDS-聚丙烯酰胺凝胶系统中的电泳迁移率不再受蛋白质原有电荷的影响,而主要取决于蛋白质或亚基分子量的大小分子量的大小当蛋白质的分子量在15KD到200KD之间时,电泳迁移率与分子量的对数呈线性关系 蛋白之间相互作用的研究蛋白之间相互作用的研究•蛋白质-蛋白质的相互作用是细胞生命活动的基础和特征。
•发现新的蛋白并了解其功能•方法方法–噬菌体表面展示技术噬菌体表面展示技术 ((phage display ))–酵母双杂交系统(酵母双杂交系统(the yeast two-hybrid system))–串联亲和纯化串联亲和纯化 –质谱分析质谱分析 –蛋白质芯片蛋白质芯片–基于生物信息学的分析方法基于生物信息学的分析方法 噬菌体表面展示技术噬菌体表面展示技术 ((phage display ))–原理:原理:通过蛋白和蛋白之间空间结构的吻合,通过蛋白和蛋白之间空间结构的吻合,用已知的蛋白筛选未知蛋白的过程用已知的蛋白筛选未知蛋白的过程–它将外源多肽或蛋白与噬菌体的一种它将外源多肽或蛋白与噬菌体的一种衣壳蛋白衣壳蛋白融合表达,融合表达,融合蛋白融合蛋白将展示在病毒颗粒的表面,将展示在病毒颗粒的表面,而编码这个融合子的而编码这个融合子的DNA则位于该病毒粒子内则位于该病毒粒子内应用应用 1、、噬噬菌菌体体展展示示技技术术使使大大量量多多肽肽与与其其DNA编码序列编码序列之间建立了直接联系之间建立了直接联系 2、、使使得得各各种种靶靶分分子子((抗抗体体、、酶酶、、细细胞胞表表 面面 受受 体体 等等 )) 通通 过过 一一 种种 被被 称称 为为 淘淘 选选((panning))的的体体外外选选择择程程序序得得以以快快速速鉴鉴定定。
3、迅速鉴定未知的基因功能、迅速鉴定未知的基因功能 最最简简单单的的淘淘选选程程序序,,是是将将噬噬菌菌体体展展示示肽肽库库与与包包被被有有目目的的靶靶分分子子的的平平板板((或或磁磁珠珠))共共温温育育,,先先洗洗去去未未结结合合噬噬菌菌体体,,然然后后洗洗脱脱特特异异性性结结合合的的噬噬菌菌体体((见见图图1))被被洗洗脱脱的的噬噬菌菌体体进进行行扩扩增增,,然然后后再再进进行行下下一一轮轮的的结结合合/扩扩增增循循环环,,以以富富集集那那些些可可结结合合序序列列经经3-4轮轮淘淘选选后后,,通通过过DNA测测序对每个可结合克隆进行定性序对每个可结合克隆进行定性酵母双杂交系统酵母双杂交系统(yeast two-hybrid system) –酵母双杂交系统:是在酵母体内分析酵母双杂交系统:是在酵母体内分析蛋白质蛋白质-蛋蛋白质白质相互作用的系统,也是一个基于相互作用的系统,也是一个基于转录因子转录因子模块结构的遗传学方法模块结构的遗传学方法 –转录因子:转录因子:•DNA结合结构域结合结构域 (DNA binding domain, 简称为DB)•转录激活结构域转录激活结构域(activation domain, 简称为AD )•它们是转录激活因子发挥功能所必需的。
单独的DB虽然能和启动子结合, 但是不能激活转录 而不同转录激活因子的DB和AD形成的杂合蛋白仍然具有正常的激活转录的功能 –如酵母细胞的Gal4蛋白的DB与大肠杆菌的一个酸性激活结构域B42融合得到的杂合蛋白仍然可结合到Gal4结合位点并激活转录 •酵母双杂交系统的建立–Gal4是酵母的转录因子,具有DB和AD–SUC2基因受Snf1和Snf2两个蛋白调控•Snf1与DB融合(诱饵:bait)•Snf2与AD结合(猎物或靶蛋白:prey or target)•如果在Snf1和Snf2之间存在相互作用, 那么分别位于这两个融合蛋白上的DB和AD就能重新形成有活性的转录激活因子, 从而激活相应基因的转录与表达–这个被激活的、能显示“诱饵”和“猎物”相互作用的基因称之为报告基因(reporter gene)•通过对报道基因表达产物的检测, 反过来可判别作为“诱饵”和“猎物”的两个蛋白质之间是否存在相互作用•β-半乳糖苷酶的LacZ作为报道基因,调控区引入受Gal4蛋白调控的GAL1序列•改造过的LacZ基因被整合到酵母染色体上,而酵母的GAL4基因和GAL80基因(Gal80是Gal4的负调控因子)被缺失, 从而排除了细胞内源调控因子的影响•已经知道在Snf1和Snf2之间存在相互作用。
结果发现只有同时转化了Snf1和Snf2融合表达载体的酵母细胞才有β-半乳糖苷酶活性, 单独转化其中任何一个载体都不能检测出β-半乳糖苷酶活性•改进的双杂交系统–报道基因、“诱饵”表达载体以及“猎物”表达载体等做了一些改进•引入了其他的报告基因如HIS3–经过改造带有HIS3报道基因的酵母细胞, 只有当HIS3被启动表达才能在缺乏组氨酸的选择性培养基上生长•大多数双杂交系统往往同时使用两个甚至三个报道基因, 其中之一是LacZ•这些改造后的基因在启动子区有相同的转录激活因子结合位点, 因此可以被相同的转录激活因子(如上述的Gal4蛋白)激活 通过这种双重或多重选择既提高了检测灵敏度又减少了假阳性现象•在双杂交鉴定过程中要经过两次转化, 这个工作量是相当大的, 特别是寻找新的作用蛋白质的时候尤其如此 而且, 酵母细胞的转化效率比细菌要低约4个数量级 因此转化步骤就成为双杂交技术的瓶颈 Bendixen等人通过酵母接合型的引用, 避免了两次转化操作, 同时又提高了双杂交的效率 在酵母的有性生殖过程中涉及到两种配合类型: a接合型和α接合型, 这两种单倍体之间接合(mating)能形成二倍体, 但a接合型细胞之间或α接合型细胞之间不能接合形成二倍体。
根据酵母有性生殖的这一特点, 他们将文库质粒转化α接合型酵母细胞, “诱饵”表达载体转化a接合型细胞 然后分别铺筛选平板使细胞长成菌苔(lawn), 再将两种菌苔复印到同一个三重筛选平板上, 原则上只有诱饵和靶蛋白发生了相互作用的二倍体细胞才能在此平板上生长 单倍体细胞或虽然是二倍体细胞但DB融合蛋白和AD融合蛋白不相互作用的都被淘汰 长出来的克隆进一步通过β-半乳糖苷酶活力进行鉴定 这项改进不仅简化了实验操作, 而且也提高了双杂交的筛选效率 •反向酵母双杂交系统(reverse two-hybrid system)–引入URA3•酵母URA3基因表达产物是尿嘧啶合成所必需的,同时它又可催化5-氟乳清酸(5-FOA)转化为有毒物质•Vidal等构建了一酵母细胞株, 其URA3的表达由含GAL4结合位点的启动子严密控制此细胞株在缺乏尿嘧啶的培养基中培育需要GAL4激活结构域(GAD)和GAL4 DNA结合结构域(GBD)的融合蛋白的相互作用的表达而在含5-FOA的完全培养基中则受GAD和GBD融合蛋白相互作用的抑制因此可通过筛选5-FOA抗性克隆从随机突变库中鉴定阻断蛋白相互作用的突变体。
http://www.invitrogen.co.jp/gateway/img/twohybrid01.gif酵母双杂交系统的应用酵母双杂交系统的应用 •发现新的蛋白质和蛋白质的新功能发现新的蛋白质和蛋白质的新功能 •在细胞体内研究抗原和抗体的相互作用在细胞体内研究抗原和抗体的相互作用 •筛选药物的作用位点以及药物对蛋白质之筛选药物的作用位点以及药物对蛋白质之间相互作用的影响间相互作用的影响 •建立建立基因组基因组蛋白连锁图(蛋白连锁图(Genome Protein Linkage Map)) 蛋白相互作用图谱蛋白相互作用图谱Protein interaction map•A map showing the interactions between all or some of the proteins in a proteome•细菌和酵母的图谱多是由酵母双杂交试验获得的–新的方法:•根据:在一个生物种是一个蛋白分子,在另一个生物种分成了两个–yeast gene HIS2 :组氨酸生物合成–In E. coli :his2 and his10:相互作用提供了部分组氨酸生物合成功能 yeast protein Figure 7.27. Using homology analysis to deduce protein-protein interactions. The 5 region of the yeast HIS2 gene is homologous to Escherichia coli his2, and the 3 region is homologous to E. coli his10 。





