好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

应用生物信息学:微生物基因组.ppt

75页
  • 卖家[上传人]:汽***
  • 文档编号:592564993
  • 上传时间:2024-09-21
  • 文档格式:PPT
  • 文档大小:13.01MB
  • / 75 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 微生物基因组 课程内容大纲微生物基因组学研究的意义和发展历程微生物基因组学研究中常用的生物信息学软件和工具当前微生物基因组学的前沿热点——宏基因组学 微生物病毒细菌真菌(部分)原虫(部分) 病毒基因组的基本特征病毒的基因组很小(3~300 Kb)根据基因组的成分,可笼统的分为RNA病毒和DNA病毒,细分:n单链DNA病毒(细小病毒)n双链DNA病毒(痘病毒、腺病毒)n单正链RNA病毒(脊灰、肠道病毒、黄病毒…)n单负链RNA病毒(流感、狂犬、埃博拉……)n双链RNA病毒(轮状病毒)n单链RNA反转录病毒(HIV)n双链DNA反转录病毒(乙肝病毒) 病毒基因组研究的意义阐明病毒的复制和调控机理、研究病毒的致病机制、发现抗病毒的药物靶标、设计新型基因治疗载体以及发展病毒诊断技术研究病毒的变异和进化的基础,新发突发病毒性传染病监测、防控、预警的关键 病毒基因组学研究历程DNA测序技术的诞生与发展n1975年,Sanger双脱氧链终止法n1977年,Sanger研究组完成了第一个全基因组测序——ΦX174噬菌体(5,386 bp)n1982年, Sanger研究组完成了λ噬菌体基因组测序(48,502 bp)n1985年,加州理工学院的Hood等用四种荧光染料标记DNA的方法,建立了用自动测序技术n1987年,AB开发出了第一台自动测序仪n1990年,192kb的痘苗病毒全基因组完成 细菌基因组的特点及意义基因组较小(0.5~10Mb)多数为单条环状双链DNA基因组结构相对简单,编码密度较高(90%区域编码)编码基因无内含子可以实验室纯培养,可操作性强细菌是分子生物学研究和相关基础生物学研究的良好模式生物模式生物 微生物基因组计划MGP 微生物是地球上为数最多的有细胞生物,几乎可以在地球上的任何地方找到它们,包括许多极端环境,如高温、低温、放射性、高压、高盐、高酸碱、低照度等等1994年,美国能源部(DOE)提出了微生物基因组计划(MGP),希望能从微生物世界找到解决人类社会所面临的在能源、环境、卫生等方面许多难以克服的困难。

      MGP的主要目标和意义 通过微生物基因组计划,对微生物的全基因组进行序列测定和分析,可以深入的认识微生物与它们的生存环境的相互关系,研究它们的生化机制及代谢途径,从而实现如下目标:通过改变细菌基因组来提高它们的效用,可以在它们的基因组中引入能降解有毒化学废物的基因来实现在全球范围内清除有毒废物发展在制药工业中有用途的微生物来替代传统的制药技术 MGP的主要目标和意义开发新型可更新能源开发新型催化剂,反应剂,酶来提高传统工业的效率开发高效率致病菌检测技术,保证饮食安全,并对付潜在的生物战争的危险通过改造细菌基因组将其变成活的探测器来检测空气、水、土壤中的毒性化学物质理解致病菌损害人体细胞所采用的既特异又有共性的机制寻找它们绕过人体防御机制所需要的特殊基因,这些是开发新型抗体的理想靶点 微生物基因组学发展历程1995年,首个细菌完整基因组完成 (流感嗜血杆菌,1.8 Mb)1996年,首个真核生物完整基因组完成 (酿酒酵母,12 Mb)1997年,模式生物大肠杆菌K-12完整基因组完成 (4.6 Mb)……截至2018年11月27日,已有11,386个细菌完整基因组完成并公布 (数据来自GOLD) GOLD: Genomes Online Databasehttps://gold.jgi.doe.gov/ 基因组数据的增长来源:GOLD 细菌基因组数据来源:GOLD 我国的微生物基因组学伴随着人类基因组计划的1%任务的承担,上世纪九十年代末,我国建立了三大基因组中心:n国家人类基因组北方研究中心w痢疾杆菌n国家人类基因组南方研究中心w钩端螺旋体n华大基因组中心w腾冲嗜热菌L. interrogansT. tengcongensisS. flexneri 第一代测序技术Sanger测序法nBacterial cloning / PCRnTemplate purificationnChain termination methodnCapillary electrophoresisnFour-color fluorescence detectionn~800 bp/read; 384 reads/run—>人类基因组计划人类基因组计划 第二代测序技术Next generation sequencing (NGS)nRoche/454 (2005)w~400 bp/read, ~400 Mb/runnIllumina/Solexa (2007)w36-76 bp/read, 5-10 Gb/runnAB/SOLiD (2008)w35 bp/read, ~4 Gb/runnHelicos/HeliScope (2009)w25-55 bp/read, 30-40 Gb/run 新一代测序技术—小型化nRoche/454 GS Junior (2010)w~400 bp/read, ~40 Mb/runnIon Torrent/PGM (2010)w35-400 bp/read, 0.01-1 Gb/runnIllumina/MiSeq (2011)w36-250 bp/read, 0.5-5 Gb/runnIllumina/NextSeq (2014)w50-150 bp/read, ~50 Gb/runnIllumina/MiniSeq/iSeq … 新一代测序技术—大型nIon Protonw<200 bp/read, ~10 Gb/runnIllumina/HiSeq 2000/…/4000w35-150 bp/read, 20-800 Gb/runnIllumina/HiSeq X Tenw50-150 bp/read, ~1800 Gb/run (x10)nIllumina/NovaSeq 6000w50-150 bp/read, ~6000 Gb/run 第三代测序?Next-next generation / G3nSingle-molecule sequencing (SMS)nLong read length (1-10 kb?)nHigh data quality and fast runnLow cost ($1000 human genome?)Complete Genomics (DNB+cPAL)Pacific Biosciences (SMAT)Nanopore sequencing…… 课程内容大纲微生物基因组学研究的意义和发展历程微生物基因组学研究中常用的生物信息学软件和工具当前微生物基因组学的前沿热点——宏基因组学 细菌基因组学数据处理基因组组装(序列拼接)nPhred/Phrap/ConsednNewbler, Velvet/SOAPdenovo基因组基本注释nGLIMMER/GeneMark/ORF FindernBLAST, tRNAscan, RDP, Pfam/Rfam基因组序列的进一步分析nIS Finder, Tandem Repeats FindernACT/GenomeComp, BRIGnCOGs, KEGG/BioCyc 鸟枪法测序(shotgun)测序文库测序文库测序模板测序模板Sequencing reads随机打断CloningSanger测序二代测序二代测序细菌基因组细菌基因组 基因组组装过程ContigGapLowQualityRegionSingleStrandedRegionMisassemblyAssemblyFinishing (gap closure)High quality genome sequence: < 1 error/ 10,000 bases Lander-Waterman曲线这里c=LN/G,表示覆盖率,其中G是基因组长度,L是每个测序片断的平均长度,N是总测序反应的数目,σ是一个与两个重叠的reads之间重叠的最小长度相关的因子(图中取了σ=0.75 ) 细菌基因组拼接软件Sanger序列拼接nPhred/Phrap/ConsednSeqMan(DNAStar)/Sequencher454序列拼接nNewbler短序列拼接nSOAPdenovo ( (http://www.ebi.ac.uk/~zerbino/velvet/) Phred/Phrap/ConsedPhred/Phrap/Consed是美国华盛顿大学(University of Washington)的Phil Green等在1998年研发的免费免费软件包。

      它是早期一代测序序列组装工作中使用最为广泛的工具之一由三个核心部分组成:n负责Base Calling的软件——Phredn负责序列组装的软件——Phrapn基因组拼接可视化软件——Consedhttp://www.phrap.org/phredphrapconsed.html PhredPhred根据信号峰的间距,识别与未识别碱基的比率,及信号峰的分辨率来估计错误率(error-probabilities),从而对序列中的每一个数据(碱基)产生一个与之相对应的被广泛接受的质量控制标准(qulity value): Quality Value = -10 X log10 (P_e) (其中(其中P_e为错误率)为错误率)也就是说,Phred质量指标30就相当于在原始数据中每个Base Call的精确度为99.9% PhrapPhrap是一个用于将鸟枪法测序的原始序列拼接成Contig的软件它的核心算法是Smith-Waterman动态规划算法(Dynamic Programming Algorithm)它读取Phred产生出的序列和质量文件,产生出包含组装全部信息ace文件(可以被Consed软件读取)和view文件(可以被PhrapView软件读取)等一系列重要输出结果。

      Consed PhrapView Newbler (GS De Novo Assembler) 细菌基因组基本注释ORF的识别nGLIMMER/GeneMarknORF Finder蛋白质功能注释nBLAST + NR/RefSeq/UniProt/CMRnHMMER + PfamRNA的定位ntRNAscannBLAST + RDP/Rfam GLIMMER专门用于在微生物基因组中识别基因的软件,对于细菌(bacteria)和古细菌(archaea)特别有效基因定位和内插马尔可夫模型(Gene Locator and Interpolated Markov Modeler)下载本地(Linux)运行版本http://ccb.jhu.edu/software/glimmer/index.shtmlNCBI提供Web版本http://www.ncbi.nlm.nih.gov/genomes/MICROBES/glimmer_3.cgi GeneMarkhttp://opal.biology.gatech.edu/ ORF Finderhttp://www.ncbi.nlm.nih.gov/gorf/gorf.html 蛋白质功能注释BLAST-发现具有序列相似性的已注释蛋白NCBI提供的数据库nNR-非冗余蛋白数据库nRefSeq (http://www.ncbi.nlm.nih.gov/refseq/) UniProt数据库Universal Protein Resourcen2002年建立,由蛋白质数据库领域的三大巨头:SIB的Swiss-Prot数据库、EBI (European Bioinformatics Institute)的TrEMBL (Translated EMBL)数据库和NBRF (National Biomedical Research Foundation)的PIR (Protein Information Resource)数据库合并而成n目前国际上最全面的蛋白质信息资源库n提供文本检索、序列比对和下载等服务http://www.uniprot.org JCVI CMR数据库Comprehensive Microbial Resourcehttp://cmr.jcvi.org/J. Craig Venter 利用结构域信息进行注释Pfam蛋白质家族数据库n蛋白质多重序列比对和隐马尔可夫模型的一个大的集合,包含蛋白质结构域或蛋白保守区的多重比对信息n提供蛋白质结构、多重比对、蛋白质结构域构建和物种分布等信息n提供强大的搜索工具HMMER,包含分类搜索及结构域查询http://www.sanger.ac.uk/Software/Pfam/ RNA的定位转运RNA——tRNAscanhttp://selab.janelia.org/tRNAscan-SE/ (< 100 kb)核糖体RNA——BLAST + RDPhttp://rdp.cme.msu.edu/其他非编码RNA——Rfamhttp://rfam.sanger.ac.uk/ 基因组序列的进一步分析其他基因组元件分析nIS FindernTandem Repeats Finder (TRF)蛋白质功能分类和代谢网络nCOGsnKEGG/BioCyc基因组比较分析nArtemis Comparison Tool (ACT)nGenomeCompnBLAST Ring Image Generator (BRIG) IS FinderInsertion Sequence-插入序列元件https://www-is.biotoul.fr/ TRFTandem Repeats-串联重复序列 http://tandem.bu.edu/trf/trf.html COG功能分类数据库Clusters of Orthologous Groups蛋白质直系同源簇数据库是对66个单细胞生物完整基因组的编码蛋白,根据系统进化关系分类构建而成构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,即直系同源利用基于Web的COGnitor服务,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇http://www.ncbi.nlm.nih.gov/COG/ 代谢途径数据库KEGGKyoto Encyclopedia of Genes and GenomesPATHWAY数据库包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期等信息GENE数据库包括了完整和部分测序的基因组序列和注释信息LIGAND数据库包含关于化学物质、酶分子、酶反应等信息GENOME、ORTHOLOGY、KAAS……http://www.genome.jp/kegg/ 代谢途径数据库BioCyc采用SRI International公司的Pathway Tools软件,致力于代谢途径/基因组数据的收集整理目前包括了~3000个子数据库其中的MetaCyc子库是一个综合的参考数据库其它的每一个子库(例如EcoCyc)都包含了每一个基因组的代谢网络http://biocyc.org/ KEGG与BioCyc的比较 ACTArtemis Comparison Toolhttp://www.sanger.ac.uk/resources/software/act/WebACT (http://www.webact.org/) GenomeComp CGViewCircular Genome Viewerhttp://wishart.biology.ualberta.ca/cgview/ 微生物基因组相关资源Integrated Microbial Genomes (IMG)http://img.jgi.doe.gov/cgi-bin/w/main.cgiMicrobesOnlinehttp://microbesonline.org/ 课程内容大纲微生物基因组学研究的意义和发展历程微生物基因组学研究中常用的生物信息学软件和工具当前微生物基因组学的前沿热点——宏基因组学 宏基因组学(Metagenomics)The application of modern genomics techniques to the study of communities of microbial organisms directly in their natural environments, bypassing the need for isolation and lab cultivation of individual species (1998)Shotgun metagenomics (2004)nacid mine drainage system (Nature 428: 37)nSargasso Sea (Science 304: 66) 宏基因组学研究策略Nature Reviews Genetics (2005) 6, 805–814 宏基因组学相关研究增长 微生物组病原检测宏基因组学相关研究方向宏基因组 Microbiota - the ecological community of commensal, symbiotic and pathogenic microorganisms that literally share our body space (2001)Microbiota vs. Microbiome vs. Virome两大微生物组计划 (2008)nHuman Microbiome Project (HMP)nMetagenomics of the Human Intestinal Tract (MetaHIT)微生物组(microbiome) 人类微生物组计划n建立微生物基因组参考数据集n初步分析人体微生物组的特征n探索人类疾病与微生物组的关系n发展相关的实验技术和数据分析方法n建立微生物组数据资源中心n人体微生物组研究相关的社会、法律和伦理问题 人类微生物组计划 人类肠道宏基因组计划 人类肠道宏基因组计划 人类肠道宏基因组计划 微生物组研究方法Trends in Genetics 2013, 29:51-58 微生物组与人类健康 全球微生物组计划? 临床样本中发现新病原Nature Genetics (2008) 40, 380-382 发现一种皮肤癌相关的病毒 发现一种器官移植相关病毒 临床宏基因组研究的困境样本量低宿主污染缺乏对照 临床样本的宏基因组检测 宏基因组研究相关软件序列比对——快速nMAQ - Mapping and Assembly with QualitiesnBWA - Burrows-Wheeler Alignerhttp://bio-nBowtiehttp://bowtie-nSOAP - Short Oligonucleotide Analysis Package物种鉴别/分类nMEGAN MEGANMEtaGenome AnalyzernLCA (Lowest Common Ancestor)算法n数据的可视化http://ab.inf.uni-tuebingen.de/software/megan/ 联系方式 杨剑卫生部病原系统生物学重点实验室中国医学科学院病原生物学研究所北京经济技术开发区荣京东街6号602室邮编:100176:010-67875146Email: yangj@ 上机练习-任选两题查询GOLD数据库(https://gold.jgi.doe.gov/),目前已完成完整基因组和基因组草图的脑膜炎奈瑟氏菌(Neisseria meningitidis)分别有多少?(可利用已下载的goldData.xls)使用GeneMark (http://opal.biology.gatech.edu/)的启发式模型对给定的脑膜炎奈瑟氏菌基因组序列(NMC.fas)进行ORF预测,共预测出多少个ORF?请生成出ORF的蛋白序列。

      使用TRF服务器(http://tandem.bu.edu/trf/trf.html)对给定的脑膜炎奈瑟氏菌基因组序列(NMC.fas)进行串联重复序列分析在WebACT服务器(http://www.webact.org/)上生成脑膜炎奈瑟氏菌Z2491和MC58株的全基因组线性比较图,进一步尝试加入给定的脑膜炎奈瑟氏菌基因组序列(NMC.fas)进行全基因组比较分析在本地计算机安装MEGAN软件,打开给定的文件(megan_results4class.rma),计算细菌和病毒相关序列的百分比。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.