好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第三讲第二章Internet的核酸数据库资源.ppt

108页
  • 卖家[上传人]:M****1
  • 文档编号:592276577
  • 上传时间:2024-09-20
  • 文档格式:PPT
  • 文档大小:6.70MB
  • / 108 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • Internet的核酸数据库资源生物信息学系王珍珍第二章第二章1 分子生物学信息数据库分子生物学信息数据库1.核酸和蛋白质一级结构序列数据库核酸和蛋白质一级结构序列数据库2.基因组数据库基因组数据库3.生物大分子三维空间结构数据库生物大分子三维空间结构数据库4.上述三类数据库和文献资料为基础构建的二上述三类数据库和文献资料为基础构建的二级数据库级数据库2 第一节第一节 核苷酸一级结构序列数据库核苷酸一级结构序列数据库Ø GenBank,,DDBJ,,and EMBL是当前最全面、规模是当前最全面、规模最大的公共核酸数据库,收录了所有已知的核酸序列最大的公共核酸数据库,收录了所有已知的核酸序列Ø这这3个中心都可以独立地接受数据提交,而个中心都可以独立地接受数据提交,而3个中心之个中心之间则逐日交换信息,并制成相同的充分详细的数据库间则逐日交换信息,并制成相同的充分详细的数据库向公众开放向公众开放Ø在这里以在这里以 GenBank为例做详细介绍为例做详细介绍 3 一、一、 GenBank数据库数据库(一) GenBank的创建及维护1.创建于1982年,迅速发展于20世纪90年代2.1988年美国成立国立生物技术信息中心(NCBI)3.1992,NCBI承担起对GenBank  DNA序列数据库的维护责任 。

      4 (二) GenBank的数据类型及来源Ø数据类型数据类型1. 任意长度的任意长度的cDNA片段片段2.单个外显子单个外显子3.完整的完整的cDNA4.任意的基因片段,以致于包涵多个基因的片段任意的基因片段,以致于包涵多个基因的片段Ø数据来源数据来源1.个人或大规模测序中心直接递交的数据个人或大规模测序中心直接递交的数据2.通过美国专利和商标局收集注册专利的序列信息通过美国专利和商标局收集注册专利的序列信息 3.GenBank员工对员工对3400中杂志进行检索中杂志进行检索4.与与EMBL,DDBJ等大型数据库每日相互更新等大型数据库每日相互更新 一、一、 GenBank数据库数据库5 nGenBank每条数据包含对序列的精确描述,序列来源生物的科学名称及树状分 类,以及特征数据栏,提供序列的蛋白编码区和具有特殊生物学意义的位点,如转录 单位(transcription units)、突变或修饰位点(sites of mutationsor modifications)及重复序列(repeats),还提供特定序列编码的蛋白质序列参考文献还给出其在MEDLINE上的特定标识号6 网址:http://www.ncbi.nlm.nih.gov/Genbank/7 数据检索8 9 10 11 12 13 (三) GenBank数据库的结构14 (三) GenBank数据库的结构15 1.EST数据库n分子生物学的中心法则就是指生物信息从DNA到RNA再到蛋白质,它构成了整个分子生物学的基础, 反转录16 1.- 表达序列标签,短的、单次(测序)阅读的cDNA序列。

      也包括来自于差异显示和RACE实验的cDNA序列2.长度经常介于200bp到500bp之间 1.EST数据库17 nhttp://www.ncbi.nlm.nih.gov/dbEST/index.html18 数据的提交n数据的提交n网址:http://www.ncbi.nlm.nih.gov/BankIt/19 t20 21 22 23 24 25 26 27 数据的访问形式1.访问GenBank - 通过Entrez Nucleotides来查询用accession number,作者姓名,物种,基因/蛋白名字,还有许多其他的文本术语来查询关于Entrez更多的信息请看下文2.另外一种选择是可以用FTP下载整个的GenBank和更新数据3.用BLAST来在GenBank和其他数据库中进行序列相似搜索用E-mail来访问Entrez和BLAST可以通过Query和BLAST服务器28 1.通过Entrez Nucleotides来查询29 30 31 32 2.通过ftp来访问dbESTftp://ftp.ncbi.gov/repository/dbEST33 34 The following files are stored in this repository:35 dbEST的数据格式ndbEST的数据格式ngi number (genInfor identifier)是一个唯一标识一个特别序列的整数,每次当序列发生改变时gi编号将发生改变。

      n但是对应的EST的名字不一定会发生改变36 The following subdirectories exist:37 nGenBank普通文件格式 — 参见GenBank记录样本和在GenBank公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据  nASN.1格式 — 摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告和日常积累或非积累更新数据 nFASTA格式 — 定义行号后只跟随序列数据(示例), FASTA格式38 nFasta格式是一种相当标准的符合生物信息学的输出,很容易读取 nFASTA格式第一行是描述行,第一个字符必须是“>”字符;随后的行是序列本身,一般每行序列不要超过80个字符,回车符不会影响程序对序列连续性的看法序列由标准的IUB/IUPAC氨基酸和核酸代码代表;小写字符会全部转换成大写;单个“-”号代表不明长度的空位;在氨基酸序列里允许出现“U”和“*”号;任何数字都应该被去掉或换成字母(如,不明核酸用“N”,不明氨基酸用“X”) nFASTA格式是通常被用于序列比对的标准格式FASTA格式39 nFASTA格式n>gi|120475024|gb|DV935719.1|DV935719 ART1 Lycopersicon esculentum cDNA Solanum lycopersicum cDNA, mRNA sequencenTCGAAACTTTTCAGTGATAAAAAGCTTGAGAGAAAGTGAAAATCTACAGGTAAAAGATGACACTGFASTA格式40 n我如何将一条序列以Fasta格式输出? nFasta格式是一种相当标准的符合生物信息学的输出,很容易读取。

      Biojava中有一个SeqIOTools的类提供很多方便的静态方法,能够完成很多通用的符合生物信息学的输入输出任务下面的例子展示如何将一条序列甚至整个SequenceDB以Fasta格式输出到一个输出流如System.out中 FASTA格式数据的应用41 nSeqnConverter 3.0n将不同格式的序列文件转换成FASTA格式软件 FASTA格式数据的应用42 n1  转换多个文本文档中的序列为转换多个文本文档中的序列为 FASTA 格式:格式:所测序列保存在文本文档中,而且每个文档中只有一条序列,该功能可将其转换为通用格式——FASTA格式,并将这些分散到多个文档中的序列合并到一个文本文档中,以便于操作n2  提取多个文本文档中的提取多个文本文档中的 ncbi BLAST 结果:结果:将Blast结果中Score值最高的同源基因信息保存在一个文本文档中,每个文本文档只保存一条同源基因的信息然后,提取关键信息项(gi号、注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand、function、product、chromosome)。

      n3  提取一个文本文档中的提取一个文本文档中的 ncbi BLAST 结果:结果:从保存于一个文本文档里的批量Blast结果中选出Score值最高的同源基因信息,然后,提取关键信息项(注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand)n4  从总序列文件库中提取目标序列:从总序列文件库中提取目标序列:只需要目标序列的文件名列表文件(不包括扩展名的文本文档),可一次性自动地将这些条件序列从的所有查询序列文本文档库中提取出来n应用实例FASTA格式数据的应用43 The following subdirectories exist:44 nDailyreportn拟南芥The following subdirectories exist:45 The following subdirectories exist:46 nBcp    readmeThe following subdirectories exist:47 GenBank数据格式详解48 (1)LOCUS 表示的是序列在本数据库中的名称,它包含了此序列的功能信息     “6905121 bp”表示序列长度    “mRNA”代表本记录是一个RNA分子,(2)DEFINITION,在一个检索结果中列出的通常就是这一栏目的信息。

      包含了对此序列简单而又明确的解释3)ACCESSION,序列收录号它是数据库中序列永久性的编号,对于同一序列在所有的核酸数据库中,它都是统一的   … ...49 1.基本概念   相似性,同源性2.Blast介绍     Blast资源和相关问题3.Blast的应用   网络版  单机版4.深入了解Blast(改进程序,算法基础)5.其他的序列相似性搜索工具(fasta)3.用BLAST来在数据库中进行序列相似搜索50 生物序列的相似性相似性:相似性:  是指一种很直接的数量关系数量关系,比如部分相同或相似的百分比或其它一些合适的度量比如说,A序列和B序列的相似性是80%,或者4/5这是个量化的关系当然可进行自身局部比较51 同源性:同源性:     指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断质的判断就是说A和B的关系上,只有是同源序列,或者非同源序列两种关系而说A和B的同源性为80%都是不科学的生物序列的同源性52 相似性和同源性关系序列的相似性和序列的同源性有一定的关系,一般来说序列间的相似性越高的话,它们是同源序序列间的相似性越高的话,它们是同源序列的可能性就更高列的可能性就更高,所以经常可以通过序列的相似性来推测序列是否同源。

      正因为存在这样的关系,很多时候对序列的相似性和同源性就没有做很明显的区分,造成经常等价混用两个名词所以有出现A序列和B序列的同源性为80%一说53 序列相似性比较和序列相似性比较和序列同源性分析序列同源性分析序列相似性比较:序列相似性比较:       就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么完成这一工作只需要使用两两序列比较算法常用的程序包有BLAST、、FASTA等;序列同源性分析:序列同源性分析:     是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小这是理论分析方法中最关键的一步完成这一工作必须使用多序列比较算法常用的程序包有CLUSTAL等;54 Blast简介(一)     BLAST 是由美国国立生物技术信息中心是由美国国立生物技术信息中心((NCBI))开发的一个基于开发的一个基于序列相似性序列相似性的数据库搜索程的数据库搜索程序      BLAST是是“局部相似性基本查询工具局部相似性基本查询工具”(Basic Local Alignment Search Tool)的的 缩写。

      缩写55      Blast 是一个序列相似性搜索的程序包,其中是一个序列相似性搜索的程序包,其中包含了很多个独立的程序,这些程序是根据查包含了很多个独立的程序,这些程序是根据查询的对象和数据库的不同来定义的比如说查询的对象和数据库的不同来定义的比如说查询的序列为核酸,查询数据库亦为核酸序列数询的序列为核酸,查询数据库亦为核酸序列数据库,那么就应该选择据库,那么就应该选择blastn程序下表列出了主要的下表列出了主要的blast程序Blast简介(二)56 主要的blast程序程序名程序名查询序列序列数据数据库搜索方法搜索方法Blastn核酸核酸核酸核酸核酸序列搜索逐一核酸数据核酸序列搜索逐一核酸数据库中的序列中的序列Blastp蛋白蛋白质蛋白蛋白质蛋白蛋白质序列搜索逐一蛋白序列搜索逐一蛋白质数据数据库中的序列中的序列Blastx核酸核酸蛋白蛋白质核酸序列核酸序列6框翻框翻译成蛋白成蛋白质序列后和蛋白序列后和蛋白质数数据据库中的序列逐一搜索中的序列逐一搜索Tblastn蛋白蛋白质核酸核酸蛋白蛋白质序列和核酸数据序列和核酸数据库中的核酸序列中的核酸序列6框翻框翻译后的蛋白后的蛋白质序列逐一比序列逐一比对。

      TBlastx核酸核酸核酸核酸核酸序列核酸序列6框翻框翻译成蛋白成蛋白质序列,再和核酸数序列,再和核酸数据据库中的核酸序列中的核酸序列6框翻框翻译成的蛋白成的蛋白质序列序列逐一逐一进行比行比对57 Blast相关的问题n怎么获得blast服务,怎么使用的问题?n为什么使用blast,可以获得什么样的信息?n其他问题:实际使用时选择哪种方式(网络,本地化),参数的选择,结果的解释…58 Blast资源1.NCBI主站点:    http://www.ncbi.nlm.nih.gov/BLAST/(网络版)    ftp://ftp.ncbi.nlm.nih.gov/blast/ (单机版)2.其他站点:    http://nema.cap.ed.ac.uk/ncbi_blast.html   http://www.fruitfly.org/blast/(果蝇)  …59 Blast结果给出的信息     Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果,根据这些结果可以获取以下一些信息1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某种功能基因的同源基因…这些信息都可以应用到后续分析中。

      60 两种版本的Blast比较(一)n网络版本    包括NCBI在内的很多网站都提供了的blast服务,这也是我们最经常用到的blast服务网络版本的blast服务就有方便,容易操作,数据库同步更新等优点但是缺点是不利于操作大批量的数据,同时也不能自己定义搜索的数据库61 n单机版  单机版的blast可以通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,dos等)获得程序的同时必须获取相应的数据库才能在本地进行blast分析单机版的优点是可以处理大批的数据,可以自己定义数据库,但是需要耗费本地机的大量资源,此外操作也没有网络版直观、方便,需要一定的计算机操作水平两种版本的Blast比较(二)62 NCBI提供的Blast服务登陆ncbi的blast主页核酸序列蛋白序列翻译序列底下有其他一些针对特殊数据库的和查看以往的比对结果等63 Blast任务提交表单(一)1.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索64 Blast任务提交表单(二)设置搜索的范围,entrez关键词,或者选择特定物种2.设置各种参数部分一些过滤选项,包括简单重复序列,人类基因组中的重复序列等E值上限窗口大小如果你对blast的命令行选项熟悉的话,可以在这里加入更多的参数65 Blast任务提交表单(三)3.设置结果输出显示格式选择需要显示的选项以及显示的文件格式显示数目Alignment的显示方式筛选结果E值范围其他一些显示格式参数点击开始搜索66 提交任务返回查询号(request id)可以修改显示结果格式修改完显示格式后点击进入结果界面67 结果页面(一)图形示意结果68 结果页面(二)目标序列描述部分带有genbank的链接,点击可以进入相应的genbank序列匹配情况,分值,e值69 结果页面(三)详细的比对上的序列的排列情况70 一个具体的例子(blastp)假设以下为一未知蛋白序列>query_seq MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQDLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADST QA    我们通过blast搜索来获取一些这个序列的信息。

      71 具体步骤1.登陆blast主页 http://www.ncbi.nlm.nih.gov/BLAST/2.根据数据类型,选择合适的程序3.填写表单信息4.提交任务5.查看和分析结果72 分析过程(一)1.登陆ncbi的blast主页2.选择程序,因为查询序列是蛋白序列可以选择blastp,点击进入也可以选择tblastn作为演示,我们这里选blastp73 分析过程(二)3.填入序列(copy+paste)Fasta格式,或者纯序列4.选择搜索区域,这里我们要搜索整个序列,不填5.选择搜索数据库,这里我们选nr(非冗余的蛋白序列库)是否搜索保守区域数据库(cdd),蛋白序列搜索才有我们选上74 分析过程(三)6.限制条件,我们限制在病毒里面找7.其他选项保持默认值打分矩阵75 分析过程(四)8.输出格式选项保持默认值9.点击开始搜索76 分析过程(五)10.查询序列的一些相关信息在cdd库里面找到两个保守区域,点击可以进入77 分析过程(六)图形结果78 分析过程(七)匹配序列列表79 分析过程(八)具体匹配情况80 为什么使用单机版的Blast?1.特殊的数据库要求2.涉及序列的隐私与价值。

      3.批量处理4.其他原因??单机版的Blast使用(一)81 单机版Blast的基本操作过程1.下载单机版的Blast程序ftp://ftp.ncbi.nlm.nih.gov/blast/executables/目录下,下载对应的操作系统版本2.解压程序包(blast.tar.gz)命令是:$ tar zxvf blast.tar.gz单机版的Blast使用(二)82 3.获取Blast数据库a.直接从ncbi下载ftp://ftp.ncbi.nlm.nih.gov/blast/db/b.用Blast程序包提供的formatdb工具自己格式化序列数据成数据库假设有一序列数据(sequence.fa,多序列,fasta格式),欲自己做成Blast数据库,典型的命令如下:单机版的Blast使用(三)83 核酸序列:$ ./formatdb –i sequence.fa –p F –o T/F –n db_name蛋白序列:$ ./formatdb –i sequence.fa –p T –o T/F –n db_name单机版的Blast使用(四)84 4.执行Blast比对获得了单机版的Blast程序,解压开以后,如果有了相应的数据库(db),那么就可以开始执行Blast分析了。

      单机版的Blast程序包,把基本的blast分析,包括blastn,blastp,blastx等都整合到了blastall一个程序里面单机版的Blast使用(五)85 以下是一个典型的blastn分析命令:(待分析序列seq.fa,数据库nt_db)$./blastall –p blastn –i seq.fa  -d nt_db –w 7 –e 10 –o                   程序名            输入             数据库     窗口     e值   输出seq.blastn.out 该命令的意思是,对seq.fa文件中的核酸序列对nt_db数据库执行blastn搜索,窗口大小是7,e值限制是10,输出的结果保存到文件seq.blastn.out 中单机版的Blast使用(六)86 5.Blastall的常用参数-p 程序名应该是blastn,blastp,blastx,tblastn,tblastx中的一个-d 数据库名称,默认nr-i 查询序列文件,默认stdin-e E值限制,默认10-o 结果输出文件,默认stdout-F 过滤选项,默认T单机版的Blast使用(七)87 进一步深入Blast1.blast22.Megablast3.Psi-blast4.其他(rpsblast,blastclust等)88 Blast2           两个序列的blast比对,给定两个序列,相互进行blast比对。

      能快速检查两个序列是否存在相似性片断或者是否一致这比起全序列比对要快很多89 Megablast nmegablast采用了贪婪算法(greedy algorithm),它连接了多个查询序列进行一次搜索比对,这样节省了很多搜索数据库的时间主要针对核酸序列是blast经过优化后,适用于由于测序或者其他原因形成的轻微的差别的序列之间的比较,比一般的相似性搜索程序要快10倍,可以很快的完成两组大数据的比对90 PSI-blast    Position specific iterative BLAST (PSI-BLAST) 位点特异的迭代blast搜索,主要针对蛋白序列第一次blast搜索后,结果中最相似的序列重新构建PSSM (位点特异性打分矩阵),然后再使用该矩阵进行第二轮blast搜索,再调整矩阵,搜索,如此迭代       最终高度保守的区域就会得到比较高的分值,而不保守的区域则分数降低,趋近0     这样可以提高提高blast搜索的灵敏度搜索的灵敏度91 Blast的算法基础n基本思想是:通过产生数量更少的但质量更好的增强点来提高速度nBALST算法是建立在严格的统计学的基础之上的。

      它集中于发现具有较高的相似性的局部比对,且局部比对中不能含有空位(blast2.0引入了允许插入gap的算法)n由于局部比对的限制条件,在大多数情况下比对会 被 分 解 为 若 干 个 明 显 的 HSP(High-score Sequence Pairs)92 Blast的算法流程93 其他的序列相似性搜索工具 -fasta FastA算法是由Lipman和Pearson于1985年发表的(Lipman和Pearson,1985)FastA的基本思路是识别识别与代查序列相匹配的很短的序列片段与代查序列相匹配的很短的序列片段,称为k-tuple以下链接是EBI提供的fasta服务 http://www.ebi.ac.uk/fasta33/ 94 帮助信息各个参数选项填入搜索序列95 n基本思想是:一个能够揭示出真实的序列关系的比对至少包含一个两个序列都拥有的字(片断),把查询序列中的所用字编成索引,然后在数据库搜索时查询这些索引,以检索出可能的匹配,这样那些命中的字很快被鉴定出来FASTA算法基础96 注意…nFASTA对DNA序列搜索的结果要比对蛋白质序列搜索的结果更敏感。

      它对数据库的每一次搜索都只有一个最佳的比对,一些有意义的比对可能被错过 97 两个保守区域的信息返回98 作业 (一)1.使用entrez获取登录号为P26374的蛋白序列,然后通过blastp,搜索nr库中最相似的10个序列(只显示10个最相似的序列)2. 获取M25113序列,blastp搜索SwissProt 库中的相似序列3. 获取P03958序列,进行psi-blast搜索,看看结果和blastp搜索有什么不同   99 4.序列U93237,blastn搜索人类的est库,5.通过entrez随机获取一个蛋白激酶(protein kinase)的序列(核酸序列),然后通过blastn搜索该序列的同源序列作业 (二)100 1. GSS数据库1.GSS(Genome Survery Sequence)101 102 103 104 105 106 107 108 。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.