好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

华中农业大学生物信息学讲义.pdf

10页
  • 卖家[上传人]:f****u
  • 文档编号:115909743
  • 上传时间:2019-11-15
  • 文档格式:PDF
  • 文档大小:289.53KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 生物信息学 2005 生物信息学 2005 - 1 - 生物信息学 王石平 (华中农业大学生命科学技术学院) 2005.2.23 211.69.135.104/bio-informatics.files/bio-infor.htm www.bio.cam.ac.uk/Embnetut/Gcg/index.htm 一、数据库一、数据库 1.核苷酸数据库1.核苷酸数据库 GenBank 、EMBL 、DDBJ(在使用方法和连接的数据库上有差异,但数据量相同 ) 注:氨基酸序列是非试验来源,为推倒的结果使用时要谨慎! ! ! ! ) (1)GenBank(NCBI)(1)GenBank(NCBI)数据解释 http://www.ncbi.nlm.nih.gov/ 注:Display 中选 FASTA 形式,显示原始的核苷酸数据,便于复制 每条序列的 3 种编号 (identifier) 无意义) 定义(描述) 版本 X.Y 1.位点名(基本 2.注册号 3.Geninfor identifier(GI 号) 6 位 ( X12345 ) 或 8 位 数 字 (XY123456) ;例外:自编号(一般 为基因组序列) 物种类型 一般与 Accession NO.相同 ( 今 6 位型:属+种+X12345 8 位型:与 AC 相同 10 位数:早期 8 位数:现 注: NID(Nucleotide ID) 1999.12 取消,改用 序列的数据可以更改,GI 号、 NID 号变化,但 AC 号不变。

      GI 号 Coding sequence 谨慎使用!谨慎使用! !! !! ! ! 最后一条 Reference序列提交 者的文章 为 可以知道这一基因的 研究历史,便于研究 生物信息学 2005 生物信息学 2005 - 2 - (2)dbEST (2)dbEST EST 来源于 mRNA -基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知) -5’端或 3’端的 cDNA 序列(EST) -300-400bp single-pass sequence (可能有误,如果要求2kb) 更新快! ! !更新快! ! ! http://www.ncbi.nlm.nih.gov/HTGS/ (7)dbSNP (7)dbSNP 每 100-300bp 有一个 SNP http://www.ncbi.nlm.nih.gov/SNP/ (8)EMBL(8)EMBL http://www.ebi.ac.uk/embl/ (9)DDBJ(9)DDBJ http://www.ddbj.nig.ac.jp/ (10)EPD (Eukaryotic Promoter Database)(10)EPD (Eukaryotic Promoter Database) 启动子数据库启动子数据库 http://www.genome.jp/dbget/dbget2.html 2.蛋白质数据库 (1)SWISS-PROT (1)SWISS-PROT http://us.expasy.org/sprot/ 有详细的注释序列;与 44 个数据库相互参照(cross-reference) (2)TrEMBL (translation of EMBL) (2)TrEMBL (translation of EMBL) (3)PIR (Promoter information resource) (3)PIR (Promoter information resource) http://www-nbrf.georgetown.edu/pir/ 表明了结构域 (4)PRF (Promoter research foundation) (4)PRF (Promoter research foundation) http://www4.prf.or.jp/ (5)PDBSTR (Re-organized Protein data Bank) (5)PDBSTR (Re-organized Protein data Bank) http://us.expasy.org/sprot/prosite.html 蛋白质的二级结构、α-碳位置 (6)Prosite (6)Prosite 蛋白质家族、结构域 http://us.expasy.org/prosite/ 生物信息学 2005 生物信息学 2005 - 3 - 3.结构数据库 3.结构数据库 (1)PDB (Protein Data Bank) (1)PDB (Protein Data Bank) http://www.rcsb.org/pdb/ (2) NDB (Nucleic Acid Database) (2) NDB (Nucleic Acid Database) http://ndbserver.rutgers.edu/NDB/ndb.html (3)DNA-bind Protein database (3)DNA-bind Protein database http://ndbserver.rutgers.edu/NDB/structure-finder/protein/index.html (4)swiss-3D IMAGE (4)swiss-3D IMAGE http://www.expasy.ch/sw3d/ 4.酶和代谢数据库 4.酶和代谢数据库 (1)KEGG (Kyoto Eneyclopedin of genes SNP; Gene; Homologene; UniSTS; ProSet 生物信息学 2005 生物信息学 2005 - 4 - 2、Protein sequence database(1) Proteins 3、Structure database(4) Structure; PubChem; Compound; 3D-Domain; CDD 4、Taxonomy database(1) Taxonomy 5、Genome database(2) Genomes; Genome Project 6、Expression database(4) UniGene; GEO Profiles; GEO database;GENSAT 注:数据库来源于 mRNA-cDNA-protein(更确切) 7、Literature database(7) PubMed(文摘); PubMed central(全文); Books; OMIM; Journals; NLM catalog; MeSH 8、Others PubChem substance; Cancer chromosome; PubChem BioAssay; SiteSearch 检索方法:a、数据库间的检索 b、选择数据库 (可以限定检索内容和时间范围) (2)SRS (Sequence Retrieval System)(2)SRS (Sequence Retrieval System) http://srs.ebi.ac.uk/ 有不同的版本,可以下载。

      EBI 优点:检索面宽 缺点:检索复杂 17 大类 194 个数据库与 SRS 体系相连 检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索 ) b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索 ) (3)DBGET (3)DBGET http://www.genome.jp/dbget/dbget2.html 优点:与 KEGG 相连,操作较 SRS 简单 缺点:检索面较窄 检索方法:a、Basic search b、Advanced search 三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching 三、核苷酸和蛋白质序列为基础的数据库检索 Sequence-based database searching 1、序列对位排列(sequence alignment) 2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入 或缺失、序列延长、序列定位、基因表达谱分析) 3、序列对位排列分析种类 a、序列对库对位排列分析 (从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库) b、两序(多序列)列对位排列分析 (一)序列对位排列分析的基本原理 (一)序列对位排列分析的基本原理 1、记分矩阵(scoring matrix) a、蛋白质序列对位排列分析记分复杂 b、一致氨基酸记分不同 稀有氨基酸分值高,普通氨基酸分值低 c、相似氨基酸也积分,如 D-E 用“+”表示氨基酸残基性质相似 2、空位(间隔)罚分(gap penalty) 基因进化过程中产生突变(插入、缺失) 序列对位排列分析是允许插入空位 空位罚分涉及两个参数:空位开放(gap opening) 空位延伸(gap extension) (二)序列对库对位排列分析 (二)序列对库对位排列分析 对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同 源序列 主要检索体系:BLAST、FASTA、Blitz 生物信息学 2005 生物信息学 2005 - 5 - 1、基本概念 a、sequence identity 两序列在同一位点核苷酸或氨基酸残基完全相同 sequence similarity(or opositive) 两序列在同一位点核苷酸或氨基酸残基化学性质相似 b、Global alignment 完整的序列比较 Local alignment 两序列相似程度最高的片断相比较 c、Gapped alignment 为达到最佳 alignment 序列中加入空位 Ungapped alignment 相比较的核苷酸或氨基酸残基连续 d、Alignment score 衡量两相比序列相似程度的标准 E (expect) value 期望得到的,完全由机会造成的,相当于或大于目前分值的 alignment 次 数 Raw score 原始分,分值较大,两个比较序列相似性程度较大 Bit score 采用统计学方法以原始分为基础计算 E=10 ;表示方法 5e-46=5×10-46 E越小越好 可以接受的标准:E=10-5 (重叠位置40bp;identity94%;远大于杂交标准) E=10-30 基因组分析,功能与序列中相似 E 取决于 alignment 分值,相比较序列的长短和库中数据数量 e、Low-complexity alignment region(LCR) 核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如 polyA) 数据库中半数以上的序列至少带有一处 LCR 序列 alignment 应避免 LCR 相互配对得分 BLAST 用 Filter 功能避免比较 LCR 用 X 和 N 分别代表 LCR 中的每个氨基酸残基和核苷酸 2、BLAST(Basic Local Alignment Search Tool)2、BLAST(Basic Local Alignment Search Tool) (1) Nucleiotide Blast (Blastn) (2) Protein Blast (Blastp、PSI blast、PHI blast;Conserved domain (rpsblast) (3) Translated blast (blastx;tblstn;tblsatx) (4) Special Blast (Blast 2 sequence;bl2seq;VecScreen) BLAST program Blastn 用核苷酸序列检索核苷酸库 BlastP 用氨基酸序列检索蛋白质库 Blastx 用核苷酸序。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.