好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

基因组学数据分析(精选).ppt

75页
  • 卖家[上传人]:董**
  • 文档编号:269803773
  • 上传时间:2022-03-23
  • 文档格式:PPT
  • 文档大小:3.09MB
  • / 75 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 此课件下载后可自行编辑修改此课件下载后可自行编辑修改关注我关注我 每天分享干货每天分享干货基因组学数据分析基因组学数据分析(精选)实习一基因组数据注释和功能分析实习二核苷酸序列分析实习三芯片的基本数据处理和分析实习四蛋白质结构与功能分析实习五蛋白质组学数据分析实习六系统生物学软件实习课程内容基因组学转录物组学蛋白质组学系统生物学基因组学数据分析(精选)1. 通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理2. 介绍多序列联配工具ClustalX3. 分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法课程提纲基因组学数据分析(精选)序列比对的进化基础什么是序列比对:将两个或多个序列按照最佳匹配方式排列在一起对应的相同或相似的符号排列在同一列上错配与突变相应,空位与插入或缺失对应序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系通过判断两个序列之间的相似性来判定两者是否具有同源性 相似性:可以被数量化,如:序列之间相似部分的百分比 同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断基因组学数据分析(精选)BLAST 基本局部比对搜索工具(Basic Local Alignment Search Tool) NCBI上BLAST服务的网址: NCBI上BLAST程序的下载: /blast/executables/release/ NCBI的BLAST数据库下载网址:基因组学数据分析(精选)选择物种选择blast程序基因组学数据分析(精选)QuerySequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated基因组学数据分析(精选)程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系,进行SEG过滤blastnNucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列基因组学数据分析(精选)以Blastx为例:目标序列为ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC6个读码框翻译5端到3端第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到5端第一位起始:GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T基因组学数据分析(精选)基因组学数据分析(精选)与核酸相关的数据库与蛋白质相关的数据库基因组学数据分析(精选)选择数据库序列或目标序列的GI号以文件格式上传BlastN基因组学数据分析(精选)配对与错配空位罚分基因组学数据分析(精选)BlastP基因组学数据分析(精选)打分矩阵:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45PAM模型可用于寻找蛋白质的进化起源,而BLOSUM模型则用于发现蛋白质的保守域。

      基因组学数据分析(精选)选择打分矩阵(scoring matrix)The PAM familyBased on global alignmentsThe PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence.Other PAM matrices are extrapolated from PAM1.The BLOSUM familyBased on local alignments.BLOSUM62 is a matrix calculated from comparison s of sequences with no less than 62% divergence.All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.基因组学数据分析(精选)进行比对的数据库图形化结果基因组学数据分析(精选)E值(E-value)表示仅仅因为随机性造成获得这一 比对结果的可能性。

      这一数值越接近零,发生这一事件的可能性越小 基因组学数据分析(精选)基因组学数据分析(精选)上机实习1:网上运行blastx和blastn(NCBIblast网址:)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1. 对contig34进行网上blastn(演示),2. blastx(自行操作)比对基因组学数据分析(精选)本地运行BLAST 下载NCBI上blast程序: /blast/executables/release/ 安装(安装到C:) 数据库的格式化(formatdb) 程序运行(blastall)基因组学数据分析(精选)登陆NCBI的FTP下载blast程序基因组学数据分析(精选)双击安装到C盘产生三个文件夹bindatadoc将数据库文件(db)及目标序列文件(in)保存在Blast/bin文件夹下bin含可执行程序(将数据库及需要比对操作的数据放入该文件);data文件夹含打分矩阵及演示例子的序列数据信息;doc文件夹含关于各子程序的说明文档。

      基因组学数据分析(精选)本地数据库的构建查看db文件由fasta格式的序列组成基因组学数据分析(精选)数据库的格式化formatdb命令用于数据库的格式化:formatdb option1 option2 option3formatdb常用参数-i database_name 需要格式化的数据库名称-p TF 待格式化数据库的序列类型(核苷酸选F;蛋白质选T;默认值为T)例:formatdb -i db -p T对蛋白质数据库“db”进行格式化基因组学数据分析(精选)程序运行blastall命令用于运行五个blast子程序:blastall option1 option2 option3*可在dos下输入blastall查看各个参数的意义及使用blastall常用参数 四个必需参数-p program_name,程序名,根据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称,比对完成格式化的数据库;-i input_file,搜索文件名称;-o output_file,BLAST结果文件名称; 两个常用参数-e expectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5;-m alignment view options:比对显示选项,其具体的说明可以用以下的比对实例说明例:blastall -p blastx -d db -i in -o out -e 2e-5 -m 9 (表格显示比对结果)采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件基因组学数据分析(精选)上机实习2:本地运行blastx 进入DOS命令行提示符状态(“运行”cmd) 进入C盘“cd” 进入包含序列数据的bin目录下“cd blastbin” 察看目录下内容“dir” 格式化数据库db“formatdb -i db -p T” 运行blastx “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ” 察看结果“more out ”或在 win。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.