
生物信息学常用工具,作用及操作流程.docx
5页生物信息学常用工具,作用及操作流程 用于分析DNA、RNA以及蛋白质一级结构 1、VecScreen用于分析未知序列的长度、载体序列的区域、判断可能使用的克隆载体 操作过程:NCBI→Resource List (A-Z)→V→VecScreen→输入序列→Run VecScreen→获得结果 2、RepeatMasker用于分析未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence 操作流程: RepeatMasker Home Page→RepeatMasking→输入文本→选择参数→submit sequence→Results→选择所需结果 3、使用CpGPlot工具,分析未知序列的CpG岛的长度、区域、GC数量及Obs/Exp 值 EMBL→service→Search “cpg”→EMBOSS cpgplot→输入序列→选择参数→submit→得到结果 4、Neural Network Promoter Prediction和Splice Site Prediction用于预测未知序列的启动子,获得可能的启动子序列及相应的位置。
Neural Network Promoter Prediction BDGP: Home→Analysis Tools→Promoter Prediction→输入序列→选择参数→submit →得到结果 Splice Site Prediction Splice Site Prediction→输入序列→选择参数(物种)→submit→得到结果 这两个都是bdgp里边的,sp这个直接能进去操作 5、ORF finder用于分析未知序列开放阅读框的预测,寻找潜在的蛋白质编码片段,并进行六框翻译(概念性翻译) 操作流程 NCBI→Resource List (A-Z)→ORF finder→输入序列→选择参数→submit→获得结果→选择符合要求的形式的结果 6、GENSCAN,用于未知序列综合分析,预测来自各种生物的基因组序列中基因的位置和外显子结构,并对其进行概念性翻译同时可以获得未知序列的长度以及C+G含量首先确定给定序列的物种来源) 操作流程: GENSCAN→输入序列→选择参数→Run GENSCAN→得到结果 7、REBASE是限制性内切酶数据库,用于分析限制性核酸内酶的Recognition Sequence和Type(识别序列和酶切类型)。
Official REBASE Homepage→输入酶的名字→GO→得到结果 8、NEBcutter V2.0用于分析实验序列的可能酶切位点,选择合适的酶进行消化分析,获得虚拟凝胶电泳图 NEBcutter V2.0→输入序列→选择参数→submit→得到酶切结果 Custom digest→选择合适的酶→digest→得到结果→ View gel→选择参数→ok→的到结果 9、Genefisher和Primer 3.0是引物设计工具,能够根据实验要求设定参数,针对未知序列设计符合实验要求的引物 Genefisher运行不了 Primer 3.0 Primer3 Input→输入序列→选择参数→pick primers→得到结果→选择符合要求的引物 蛋白质操作都是在ExPASy中进行的 ExPASy→proteomics→Ctrl+F→搜索(要用的工具)→输入(蛋白质)序列→选 择参数→(submit)运行 1、Compute pI/MW程序预测蛋白质的分子量及等电点无参数click here to compute pI/MW) 2、ProtParam 分析蛋白质的基本物理化学性质。
相对分子质量、理论pI值、氨基酸组成信息、原子组成、消光系数、半衰期、不稳定系数以及总平均亲水性等)(无参数、compute parameters) 3、ProtScale 用于分析蛋白质的亲水性和疏水性,获得亲疏性图谱,确定其疏水亲水区域的大致范围 4、PeptideMass 用于分析蛋白质酶切和化学试剂处理后的内切产物.(选择指定的酶、参数默认、perform) 5、Signa lP用于分析蛋白质是否存在信号肽,以及其切割位点选择相应的参数) 6、SOPMA用于预测蛋白质二级结构输入物种、选择二级结构类型) 1、VRT:分类码 2、数据库的特征:可检索、定时更新、数据库间可交叉链接引用 3、世界三大数据库:NCBI EMBL DDBJ 4、数据库格式:文字说明、序列(fasta格式> ,文字说明,序列) 5、数据库条目:描述符、主序列本身、序列特征的生物信息的注释 GenBank数据库的数据来源:直接来源于测序工作者提交的序列、与其它数据机构协作交换的数据、美国专利局提供的专利数据 2022年,PIR、SIR、EBI合并了分属旗下的PIR-PSD、Swiss-prot 和TrEMBL数据库,形成了统一的蛋白质数据库UniProt。
数据库搜索:通过相似性比对算法,从数据库中找到与检测序列具有一定程度相似性的序列数据库查询:(数据库检索):与互联网搜索引擎查找信息概念相同进行关键词匹配同一性:两个序列之间完全相同的匹配残基数目 相似性:用来描述序列之间相同或相似DNA碱基或氨基酸残基序列所占比例的高低 同源性:通过一些数据,判断出两个基因进化上曾具有共同祖先的结论 序列之间的相似程度是可以量化的参数,而序列是否同源需要有进化事实验证 相似度越大,两个序列越相似两个序列之间距离越大,相似度就越低 序列比对最终实现依赖于数学模型,模型参数不同也可能导致对比结果不同。












