好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

BLAST检索和比对.docx

7页
  • 卖家[上传人]:大米
  • 文档编号:464583132
  • 上传时间:2023-07-13
  • 文档格式:DOCX
  • 文档大小:27.39KB
  • / 7 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • BLAST检索和比对Alignment:序列比对将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性), 这样可以评估序列间的相似性和同源性Algorithm:算法在计算机程序中包含的一种固定过程Bioinformatics:生物信息学一门结合生物技术和信息技术从而揭示生物学中新原理的科学Bit score:二进制二进制值S源于统计性质被数量化的打分系统中产生的原始比对分数S由于二进制值相对于打 分系统已经被标准化,它们常用于比较不同搜索之间的比对分数BLAST:基本的局部相似性比对搜索工具在序列数据库中快速查找与给定序列具有最优局部对准结果的序列的一种 序列比对算法初步搜索是对打分至少为T、长度为W的词进行的打分的过程是用一个替代矩阵对查询序列和该词 作比较然后词长可以试着向两端伸长以获得一个超过阈值S的打分参数T反映了搜索的速度大小和敏感性可以 参见BLAST的用户指南和BLAST使用指导来获得更详细的信息BLOSUM:模块替换矩阵在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中观察到的替换的频率而获得 的每个矩阵被修改成一个特殊的进化距离例如,在BLOSUM62矩阵中,是使用一致性不超过62%的序列进行配 对来获得打分值的。

      一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相关的家族成员 Conservation:保守指氨基酸或DNA (普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性 质Domain:结构域蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能DUST: 一个低复杂性区段过滤程序E value: E值在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数E值越低,表明该打分值 的显著性越好Filtering:过滤,也叫掩蔽(masking)指对那么经常产生乱真的高分数的核苷酸或氨基酸序列区域进行隐藏的过程 Gap:空位在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除为了避免在比对时 出现太多的空位,可以在收入空位的同时,从比对的打分值中减去一个固定值(空位值)在多余的核苷酸或氨基酸 周围引入空位时,也要对比对的打分值进行罚分Global Alignment:整体联配对两个核苷酸或蛋白质序列的全长进行的比对H:相对熵值目标残基和底物残基频率的相对熵记作HH可以衡量某个位置(这个位置可以通过概率来区分比对) 上由于偶然因素而得到的平均信息(用字节表示)。

      H值越高,短的比对就越可以通过概率来区分;H值越低,需要 的比对长度越长Homology:同源性由共同的祖先所遗传得到的相似性HSP: High-scoring segment pair,高打分值片段在一个给定的搜索中,没有空位的局部比对能得到最高的比对打分值 Identity: 一致性两个(核苷酸或氨基酸)序列比对时不变部分的长度K: K值用来计算BLAST程序中打分函数的一个统计参数它可以看作搜索空间大小的一个自然衡量尺度K值通 常用于将原始比对值S转换为二进制值SSLambda:入值用来计算BLAST程序中打分函数的一个统计参数;它可以看作打分系统的一个自然衡量尺度入值通 常用于将原始比对值S转换为二进制值SSLocal Alignment:局部联配对两个核苷酸或蛋白质序列的一部分所进行的比对Low Complexity Region (LCR):低复杂性区域指组分(包括均聚物、短周期重复片段)区域和有许多单个或多个 残基的区域SEG程序用来筛选或过滤氨基酸序列中低复杂性区域DUST程序用来筛选或过滤核苷酸序列中的低复 杂性区域Masking:掩蔽也叫过滤(filtering),指为了提高对序列相似性搜索是时的敏感性,而从序列中移除重复的或低复杂 性区域的过程。

      Motif:模体或序列模式蛋白质序列中短的保守区域它们是结构域中保守性很高的部分Multiple Sequence Alignment:多序列比对三个或三个以上的多个序列之间的比对,如果序列在同一列有相同结构位 置的残基和(或)祖传的残基,则会在该位置插入空位ClustalW是一种最为广泛使用的多序列比对程序之一 Optimal alignment:最佳联配两个序列之间有最高打分值的排列Orthologous:直系同源指不同种类的同源序列,它们是在物种形成事件中从一个祖先序列独立进化形成的;可能有 相似功能,也可能没有P value: P值在比对时,获得某个打分值或更高的打分值的可能性通过数据库中具有相同长度或组分的随机序列之 间的比对,可以得到高打分值的片段的预期分布,将它与观察到的比对打分值S相连,就可以计算出P值显著性最 高的P值应该接近于零P值和E值用不同的方法来表示比对的显著性PAM: Percent Accepted Mutatio n,可接受点突变一个用于衡量蛋白质序列的进化突变程度的单位一个PAM的进化 距离表示蛋白质序列中平均1%的氨基酸残基发生突变的概率PAM(x)替换矩阵是一个查找表,其中每个氨基酸残 基的替换打分值是基于进化趋异程度为x的紧密相关蛋白的替换频率而计算的。

      Paralogous:共生同源指在单个种类中由于基因复制事件而产生的同源序列Profile:表达谱一种罗列了蛋白质序列的每个位置上每个氨基酸出现频率的表格这些频率是通过包含指定结构域 的序列进行多次比对而得到的参见PSSMProteomics:蛋白质组学对某个生物体中正常或生病组织的蛋白质表达进行系统的分析,包括对所有蛋白的分离、鉴 定和特征化PSI-BLAST:特定位点迭代BLAST程序使用BLAST算法进行迭代搜索初始搜索产生的表达谱会在接下来的搜索 中使用这个过程会根据需要而一直重复,在每个循环中产生的新序列会用来重新定义表达谱PSSM: Position-specific scoring matrix,特定位点记分矩阵PSSM给出了在目标序列中寻找特定的相配对的氨基酸的 对数比分值参见ProfileQuery:检测输入序列(或其他搜索项)与数据库中的所有条目进行的比较Raw Score:初值指通过计算替换和空位所得打分值之和而得到的联配值S替换打分值以查找表的形式表示空位 打分值是通过计算空位开放罚分G和空位拓展罚分L求和而得到的对于长度为n的空位,空位罚分值是G+Ln空 位罚分G与L的选择完全是根据经验,通常G选择一个较高的数值(10〜15), L选择一个较低的数值(1〜2)。

      参见 PAM、BLOSUMSimilarity:相似性指核苷酸或蛋白质序列的相关程度两个序列之间的相似性是基于相同和(或)保守序列所占的 百分比的在BLAST中,相似性指一个正定的打分值矩阵SEG: 一种过滤氨基酸序列中低复杂性区域的程序,在比较中被过滤掉的氨基酸用“X”表示在BLAST2.0的blastp子 程序中,SEG过滤是默认执行的Substitution:替换在指定的位置不相同的氨基酸进行联配如果联配的残基有相似的物理化学性质,那么替换是保 守的Substitution Matrix:替换矩阵替换矩阵中的值与氨基酸对中的第i个氨基酸突变为第j个氨基酸的概率成比例构建 这样的矩阵需要组装一个大的、含有不同的成对排列的氨基酸样本如果样本足够大,其统计性显著,那么得到的替 换矩阵可以反映经过某一阶段进化后的突变概率的真实值Unitary Matrix:酉矩阵,幺正矩阵也称为单位矩阵是一个只有在字符相同时才能得到正打分值的打分系统 blastn:用来将一个核酸的查询序列与一个核酸序列数据库相比较blastp:将一个氨基酸的查询序列与一个蛋白质序列数据库相比较 blastx:将一个核酸的查询序列按所有可能的阅读框翻译后的序列与一个蛋白质序列数据库进行比较。

      tblastn:将一个蛋白质查询序列与一个以所有阅读框动态翻译成蛋白质的核酸序列数据库进行比较tblastx:将一个核酸查询序列的6种框架和翻译结果与一个核酸序列数据库的6种框架翻译产物进行比较Filter:过滤器过滤掉查询序列中具有较低复杂度的掩盖部分(或者具有很大偏差的成分)对于蛋白质查询序列, 使用SEG程序进行过滤;对于核酸查询序列则使用DUST程序FASTA: (a)FASTA是第一个被广泛使用的数据库相似性搜索算法这个程序通过扫描序列中的“词”的小配对,从 而寻找最优局部比对首先计算有多个序列的片段的分值(记为init1);接着这些分值加在一起产生“initn”值;最后输 出包含间隔的最佳比对(记为opt)搜索的敏感性和速度同“词”的长度——“k-tup”变量所控制,并且二者负相关b) 核苷酸或蛋白质序列的一种输出格式Subsequence;用来设定查询序列中进行比对的子序列 Descriptions:对核苷酸或者蛋白质序列的描述Alignments: 比对结果Query Number:查询序列的个数Job ID:是在进行BLAST比对的过程中程序自动生成的流水号,用来唯一标识一次比对过程。

      利用Job ID可以快速找 回你曾经进行过的比对结果Query ID:查询序列的IDSubject ID:与查询序列比对的序列的IDLength:比对序列的长度Identities: 一致性指两个(核苷酸或氨基酸)序列比对时不变部分的长度Q.start:查询序列的起始位置Q.end:查询序列的终止位置Q.Length:查询序列的长度S.start:与查询序列相比对的序列的起始位置S.end:与查询序列相比对的序列的终止位置S.Length:与查询序列相比对的序列的长度topf常见问题什么是BLAST,由来?BLAST(Basic Local Alignment Search Tool)基本的局部相似性比对搜索工具是用来将一个蛋白质或DNA序列和各 种数据库中的其他序列进行比对的主要工具(Altschul,1990,1997)BLAST搜索是研究一个蛋白质或基因的最基本的 方法之一这种搜索告诉我们哪些相关的序列在同一物种或其他物种中出现BLAST的主要功能包括以下几种:1) 确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列2) 确定哪些蛋白质和基因在特定的物种中出现3) 确定一个DNA或蛋白质序列身份。

      4) 发现新基因5) 确定一个特定基因或者蛋白质有哪些已经被发现了的变种6) 研究可能存在多种剪接方式的表达序列标签7) 寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基BLAST检索第一次被提出是在Stephen Altschul,David Lipman及同事的一篇经典文献(1990)中这篇论文描述了 BLAST检索的理论基础以及一些基本问题,例如灵敏度(正确度)和速度晚些时候有对BLAST算法的重要修饰, 包括间隔BLAST的引入(Altschul等,1997)我应该选择NCBI的BLAST还是SDSPB的BLAST,他们的区别?SDSPB的数据库中有数据和NCBI的数据库中的数据基本上是同步的,不过NCBI里BLAST能够选择的数据库目前 要比我们的多些,但我们正在努力构建其他的数据库,相信不久的将来,我们会拥有NCBI中所有的数据库并拥有一 批自己特色的数据库SDSPB的BLAST有哪些模块,如何选择这些模块?SDSPB主要拥有五。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.