
BLAST相关术语及参数详解.docx
3页Alignment:序列比对将两个或多个序列排在一起,以达到最大一致性的过程(对于氨基酸序列是比较它们的保守性),这样可以评估序列间的相似性和同源性Algorithm:算法在计算机程序中包含的一种固定过程Bit score:二进制二进制值 S,源于统计性质被数量化的打分系统中产生的原始比对分数So由于二进制值相对于打分系统已经被标准化,它们常用于比较不同搜索之间的比对分数BLOSUM:模块替换矩阵在替换矩阵中,每个位置的打分是在相关蛋白局部比对模块中 观察到的替换的频率而获得的每个矩阵被修改成一个特殊的进化距离例如,在BLOSUM62 矩阵中,是使用一致性不超过62%的序列进行配对来获得打分值的一致性大于62%的序列在配对时用单个序列表示,以避免过于强调密切相关的家族成员Conservation:保守指氨基酸或 DNA (普遍性较小)序列某个特殊位置上的改变,并不影响原始序列的物理化学性质Domain: 结构域蛋白质在折叠时与其他部分相独立的一个不连续的部分,它有着自己独特的功能DUST: 一个低复杂性区段过滤程序E value: E 值在一个数据库中所搜索到的打分值等于或大于S的不同比对的个数。
E值越低,表明该打分值的显著性越好Filtering: 过滤,也叫掩蔽(masking )指对那么经常产生乱真的高分数的核甘酸或氨 基酸序列区域进行隐藏的过程Gap:空位在两条序列比对过程中需要在检测序列或目标序列中引入空位,以表示插入或删除为了避免在比对时出现太多的空位,可以在收入空位的同时,从比对的打分值中减 去一个固定值(空位值)在多余的核甘酸或氨基酸周围引入空位时,也要对比对的打分 值进行罚分Global Alignment:整体联配对两个核甘酸或蛋白质序列的全长进行的比对H:相对嫡值目标残基和底物残基频率的相对嫡记作HH可以衡量某个位置(这个位置可以通过概率来区分比对)上由于偶然因素而得到的平均信息(用字节表示)H值越高,短的比对就越可以通过概率来区分;H值越低,需要的比对长度越长Homology:同源性由共同的祖先所遗传得到的相似性HSP: High-scoring segment pair ,高打分值片段在一个给定的搜索中,没有空位的 局部比对能得到最高的比对打分值Identity:一致性两个(核甘酸或氨基酸)序列比对时不变部分的长度K: K值用来计算BLAST程序中打分函数的一个统计参数。
它可以看作搜索空间大小的 一个自然衡量尺度K值通常用于将原始比对值S转换为二进制值 S'Lambda:入值用来计算 BLAST程序中打分函数的一个统计参数;它可以看作打分系统 的一个自然衡量尺度入值通常用于将原始比对值S转换为二进制值 S'Local Alignment:局部联配对两个核甘酸或蛋白质序列的一部分所进行的比对Low Complexity Region (LCR):低复杂性区域指组分(包括均聚物、短周期重复片 段)区域和有许多单个或多个残基的区域SEG程序用来筛选或过滤氨基酸序列中低复杂性区域DUST程序用来筛选或过滤核甘酸序列中的低复杂性区域Masking: 掩蔽也叫过滤(filtering ),指为了提高对序列相似性搜索是时的敏感性, 而从序列中移除重复的或低复杂性区域的过程Motif:模体或序列模式蛋白质序列中短的保守区域它们是结构域中保守性很高的部分 Multiple Sequence Alignment:多序列比对三个或三个以上的多个序列之间的比对,如果序列在同一列有相同结构位置的残基和(或)祖传的残基,则会在该位置插入空位ClustalW是一种最为广泛使用的多序列比对程序之一。
Optimal alignment:最佳联配两个序列之间有最高打分值的排列Orthologous:直系同源指不同种类的同源序列,它们是在物种形成事件中从一个祖先序列独立进化形成的;可能有相似功能,也可能没有P value: P 值在比对时,获得某个打分值或更高的打分值的可能性通过数据库中具有 相同长度或组分的随机序列之间的比对,可以得到高打分值的片段的预期分布,将它与观 察到的比对打分值 S相连,就可以计算出 P值显著性最高的 P值应该接近于零P值和 E值用不同的方法来表示比对的显著性PAM: Percent Accepted Mutation ,可接受点突变一个用于衡量蛋白质序列的进化突 变程度的单位一个PAM的进化距离表示蛋白质序列中平均1%的氨基酸残基发生突变的概率PAM (x)替换矩阵是一个查找表,其中每个氨基酸残基的替换打分值是基于进化趋 异程度为x的紧密相关蛋白的替换频率而计算的Paralogous:共生同源指在单个种类中由于基因复制事件而产生的同源序列Profile: 表达谱一种罗列了蛋白质序列的每个位置上每个氨基酸出现频率的表格这些 频率是通过包含指定结构域的序列进行多次比对而得到的。
参见PSSMPSSM: Position-specific scoring matrix,特定位点记分矩阵PSSM给出了在目标序列中寻找特定的相配对的氨基酸的对数比分值参见Profile Query:检测输入序列(或其他搜索项)与数据库中的所有条目进行的比较Raw Score: 初值指通过计算替换和空位所得打分值之和而得到的联配值S替换打分值以查找表的形式表示空位打分彳1是通过计算空位开放罚分G和空位拓展罚分L求和而得到的对于长度为 n的空位,空位罚分值是G+Ln空位罚分G与L的选择完全是根据经验,通常G选择一个较高的数值(10~15 ) , L选择一个较低的数值(1~2 )参见 PAM、BLOSUM Similarity:相似性指核甘酸或蛋白质序列的相关程度两个序列之间的相似性是基于相同和(或)保守序列所占的百分比的在 BLAST中,相似性指一个正定的打分值矩阵SEG: 一种过滤氨基酸序列中低复杂性区域的程序,在比较中被过滤掉的氨基酸用“煤示在BLAST2.0 的blastp子程序中,SEG过滤是默认执行的Substitution:替换在指定的位置不相同的氨基酸进行联配如果联配的残基有相似的物理化学性质,那么替换是保守的。
Substitution Matrix:替换矩阵替换矩阵中的彳I[与氨基酸对中的第i个氨基酸突变为第j个氨基酸的概率成比例构建这样的矩阵需要组装一个大的、含有不同的成对排列的氨基 酸样本如果样本足够大,其统计性显著,那么得到的替换矩阵可以反映经过某一阶段进 化后的突变概率的真实值Unitary Matrix:酉矩阵,幺正矩阵也称为单位矩阵是一个只有在字符相同时才能得到正打分值的打分系统Subsequence;用来设定查询序列中进行比对的子序列Descriptions:对核甘酸或者蛋白质序列的描述Alignments:比对结果Query Number:查询序列的个数Job ID:是在进行BLAST比对的过程中程序自动生成的流水号,用来唯一标识一次比对过程利用Job ID 可以快速找回你曾经进行过的比对结果Query ID:查询序列的IDSubject ID: 与查询序列比对的序列的 IDLength:比对序列的长度Identities:一致性指两个(核甘酸或氨基酸)序列比对时不变部分的长度Q.start: 查询序列的起始位置Q.end:查询序列的终止位置Q.Length:查询序列的长度S.start: 与查询序列相比对的序列的起始位置。
S.end:与查询序列相比对的序列的终止位置S.Length: 与查询序列相比对的序列的长度。
