您所在位置：网站首页 > 行业资料 > 其它行业文档 > 《生物信息学》第3章序列比对-2011级生医

《生物信息学》第3章序列比对-2011级生医.ppt

86页

卖家[上传人]：z****

文档编号：259257381

上传时间：2022-02-25

文档格式：PPT

文档大小：1.25MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10金贝

下载

/ 86 举报版权申诉马上下载

文本预览

下载提示

常见问题

第3章双序列比目的要求： 1 掌握序列比对的基本概念 2 掌握序列比对中打分矩阵的意义及应用 3 了解序列比对的算法原理Bioinformatics第3章双序列比教学内容：一、序列比对的概念二、序列比对结果的评判三、编辑距离四、序列比对中的打分矩阵五、双序列比对分析六、多序列比对分析BioinformaticsBioinformatics一、序列比对的概念序列比对就是对生物分子序列进行比较，通过对两个或多个核苷酸或氨基酸序列按照一定的规律排列起来，逐列比较其字符的异同，判断它们之间的相似程度和同源性，从而推测它们的结构、功能以及进化上的联系序列比对的任务：通过比较生物分子序列，发现它们的相似性，找出序列之间相同区域，同时辨别序列之间的根本差异举例：Bioinformatics核苷酸： A：腺嘌呤 C：胞嘧啶 G：鸟嘌呤 T：胸腺嘧啶氨基酸：在分子生物学中，DNA 或蛋白质的相似性是多方面的：可能是核酸或氨基酸序列的相似，可能是分子空间结构的相似，也可能是分子功能的相似一个普遍的规律：序列决定空间结构，结构决定功能研究序列相似性的目的：通过相似的序列得到相似的结构或相似的功能通过序列的相似性，推断序列之间的同源性，推测序列之间的进化关系。

Bioinformatics “同源”( homology ) 和“相似”( similarity ) 同源两条序列同源是指它们具有共同的祖先相似两条序列相似则是有程度的差别,可以用一个具体的数值来衡量 Bioinformatics 同源性只有2个结果：YES或NO相似性却是一个具体的数值序列比对的分类： Bioinformatics 双序列比对（pairwise alignment）两条序列的比对多序列比对（multiple sequence alignment）三条或以上序列的比对全局比对（global alignment）从全长序列出发，考察序列之间的整体相似性局部比对（local alignment）着眼于序列中的某些特殊片段，比较这些片段的相似性 Bioinformatics局部相似性比对生物学基础：蛋白质功能位点往往是由较短的序列片段组成的，尽管在序列的其他部位可能有插入、删除或替换，但这些功能位点的序列具有相当大的保守性，而应用局部比对的方法可以发现不同序列中的这些保守序列，其结果更具生物学意义Bioinformatics二、序列比对结果的评判举例：对下列两条序列进行比对分析s: ACGT t: AGCT比对结果1：比对结果2：s: ACGT t: AGCTs: ACG - T t: A - GCT比对结果3：s: A - CGT t: AGC - T比对结果4：s: - ACGT t: AGC - T比对结果5：s: ACGT - t: A - GCT那个比对结果最好？为什么？最优比对 Bioinformatics 最优比对揭示序列的最大相似程度，指出序列之间的根本差异的比对。

对于一组给定的序列进行序列比对分析，其比对结果会有许多，那么我们的任务就是从这众多的比对结果中找出与实际情况最相符合的一个比对或几个比对，这个就是最优比对怎样找出最优比对呢？方法：量化两条序列的相似程度Bioinformatics量化序列的相似程度的方法：（1）相似度它是序列的函数，其值越大，表示序列越相似2）序列之间的距离距离越大，则序列的相似程度就越小在大多数情况下，相似度和距离可以交互使用，并且距离越大，相似度越小，距离越小，相似度越大在序列比对分析中：相似度比对序列的相同位置字符是一样的比例；距离比对序列的相同位置字符是不一样的比例三、编辑距离 edit distanceBioinformatics观察这样两条DNA序列： s1：GCATGACGAATCAG s2：TATGACAAACAGC 将第二条序列 s2 右移一位， s1：GCATGACGAATCAG s2： TATGACAAACAGC在第二条序列中加上一条横线（空位），就会发现原来这两条序列还有相似之处 s1：GCATGACGAATCAG s2： TATGAC - AAACAGC 编辑操作 edit operationBioinformatics字符编辑操作有以下四种： match（a，a）字符匹配； delete（a，- ）从第一条序列删除一个字符，或在第二条序列相应的位置插入空白字符； replace（a，b）以第二条序列中的字符b 替换第一条序列中的字符a； insert（ -，b）在第一条序列插入空位字符，或删除第二条序列中的对应字符b。

编辑距离引入上述编辑操作后，计算两条序列的距离，就成为编辑距离 Bioinformatics 序列比对就是对序列进行编辑操作，通过字符匹配和替换，或者插入和删除字符，使比对序列中相同的字符尽可能地一一对应，然后计算序列之间的编辑距离，判断序列之间的相似程度计算两条序列之间的编辑距离，实际上就是根据某一规则计算比对序列各个位置上字母的比对得分，然后将这些位置上的得分累加得到整条序列的比对得分，并用这个分值表示两条序列的相似性 Bioinformatics比对结果不是唯一的我们的任务：在所有结果中找出最好的比对 s:AGCACACAAGCACACA t:ACACACTAACACACTA Match(A, A)Match(A, A)Delete(G, - )Replace(G, C)Match(C, C)Insert( -, A)Match(A, A)Match(C, C)Match(C, C)Match(A, A)Match(A, A)Match(C, C)Match(C, C)Replace(A, T)Insert( -, T)Delete(C, -)Match(A, A)Match(A, A)序列AGCACACA和ACACACTA的两种比对结果Alignment -1 Alignment -2得分函数：Bioinformatics 代价函数：选用代价函数，w 越大，相似性差；选用得分函数，p 越大，相似性好。

四、序列比对中的打分矩阵Bioinformatics s:AGCACACAAGCACACA t:ACACACTAACACACTA Match(A, A)Match(A, A)Delete(G, - )Replace(G, C)Match(C, C)Insert( -, A)Match(A, A)Match(C, C)Match(C, C)Match(A, A)Match(A, A)Match(C, C)Match(C, C)Replace(A, T)Insert( -, T)Delete(C, -)Match(A, A)Match(A, A)Alignment -1 Alignment -2序列s和t比对（a）序列s和t比对（b）使用得分函数p 5 3使用代价函数w 2 4结论：Alignment -1 优于 Alignment -2Bioinformatics 得分函数和罚分函数都是简单相似性评价模型，在计算比对的代价或得分时，对字符替换操作只进行统一的处理，没有考虑“同类字符”替换与“非同类字符”替换的差别实际上，不同类型的字符替换，其代价或得分是不一样的：对于核酸序列，嘌呤和嘧啶间替换的代价要大于嘌呤间或嘧啶间替换的代价；而对于蛋白质序列，某些氨基酸可以很容易地相互取代而不用改变它们的理化性质，而有些替换则会改变理化性质。

因此，在为比对打分时，我们可能更倾向对那“氨基酸很容易地相互取代而不用改变它们的理化性质”的比对位点多些奖励，而对于那些替换后会改变理化性质的比对位点多些罚分序列比对时每个位点的记分原则：Bioinformatics(1) 理化性质相近的氨基酸残基之间替换的代价理化性质相差甚远的氨基酸残基替换的代价(2) 保守的氨基酸替换得分非保守的氨基酸替换得分在进行序列比对分析时,根据上述原则进行记分，提出打分矩阵( scoring matrix ) 在打分矩阵中，详细地列出各种字符替换的得分，从而使得计算序列之间的相似度更为合理注意: 打分矩阵是序列比较的基础，选择不同的打分矩阵将得到不同的比对结果了解打分矩阵的理论依据将有助于在实际应用中选择合适的打分矩阵 1、核酸序列的打分矩阵Bioinformatics 设DNA序列所用的字母表为： = A，C，G，T 腺嘌呤A，鸟嘌呤G；胞嘧啶C，胸腺嘧啶T（1）等价矩阵（2） BLAST矩阵 ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45 （3）转换-颠换矩阵BioinformaticsATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51 转换如果DNA碱基的变化（碱基替换）保持环数不变，则称为转换（transition），如AG，CT；颠换如果DNA碱基的变化后环数发生变化，则称为颠换（transversion），如AC，AT 等。

核酸的碱基按照环结构分为两类：（1）嘌呤，有两个环 A腺嘌呤，G鸟嘌呤（2）嘧啶，有一个环 C胞嘧啶，T胸腺嘧啶 2、蛋白质序列比对的打分矩阵Bioinformatics（1）等价矩阵（2）氨基酸突变代价矩阵GCM （Genetic Code matrix）（3）疏水矩阵（4） PAM矩阵（Point Accepted Mutation）（5） BLOSUM矩阵（区块氨基酸替换矩阵）（Blocks Amino Acid Substitution Matrices）（1）等价矩阵Bioinformatics其中Ri j代表打分矩阵元素i、j分别代表字母表第i和第j个字符 G A V I L F P M W C G 1 0 0 0 0 0 0 0 0 0 A 0 1 0 0 0 0 0 0 0 0 V 0 0 1 0 0 0 0 0 0 0 I 0 0 0 1 0 0 0 0 0 0L 0 0 0 0 1 0 0 0 0 0 F 0 0 0 0 0 1 0 0 0 0 P 0 0 0 0 0 0 1 0 0 0 M 0 0 0 0 0 0 0 1 0 0 W 0 0 0 0 0 0 0 0 1 0 C 0 0 0 0 0 0 0 0 0 1：（2）遗传密码矩阵GCM Bioinformaticsgenetic code matrix GCM 矩阵通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子变化数目而得到，矩阵元素的值对应于代价。

如果变化一个碱基，就可以使一个氨基酸的密码子改变为另一个氨基酸的密码子，则这两个氨基酸的替换代价为1；如果需要2个碱基的改变，则替换代价为2；以此类推 GCM 常用于进化距离的计算，其优点是计算结果可以直接用于绘制进化树，但是它在蛋白质序列比对尤其是相似程度很低的序列比对中很少被使用 BioinformaticsMet 甲硫氨酸 AUGTyr酪氨酸UAUUAC脯氨酸CCUCCCCCACCG甘氨酸 GGU GGC GGA GGG遗传密码表Bioinformatics （3 ）疏水矩阵Bioinformatics 根据氨基酸残基替换前后疏水性的变化而得到得分矩阵若一次氨基酸替换疏水特性不发生太大的变化，则这种替换得分高，否则替换得分低该矩阵物理意义明确，有一定的理化性质依据，适用于偏重蛋白质功能方面的序列比对 Bioinformatics（4） PAM矩阵 Bioinformaticspoint accepted mutation 点接受突变模型得到打分矩阵的常用办法：统计自然界中各种氨基酸残基的相互替换率如果两种特定的氨基酸之间替换发生得比较频繁，那么这一对氨基酸在打分矩阵中的互换得分就比较高。

PAM 矩阵就是这样一种打分矩阵它是基于进化原理的，建。

点击阅读更多内容