好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

转录剪切位点课件.ppt

106页
  • 卖家[上传人]:嘀嘀
  • 文档编号:262663896
  • 上传时间:2022-03-07
  • 文档格式:PPT
  • 文档大小:820KB
  • / 106 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 核酸序列分析及结构预测主 讲 张 军细胞生物学及遗传学教研室第一节 核酸序列的数据形式1. 串(string)符号或字符的有序排列,符号或字符来自有限集合A, T, G, C序列(sequence)与串是同一概念s=ATTGCATATG;串的长度|s|; 串s某个位置的字符表示为si ,1 i |s|特别的,长度为0的串称为空串(empty string),用符号 表示2. 子串(substring)和子序列(subsequence),二者不是相同的概念子串和超串s=ATGCGGTA; t=TGCGG; s是t的超串子序列和超序列s=ATGCGGTA; t=TGTA; s是t的超序列区间(interval)s=ATGCGGTACGTATACG; u=CG, si, i+13. 串u和w的拼接(concatenation),表示为uw例如s = ATGCGGTA; t=TGCGGst = ATGCGGTATGCGGts = TGCGGATGCGGTA串的冥s = AT;sss= AT AT AT=s3串的前缀(prefix)s = ATGCGGTAGC; prefix(s,3)=ATG; prefix(s,0) = 存在且只存在s的另1个子串u, 使得s=tu, t是u的前缀。

      串的后缀(suffix)s = ATGCGGTAGCsuffix(s,3) =AGC; suffix(s,2) =GC ;suffix(s,0) = 存在且只存在s的另1个子串u, 使得s=ut, t是u的后缀杀手因子(killer agent),假定存在1个特别的串 |-1 在与其它串拼接的时候,起到删除相邻字符的作用例如, s = ATGCGGTAGC s= TGCGGTAGCs = ATGCGGTAG ATGC GGTAG ? 无意义 (ATGC ) GGTAG ATGC ( GGTAG )stu=(st)u=s(tu); |s| -1, |t| -1, |u| -1 |st| = |s| + |t| ,s和t可以是任何串利用杀手因子可以表示1个串的子串,前缀和后缀sij= i-1 s |s| -jprefix(s, k) = s |s| -kSuffic(s, k) = |s| -k s 第二节 序 列 比 较序列比较的根本任务: 发现序列之间的相似性 辨别序列之间的差异序列比较的目的: 相似序列 相似的结构,相似的功能 判别序列之间的同源性 推测序列之间的进化关系 序列的相似性同源(homology)- 具有共同的祖先直向同源(Orthologous ) 共生同源(paralogous )相似(similarity)同源序列一般是相似的相似序列不一定是同源的进化趋同(同功能)直向同源(a1 in species I, a1 in species II)共生同源(a1 and a2 in species I)进化趋同水平转移基因复制序列相似性的描述 定性的描述 定量的数值 相似性 距离序列比较的基本操作是比对(Alignment) 两个序列的比对是指这两个序列中各个字符的一种一一对应关系,或字符的对比排列 。

      例如,设有两个序列:s=GACGGATTAG,t=GATCGGAATAGAlignment2: GA-CGGATTAGGATCGGAATAGAlignment1:GACGGATTAG GATCGGAATAG字母表和序列字母表(字符或符号集合)4字符DNA字母表:A, C, G, T扩展的遗传学字母表或IUPAC编码单字母氨基酸编码符 号含 义说 明GGGuanine AAAdenine TTThymine CCCytosineRG or APurine YT or CPyrimidine MA or CAmino KG or TKeto SG or CStrong interaction (3 H bonds) WA or TWeak interaction (2 H bonds) HA or C or TNot-GBG or T or Cnot-AVG or C or Anot-T(not-U) DG or A or Tnot-C NG or A or T or CAny 扩展的遗传学字母表或IUPAC编码序列比对的生物学背景分子生物学实验技术和大规模测序方法的发展,使复杂序列之间的比较成为实验室的常规数据分析。

      基因组学的发展,物理图谱的构建,DNA的拼接求一个或一些序列与其它数据序列的比较两个序列之间是否存在相同的子串个序列与数据库中序列是否存在相似的子串 序列比较可以分为五种基本情况:(1)两条长度相近序列相似性分析,找出序列的差别(2)判断一条序列的前缀与另一条序列的后缀相似(3)判断一条序列是否是另一条序列的子序列(4)判断两条序列中是否有非常相似的子序列(5)对多个序列进行上述4种分析第三 节 两个序列的比较1. 全局比较基本算法2. 通过全局比对(global alignment),了解序列的相似性例如,s=ATTGCATATG;t=ATTGATATCs=ATTGCATATGt=ATTG ATATC记分系统的引入与比对打分匹配1空配2错配1对s, t进行相似性比较,得到的最大记分值,称为2序列的相似性,表示为sim(s, t)=maxscore is=ATTGCATATG; s=ATTGCATATG t=ATTG ATATC; t=ATTG ATATC8(-2)(-1)=5 4+ (-2) + (-1) 5 =-12. 局部比较序列s和t的局部比较是通过局部比对(local alignment)实现的,是s和t子串之间的比对。

      例如,s=AATTGCATATG;t=ATTGT,对它们进行局部相似性比较,表示s(2,3,4,5)=t(1,2,3,4)3. 半全局部比较序列s和t的比对,序列长度相差较大例如,s=AATTGCATATG;t=ATTGT,对它们进行全局相似性比较,表示s=AATTGCATATG; s=AATTGCATATGt= - ATTGT - - - - - ; t= A- TTG - - T - - -半全局比对的核心是2个序列前缀与后缀第四 节 相似性和距离1. 相似性2. 相似性的度量是基于比对,2个序列的相似性可以由sim(s, t)maxscore i2. 距离3. 对任何的一个串实施一系列的变换后,可以转化为另一个串4. s t; t=AGCTT; s=TTA5. TTA - - TTA AGTTA AGCTAAGCTT变换的操作: 1 字符的替换 2 空格插入和删除 给予每个变换特定的开销(cost) dist(s,t)=mincost i扩展的编辑操作ACCGACAATATGCATA ATAGGTATAACAGTCAACCGACAATATGCATA ACTGACAATATGGATA 第二条序列头尾颠倒可以通过基本操作实现 反向互补序列RNA发夹式二级结构第五节 通过点矩阵进行序列比较“矩阵作图法” 或 “对角线作图” 序列1 序列2 实 例 序列1 序列1 自我比较滑动窗口技术两条序列中有很多匹配的字符对,因而在点矩阵中会形成很多点标记。

      滑动窗口技术使用滑动窗口代替一次一个位点的比较是解决这个问题的有效方法假设窗口大小为10,相似度阈值为8,则每次比较取10个连续的字符,如相同的字符超过8个,则标记基于滑动窗口的点矩阵方法可以明显地降低点阵图的噪声,并且明确无误的指示出了两条序列间具有显著相似性的区域 (a)对人类(Homo sapiens)与黑猩猩(Pongo pygmaeus)的球蛋白基因序列进行比较的完整点阵图b)利用滑动窗口对以上的两种球蛋白基因序列进行比较的点阵图,其中窗口大小为10个核苷酸,相似度阈值为8 (a) (b) 具有连续相似区域的两条DNA序列的简单点阵图第六节 DNA片断的组装1. 生物学背景2. DNA测序技术的发展2. 片断的组装(fragment assembly)3. 片断(fragment)的产生理想情况 例如ATTGGGCA; CGATT; TGGGCAGA组装 - - ATTGGGCA - -CGATT - - - - - - - - - - - TGGGCAGACGATTGGGCAGA 表决序列 复杂情况 碱基识别错误 序列方向未知 重复序列 缺乏覆盖 序列污染 复杂情况的组装模型 最短公共超串(shortest common superstring) 重构(reconstruction) 多连叠(multicontig) 第七节第七节 DNA DNA序列分析序列分析 DNA序列分析基因序列基因表达调控信息 寻找基因牵涉到两个方面的工作 :识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。

      DNA DNA序列分析步骤和分析结果评价序列分析步骤和分析结果评价 在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用 存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等发现重复元素数据库搜索分析功能位点序列组成统计分析综合分析一个基本的DNA序列分析方案 功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨别能力 两个集合: 训练集(training set) 用于建立完成识别任务的数学模型测试集或控制集(control set) 用于检验所建模型的正确性 用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性收集已知的功能序列和非功能序列实例(这些序列之间是非相关的 )训练集(training set)测试集或控制集(control set)建立完成识别任务的模型检验所建模型的正确性对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。

      进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性识别“功能序列”和“非功能序列”的过程 Sn 敏感性 Sp 特异性 Tp是正确识别的功能序列数, Tn为正确识别的非功能序列数, Fn是被错误识别为非功能序列的功能序列数, Fp是被错误识别为功能序列的非功能序列数敏感性和特异性的权衡 对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性 如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性; 相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性 对于敏感性和特异性需要进行权衡,给出综合评价指标 功能位点分析 功能位点(functional site) 与特定功能相关的位点,是生物分子序列上的一个功能单元,或者是生物分子序列上一个较短的片段 功能位点又称为功能序列(functional sequence)、序列模式(motif)、信号(signal)等 核酸序列中的功能位点包括转录因子结合位点、转录剪切位点、翻译起始位点等 在蛋白质序列分析中,常使用序列模式这个名词,蛋白质的序列模式往往与蛋白质结构域或者作用部位有关功能位点示意 基因组序列中若干个相邻的功能位点组合形成功能区域(functional region)。

      功能位点分析的任务 发现功能位点特征 识别功能位点A 利用共有序列搜索功能位点 共有序列(common consensus)又称一致性片段 共有序列是关于功能位点特征的描述,它描述了功能位点每个位置上核苷酸进化的保守性 例如: NTATN 利用共有序列进行功能位点分析牵涉到两个方面的问题, 如何构造共有序列 如何利用共有序列在给定的核酸序列上搜索寻找功能位点,并计算所找到的功。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.