
两条序列比对与多序列比对.pdf
16页实验三实验三::两条两条序列比对序列比对与多序列比对与多序列比对 实验实验目的:目的: 学会使用 MegAlign,ClustalX 和 MUSCLE 进行两条序列和多条序列比对分析 实验实验内容内容:: 双序列比对是使两条序列产生最高相似性得分的序列排列方式和空格插入方式两条序 列比对是生物信息学最基础的研究手段第一次实验我们用 dotplot 方法直观地认识了两条 序列比对但是 dotplot 仅仅是展示了两条序列中所有可能的配对,并不是真正意义上的序 列比对这里介绍进行两条序列比对的软件-MegAlign 多序列比对是将多条序列同时比对,使尽可能多的相同(或相似)字符出现在同一列中 多序列比对的目标是发现多条序列的共性如果说序列两两比对主要用于建立两条序列的同 源关系,从而推测它们的结构和功能,那么,同时比对多条序列对于研究分子结构、功能及 进化关系更为有用多序列比对对于系统发育分析、蛋白质家族成员鉴定、蛋白质结构预测、 保守模块的搜寻等具有非常重要的作用 我们这节课主要学习多条序列比对的软件-ClustalX, MUSCLE 一、一、MegAlign DNASTAR 公司的 Lasergene 软件包是一个比较全面的生物信息学软件, 它包含了 7 个模 块。
其中 MegAlign 可进行两条或多条序列比对分析 1. 两条序列比对两条序列比对 1.1 安装程序 解压 DNASTAR Lasergene 软件压缩包,双击 Lasergene710WinInstall.exe 文件,按照默认 路径安装软件到自己电脑上 1.2 载入序列 a. 点击 开始开始-程序程序-Lasergene-MegAlign,打开软件 我们首先用演示序列(demo sequence)学习软件的使用演示序列所在位置:C:\Program files\ DNASTAR\ Lasergene\ Demo Megalign\ Histone Sequences\ b. 点击主菜单 File—Enter sequence-选择序列所在文件夹,选择序列 tethis21.seq 和 tethis22.seq,点击 Add,这两条序列将出现在右侧 selected sequences 框中(Figure 3.1) ,选择 完毕点击 Done 回到程序页面 Figure 3.1 载入序列 此时程序窗口分为三部分,最左侧较窄的是 sequence name,中间显示的是序列起始位置, 最右侧显示序列末尾部分,可以通过拖动窗口底部滚动条,查看序列其它部分(Figure 3.2) 。
若想改变字体显示方式,点击主菜单 OPTIONS,选择 Font 改变字体,选择 Size 改变字号大 小若要移除序列,选中 sequence name 的序列名,右击,选 clear Figure 3.2 载入序列后(注意标注的绿色箭头,即为坐标位置) 1.3 设定序列比对位置 MegAlign 允许使用者选择序列的一部分进行比对分析,例如,可以根据 GenBank 格 式的序列中 Features 部分关于编码区(CDS)位置的描述,设定只对此编码区进行分析 a. 点击最左侧 Sequence Name 框中的第一条序列 tethis,然后选择主菜单 OPTIONS -Set sequence limits-from feature table (Figure 3.3)此时根据 feature 内容,出现四个可 以选择的片段,第一个为全长,从序列起始到末尾(1-906) ,其它三个则只包括序列的一 部分,选择最后一个 Histone H2B-1—CDS,点击 Change the Reset,点击 OK,同样对第 二条序列进行上述操作,回到主界面工作区,此时窗口中的序列起始和终止位置已经发 生了变化。
(Figure 3.4) Figure 3.3 利用 Feature Table 选择序列特定部分 Figure 3.4 选择序列特定部分 b. 我们还可以通过设定序列坐标进行部分序列比对,首先选定序列,选择主菜单 OPTIONS-Set sequence limits-by coordinates,输入起始和终止位置坐标来选择部分序列进 行分析 注意:只有 genbank 格式的序列才可以 Set sequence limits from feature table,fasta 格式的 序列因为没有 feature 那一项内容,只可以 Set sequence limits by coordinates 1.4 进行两条序列比对 如果输入两条序列后不设置序列起始和终止位置,默认是全长序列进行比对 按住Shift选择序列tethis21和tethis22,然后点击主菜单Align-One pair,由于目前输入的是 核酸序列,此时有两个选项,Wilbur-Lipman Method和Martiner NW Method如果输入的是蛋 白质序列,这两个选项将是灰色,只能用Lipman-Pearson Method进行比对。
Wilbur-Lipman Method是一种以word为单位的(word-based)启发式局部比对方法;Martiner NW Method是一 种改进了的全局动态规划算法Lipman-Pearson Method是序列相似度搜索软件Fasta的比对算 法, 也是一种以word为单位的快速启发式算法 选择其中一个, 出现比对参数设定窗口 (Figure 3.5),选择默认参数不做更改,直接点击OK即可 Figure 3.5 Wilbur-Lipman 比对方法参数设定 这时出现一个新窗口,即为比对结果可以选择OPTION-size,放大字号观察比对结果 可以看到在窗口上部显示的是比对方法名称,所用参数,两条序列各自的起止位置,相似度 值,比对结果中空位数目,长度和一致序列的长度随后就是比对结果部分,其中第一行是 第一条序列,它上面的v70是标尺,其中的“V”的位置对应的是第一条序列的第70个核苷酸 所在位置;第三行是第二条序列,它下方的数字同样对应该序列位置坐标;中间那行是根据 两条序列比对结果中匹配部分推断出来的一致序列(consensus sequence),错配或空位显示 为空白(Figure 3.6)。
Figure 3.6 Wilbur-Lipman 方法比对结果 设置比对结果显示方式:点击比对结果窗口最左侧的按钮,出现 Alignment View Options 窗口,可以选择匹配,错配和一致序列的字符颜色和其它显示选项推荐使用设置: 选择 match 为红色, mismatch 为绿色, consensus 为蓝色, 并选择 show identities as vertical bars (一致序列显示为竖线) ,则得到 Figure 3.7还可以尝试选中或不选 show header, show ruler, show names,show contest 四个选项,看看显示结果有何变化 Figure 3.7 Alignment View Options TIPTIP::MegAlignMegAlign 分析自己下载的序列时要分析自己下载的序列时要注意序注意序列扩展名列扩展名 如果是从 NCBI 直接下载的 fasta 格式文件,可以象上面一样,用 enter sequence 直接 将序列读入程序但是如果序列文件是复制粘贴到 txt 文档中的,MegAlign 程序是无法识别 扩展名为 txt 的文件。
此时可将每条序列文件(fasta 或 genbank 格式皆可)扩展名改为 MegAlign 可以识别的类型 (核酸序列为 seq, 蛋白质序列为 pro) ,即可从 File-Enter sequence 载入 更改文件扩展名的方法更改文件扩展名的方法:找到你要更改扩展名的文件,将.txt 改为.seq 或 .pro,此时会弹 窗口,提示“如果改变文件扩展名,可能会导致文件不可用确实要更改吗?”选择“是” , 文件图标会变成 MegAlign 特定图标,说明修改成功若扩展名自动隐藏,打开文件夹,点击 窗口上的主菜单 工具-文件夹选项,在打开的页面选择选项卡查看,去掉“隐藏已知文件类 型的扩展名”前面的对勾,确定退出然后再用上述方法更改扩展名 2. 多序列比对多序列比对 2.1 载入序列 进行多条序列比对的演示序列 (demo sequence) 在 c:\program files\ dnastar\ lasergene\ demo megalign\ Calmodulin Sequences\ 文件夹里 点击主菜单 File-Enter Sequence-根据路径到达 Calmodulin Sequences 文件夹,点击 Add All,此时 14 条序列全都出现在右侧的 selected sequences 框中,点击 Done,回到主程序工作 区。
(Figure 3.8)这是来自 14 个物种的钙调蛋白 Figure 3.8 载入 14 条序列 2.2 序列比对 第一步,选择比对所用的打分矩阵点击主菜单 Align-Set residue Weight Table,由于钙 调蛋白比较保守,我们选择 PAM100 作为打分矩阵,点击 OK 结束设定(Figure 3.9) Figure 3.9 选择打分矩阵 此时还可以通过点击 Align-Method Parameters 设定比对所用的其它参数打开的新窗口 中包含三个选项卡,Jotun Hein、Clustal V 和 Clustal W,对应程序中多条序列比对可用的三种 算法推荐大家不做修改,使用默认参数即可 第二步,比对点击 Align-by Clustal V Method,此时出现窗口显示比对进度,比对结束 后,回到原来工作窗口,显示比对结果注意序列上方彩色条块,颜色代表对应列中相似程 度,相似度由低到高,依次以深蓝、浅蓝、绿、黄、桔、红几种颜色代表Figure 3.10) Figure 3.10 比对后结果 2.3 查看比对结果 此时可以通过几种方式观察比对结果 a.点击 View-Sequence Distances 出现新窗口,显示两两序列 percent identity(上半部分)和 divergence(下半部分) 。
Figure 3.11 比对结果-一致度(identity) b.点击 View-Residue Substitutions 出现新窗口,显示比对中所有替换的类型和数目 Figure 3.12 比对结果-替换情况 c.点击 View-Phylogenetic Tree 出现新窗口,显示根据 14 条序列比对结果构建出的进化树 Figure 3.13 比对结果-进化树 d.点击 View-Alignment Reports 出现新窗口,显示比对结果报告点击 OPTIONS-Alignment report contents,选中 show consensus strength,其它不变,点击 OK在序列上方出现条块, 显示每一列序列的相似程度 Figure 3.14 选择show consensus strength显示结果 设置比对结果显示方式:突出显示匹配或错配的氨基酸点击 OPTIONS-New Decorations,在 alignment decoration name 框里输入 shade disagreements(自己定义名字),选择 decoration parameters 为 shade—residues differing from—the consensus,此时下方出现新的选项,选择对 选定字符突出显示的颜色,选择完毕,点击 OK,则与 majority 序列不同的字符将突出显示。
