
gromacs文件介绍and一些杂知识.pdf
39页1 (1)gromacs(GMX) 各种文件格式详细,可以查阅GROMACS 手册第 5章第 6小节,以下为简要介绍CPT 文件 :该文件为模拟断点文件(check point,.cpt) 该文件为模拟过程固定时间间隔产生,保存模拟系统所有信息该文件一部分可以在能量文件( .edr)找到,一部分可以在双精度轨迹文件(.trr)中找到如果模拟不幸因为外界条件中断(如断电,模拟人发脾气砸电脑等),可以使用该文件重新在断点处开始模拟,以节省模拟时间 同时也可以依靠该断点文件开始,并延长模拟计算(见tpbconv) EDR文件 :系统能量文件(energy,.edr) 该文件记录模拟输入文件中定义的能量组的各种相互作用能量等EPS 文件 :封装文件格式(.eps) ,并不是 GROMACS 自身文件格式,可以当图片打开 LINUX系统下一般已经有默认打开程序,WINDOWS 要安装其他打开程序(可以GOOGLE 以下)GROMACS 的 DSSP 和罗麽占陀罗图等通过xpm2ps 处理后都是这个文件格式习惯就好G87文件 :分子坐标文件(.g87) 该文件记录并只记录原子坐标和速度,不含原子序号。
并只记录常压强模拟系统的盒子信息G96文件 :分子坐标文件(.g96) GROMOS96 程序的分子坐标文件,模拟程序以 15.9的 C 语言格式写入, 精度较高, 但是会比较大 包含有文件头,时间步,原子坐标,原子速度,以及盒子信息等GRO 文件 :分子坐标文件(.gro) GROMACS 的最主要分子坐标文件,明白这个文件,就基本明白使用GROMACS 了该文件类型的各个文本列字数固定,C语言的写入格式为:“%5d%5s%5s%5d%8.3f%8.3f%8.3f%8.4f%8.4f%8.4f“ 具体固定文本列有:残基序号, 5位数;残基名称,5字母;原子名称,5字母;原子序号,52 为数;原子坐标三列,X,Y ,Z 坐标各 8位数,含 3个小数位;速度同坐标,速度单位为nm/ps(km/s) ITP文件 :分子拓扑文件(.itp) 被主拓扑文件(.top)包含的分拓扑文件,一般包含某个特定分子的类型于主拓扑文件区别有它不引用其他力场文件,同时包含[system],[molecule] 等拓扑字节M2P 文件 :xpm2ps 程序配置文件,定义输出eps 文件中颜色,字体种类及大小等。
MDP 文件 :GROMACS 的模拟配置文件( .mdp) 该文件所含定义较多,各关键字的含义可以查阅GROMACS 手册 (这是使用GROMACS 进行分子动力学模拟最最最最(10个最)重要的文件,no mdp 文件, no GROMACS 模拟好好看书,以明白各个关键字的含义因为它太重要,所以不在此简要描述N2T 文件 :原子名称及类型对照文件(.n2t) x2top 程序可以按照原子名称得到该原子的原子类型力场参数,N2T 就是 x2top 程序扫描的数据库,文件很小文件中文本行有原子名称,原子类型,原子电量,原子质量,该原子与其他原子成键距离等NDX 文件 : 原子索引文件 (.ndx) 该文件含原子的序号, 当使用 make_ndx程序生成索引文件时,可以定义不同的原子组,每组名下即是该组所含各个原子的序号PDB 文件 :分子坐标文件(.pdb) 这个就不用说了(说真的,如果真没有听过这个文件类型的话,看这篇文章有点浪费时间RTP 文件 :残基力场参数文件(.rtp) 该文件包含常见残基的力场信息,包括残基所含原子,成键种类等使用pdb2gmx 处理 PDB 文件时,程序按照 PDB 文件信息,在RTP 文件中寻找对应的残基力场信息。
3 TOP 文件 :模拟系统的拓扑文件(.top) 该文件就是所谓十分及其著名的系统拓扑文件啦, 其包含各个关键字都十分易懂;一般其还包含引用其他力场文件( #include) TOP 文件一般由pdb2gmx 产生, grompp 程序生成模拟 TPR 文件时使用TPR 文件 :模拟打包文件(.tpr) 该文件打包模拟需要各种信息,包括模拟系统,模拟控制等TRJ 文件:全精度轨迹文件(.trj) 该文件包含模拟系统模拟各个时间下的原子坐标, 速度和受力等 所含帧数频率由MDP 文件控制, 文件较大TRR 文件 :以上同,一般为默认格式由于所含信息多,可以也EDR 文件一起使用,重新开始模拟程序XPM文件 :数据矩阵文件(.xpm) 该文件矩阵中每个值即是矩阵点所表示的物理量大小(也可以是布尔值)该文件其实就是二维图,可以失踪 xpm2ps 转换为图片XTC 文件 :模拟轨迹单精度文件(.xtc) 单精度轨迹文件,文件较TRR和 TRJ 小,为常用分析文件包含模拟系统中原子坐标,模拟时间,和模拟盒子信息XVG 文件 :二维图标文件(.xvg) 二维画图工具xmgrace 的默认文件,可以使用 xmgrace 打开。
2)Gromacs 中几个特殊文件aminoacids.dat该文件保存GMX 默认的蛋白质和核算的默认残基名称如果计算过程要建立一个新的蛋白质或者核算残基,可以将新的残基名称加到该文件中,并增加文件第一个的整数即可有时候可以将该文件拷贝到当前工作文件夹进行编辑,以不影响其他计算的命名(GMX 的文件搜索总是从当前目4 录开始的FF.datGMX 默认力场列表, 即 pdb2gmx 处理 PDB 文件时可以选择的立场列表增加新的力场, 可以编辑该文件, 并修改文件第一行的整数,使其与力场种类熟目一致specbond.datGMX 处理特殊化学键的文件,特殊化学键包括二硫键,血红素铁原子于其他原子成键等 该文件第一行指明特殊键对的数目,第二行开始即为各个特殊键对的信息, 其中第一列为键对第一个残基的名称,第二列为该残基成键原子的名称, 第三列为该原子可以成键的数目,第四到第六列为成键另一个残基的信息,第七列为该化学键的平衡长度,此后两列为成键后残基的新名称vdwradii.dat原子范德华半径数据库 使用 genbox 为系统添加水分子, 或者使用 genion为系统添加离子时,各个原子间的距离要大于两个原子范德华半径之和,否则则为原子重叠(3)常见水分子模型进行分子动力学模拟,水分子十分重要,除非选择使用连续介质模型(implictit water model ) 。
水分子模型较多,选择这些模型要结合使用的力场,并参考别人已经的数据一下简单介绍几种常见的水分子模型,希望对了解它们有点帮助按照一般化学常识, 水分子由三个原子构成,主要的参数应该有各个原子的质量,电量,氢氧键的长度以及H-O-H 的键角没有错,最简单的水分子模型就是这些参数都固定的刚性水分子模型如SPC 模型和 TIP3P5 模型这两种模型中, 原子质量和电量都在同一个质点上唯一不同的是TIP3P 的 H-O-H键角比理论值 109.47小,为 104.52度这两种水模型只有氧原子具有范德华作用系数,氢原子的范德华系数为0以上两种模型有对应的改进模型,SPC 的改进模型为SPC/E,起主要改进其实就是使溶液系统的总能量乘以5.22 kJ/mol这样可以使SPC 溶液属性更加接近实验值TIP3P 在 CHARMM力场中的改进是给氢原子一定的范德华系数,这样做的结果的计算根据复杂 (很无奈,因为结果好,所以也没有办法 )由于真是情况下水分子的电量分布并不是完全在原子上的,如氧原子的一部分负电量就在H-O-H 的对角线上, 还有两个电子对处在H-O 化学键的延长线上 为了得到更加真实的水分子模型,四个粒子以上的模型就被应用到分子动力学模拟中。
其中最著名的有TIP4P 模型该模型在三个原子中间, H-O-H化学键的对角线上多了一个不含质量,只带电量的点很多蛋白质模拟计算中,TIP4P 和 OPLS 力场结合使用都得到很好的效果以上提到,水分子的氧原子在H-O 化学键延长线上有两个电子对,于是有的人就在这两处添加了两个只带电量的粒子2000年报道的TIP5P 模型, 计算结果也很好 还有一些牛人, 结合 TIP4P 和 TIP5P , 要研制 TIP6P ,很好很强大不得不说,并不是模型的所含粒子越多越好粒子越多,就算付出越大,因为要计算的相互作用更多(4)力场“ 力场 ” ,请不要被 “ 场” 这个听起来像是十分高深的物理名词给吓坏了分子动力学模拟中使用的力场,包含两个重要的部分:6 1)模拟粒子之间相互作用的方程(即经典力学的相互作用力方程如库仑定律,范德华作用方程等)2)方程的参数(即各个不同粒子,原子本身的参数,如带点量等等)可以想想, 模计算机模拟好多成键或者不成键的粒子的运动,总要让它们互相推推拉拉吧,于是力场就是定义它们推推拉拉的方式(按照物理定律) 力场类型,一般分类为三种:i)全原子力场:精确定义每一个原子的参数。
ii)联合原子力场:省略非极性氢原子,同时把其参数整合到与他们成键的相邻原子上(比如甲基,只由一个碳原子表示)iii )粗颗粒力场:进一步精简分子结构的力场参数,种类比较多,比如有讲蛋白侧链看作一个颗粒的力场,或者甚至将整个氨基酸残基看成一个颗粒的力场等等一般来说力场的方程和参数是自成一个系统的,所以一般不能在一个系统中使用两个力场的参数更具体的将, 同一个原子在力场一中的带电量与起在第二个力场中是不一样的,化学键也一样 一般来讲, 也不能特定修改力场中模一个原子的参数,因为原子之间是互相交叠依赖(比如未来保证整个氨基酸残基电量为0,各个原子电量加和必须为0) 但是,这并不是说一定不行, 相反的, 为了模拟一些不常见的分子,经常需要根据已有的参数(力场里面的,其他论文等)来构建新的分子参数具体方法可以参考 Mr. Google 等著名老师目前比较流行的力场有:AMBER : 包含好几个版本的力场,为全原子力场;7 CHARMM :全原子力场,是软件CHARMM的一部分;GROMOS :GROMOS软件使用的力场,版本较多,为联合原子力场;OPLS:包含全原子和联合原子力场两个版本;粗颗粒力场: 种类较多, 没有固定版本或者种类,一般根据研究需要开发。
5)Gromacs 重启模拟计算以前介绍过如果使用GMX 3.x 重新由于种种原因停止的模拟,以下为GMX 4.x 下重启模拟的方法GMX 4.x 的模拟程序mdrun 较以往版本有不少不同在模拟过程中,mdrun 按照mdp 文件在一定时间间隔保存一个断点文件(checkpoint file, .cpt 文件) ,该文件保存了该时刻模拟系统的所有物理量信息如果由于不可预见原因, 模拟中断, 则可以使用该文件重新在该时刻开始进行模拟重启模拟的命令如下:------- mdrun -s topol.tpr -cpi state.cpt -append------- 以上 state.cpt 文件为最新生产的断点文件( mdrun 会保存另外一个断点文件: state_prev.cpt,为上一个时刻保存的断点文件,双保险使用“ -append “ 的作用是将模拟输出添加到已有文件中,包括轨迹文件, 记录文件,能量文件等,相同帧的信息将被后生产的信息覆盖当然,也可以继续像GMX 3.x 一样使用tpbconv 生产新的tpr 文件继续模拟,详细请参见旧文或手册6)Gromacs 多链模拟进行模拟计算时, 如果模拟分子由两条以上的链组成,一般都要明确告诉8 模拟软件区分两条链。
模拟软件一般没有那么聪明,除非明确定义, 否则它会把两条以上的化学链(如肽链,DNA ,其他聚酰胺等)看成一条链在建立模拟文件是,上一条链尾端会于下一条链头部加一个共价化学键(如肽键)由于该化学键一般很长,开始模拟时系统就“ 爆炸 ” 了AMBER 软件在处理这样的问题的。












