
群体遗传学——人群结构推断软件Structure 2.2使用指南.doc
7页群体遗传学——人群结构推断软件Structure 2.2使用指南http://pritch.bsd.uchicago.edu/structure.htmlThe basic algorithm was described by Pritchard, Stephens & Donnelly (2000). Extensions to the method were published by Falush, Stephens and Pritchard (2003) and (2007) and by Hubisz, Falush, Stephens and Pritchard (2009).1、待分析数据文件的编辑可新建文本文件并命名为project_data,以文本编辑的方式编辑数列:第一列:样品代码(成功录入后被识别为individual ID),每一样品占两行,每一行为其一个基因型,如样品1的基因型为AA,样品2的基因型为AT,样品3的基因型为TT,则编辑为:(两行数字不一样则表示杂合数据)第一列 第二列 第三列1 1 11 1 12 1 12 1 23 2 23 2 2如果有多个等位基因,可以按1,2,3,4,5等顺序编码各样品的基因型;第二列:人群代码((成功录入后被识别为POPID)),即第一群人的代码全为1,第二群人的代码全为2,第三群人的代码全为3;(最好说是群体类群编码,可以是不同来源地代号,或是生态类群代码))(这列最好不要有,后续选项中一旦选中最后算出的K值很有可能就是群体类群数(POPID的数量)第三列:位点1的分型结果。
如上所述,如果有2个等位基因,可用1、2代表;如果有多个等位基因,可分别以1,2,3,4,5等代表;第四列:位点2的分型结果编码方法同上 2、打开Structure软件,选择File-->OPEN DATA FILE-->选中所编辑好的打他data文件,查看格式、数据,如有修改应保存退出;3、选择File-->NEW PROJECT-->STEP 1-->命名Project Name-->选择存放路径-->选择保存过的待分析文件;4、STEP 2-->填入待分析样品数量,如220-->Ploidy of data即选择单倍体或二倍体,选2-->Number of loci,选位点个数-->MiMissing data value,一般选-9;5、STEP 3-->依次选择row of marker names, row of recessive alleles, map distance between loci, phase information等,没有就不选;最下面,如果没有data file stores data for individuals in a single line就不选;6、STEP 4-->Individual ID for each individual(选择) ,putative population origin for each individual(选择),USEPOPINFO selection flag(不选),Phenotype information(不选),other extra column(不选)以及number of extra column(不选);(其实应根据你数据的实际情况选或不选)7、点击“Finish”;Proceed;8、点击Parameter set-->new-->length of burnin peroid (填写10000)-->Number of MCMC Reps after burnin (填写10000);(不作数迭代(burnin peroid )最好设为10000,而后续的MCMC最好设为100000)9、Ancestry Models,Allele frequency model,Advanced等均选Default setting; enter the name: 输入名字,运行完毕将产生一个由该名字命名的文件夹以保存运算结果和绘图。
都Default是不科学的,No admixture model假设个体基因源来源纯粹. is appropriate for studying fully discrete populations and is often more powerful than the admixture model at detecting subtle structure.而Admixture model.假设个体基因源来源非纯粹:Individuals may have mixed ancestry. 应该根据你材料具体情况来选择模型)10、点击“Start a job”,单击选中命名的文件夹名称,设置K从2到7等,其它不选,点击Start群体较大比如超过200个体,起码算到20,这里number of iterations 最好选3以上,在计算∆k时可能用到)11、点击“Plotting”,选择刚才命名job的名字,result file选择run_1, run_2等,即可看到聚类的三角图形三角图是花架子,论文里常用的是bar plot 才是关键)(此后为我续写内容) 13.单击主菜单“view”选项下的simulation summary,会出现所有运行结果的重要参数汇总,其中最重要的是看lnPr(X|K)值的变化是否有拐点,即后验概率的极大值在K等于几时出现,特别注意K值持续增大是常有的事,这时就要用 用 ∆k 来确定K值,如下图:K虽然持续增大,但 ∆k可判断出k应该为2. 14.在确定K为几后,点击相应result file选择run_?(K=?)选项,把含有以下内容的文本拷贝到excel中编辑inferred ancestry of individuals: Label (%Miss) Pop: Inferred clusters 1 7 (0) 1 : 0.996 0.001 0.001 2 10 (0) 1 : 0.635 0.001 0.003 3 26 (2) 1 : 0.991 0.001 0.001 4 28 (6) 1 : 0.991 0.006 0.001 5 65 (2) 2 : 0.991 0.004 0.00115:整理为以下标准格式后就可以放到TASSEL软件中计算用了标准格式:86 3 2 Q1 Q2 Q3 7 0.014 0.972 0.01410 0.003 0.993 0.00426 0.071 0.917 0.01228 0.035 0.854 0.11129 0.013 0.982 0.00530 0.762 0.017 0.22116、注意:运行完毕后产生的以“job名字”命名的文件夹中自动含有project_data文件,其内容与最初编辑的project_data文件完全一致,故原编辑的project_data文件可以删去。
柱形图绘制软件Distruct使用指南当Structure软件运行完毕获得结果后,往往需要以CLUMPP或distruct软件绘制柱形图distruct用法如下:1、从http://rosenberglab.bioinformatics.med.umich.edu/distruct.html下载并解压缩Distruct 1.1压缩包,可以看到含7个以casia为名的文件及5个名字字首为distruct的文件,还有一个drawparams的文件和一个颜色文件夹;2、运行casia.postscript文件,应该能产生一个含9个群体柱形图的casia.pdf文件,这表明系统及软件正常;3、打开casia.popq和casia.indivq将其原内容清空并置换为前述Structure软件运行后所产生的_run_1_f文件的内容(拷贝并粘贴),其中_run_1_f文件同时含有individual和population两者的数据以Word打开casia.indivq文件,将_run_1_f文件后半部分的内容自“Inferred ancestry of individuals”行以下的数据拷贝并粘贴到casia.indivq文件中,全部替换原来的210行数据;以Excel打开casia.popq文件,将_run_1_f文件前半部分含有“Proportion of membership of each pre-defined population in each of the 3 clusters”的行下面的数据拷贝并粘贴到casia.popq中,并替换原来的内容(K=3是可变的!)。
新产生的内容注意仍然保持原来210行数据的那种格式4、打开casia.languages文件,将原内容“50 Indo-European51 Dravidian57 Indo-European59 Indo-European58 Indo-European52 Linguistic isolate54 Indo-European629 Altaic699 Altaic56 Indo-European”替换为现内容“1 CEU2 CHB3 YRI”;保存为原格式;5、打开casia.names文件,将原内容"50 Balochi51 Brahui57 Makrani59 Sindhi58 Pathan52 Burusho54 Hazara629 Uygur699 Yakut56 Kalash"替换为现内容"1 CEU2 CHB3 YRI"保存为原格式;6、打开casia.perm文件,将原内容"5 yellOw4 Pink1 Red2 green3 blue_Purple"中的4、5颜色删去,并保存为原格式;7、以文本格式打开drawparams文件,将drawparams文件中的#define K 5 // (int) number of clusters #define NUMPOPS 9 // (int) number of pre-defined populations#define NUMINDS 210 // (int) number of individuals中的5,9,210改为3,3,220,并保存;8、将原distruct1.1文件夹中的casia_f文件删去,将_run_1_f文件整个拷贝并粘贴到解压缩后获得的distruct1.1文件夹中,重命名为casia_f;9、运行distruct1.1文件夹中的distructWindows1.1应用程序,将修改导入Windows系统;10、点击casia.postscript文件即可产生casia.pdf文件,这便是所需的结果。












