
生工复习资料.doc
10页1.注册号为XP_001918319的序列来自于什么生物?是DNA、RNA还是蛋白质?由多少个碱基或氨基酸组成?分子是线形还是环状?GI号多少?答:Equus caballus (horse) 蛋白质 1730 aa linear 194213952 2.想查找植物抗性基因相关的文献,以“resistant gene”为检索词,加引号和不加引号得到的结果是否相同?为什么?两种检索中,Pubmed数据库中满足条件的记录分别为多少条?答:不同不加引号时只要两个词都出现即可,可以是分别单独出现;加引号要求两个词以词组形式一起出现不加引号时,有49108条,加引号时有473条3.用Blastn程序进行序列对位排列分析时,是用核酸还是用蛋白质搜索核苷酸数据库?搜索时能不能用原始序列进行搜索?用基因Z83834进行Blastn搜索时,应选用哪个数据库,human G+T?nr/nt?还是EST?搜索结果显示有多少条同源序列?同源程度排第三的序列GI号是?答:核酸,可以用原始序列,应该用nr/nt,搜索结果有67条同源序列,GI号是2419858834.两条序列的对位排列(BLAST 2 sequences)能充分发掘两条序列的同源区段,请以U72725为Query Sequence、U37133为Subject Sequence进行对位排列分析,找出同源区段,并绘图。
答:有3个同源区段:Query4771-51586205-73867670-8033Subject1-3971519-26793515-3878如图:5. 结合生物信息学的知识,谈谈如何利用序列对位排列分析进行DNA序列延长(电子PCR)?答:以DNA为例,将新得到的DNA进行blastn搜索,若检索结果中有相似程度非常高的序列,则可以认为查询到的序列是新得到序列的另一个区段,从而进行合并排列,即可得到延长的序列,再用延长后的序列重复上述操作,就可得到更长的延长序列1.以“XM_001918284”为关键词进行Entrez检索,结果显示该序列来自于什么物种?是DNA还是RNA?由多少碱基组成?分子是线形还是环状?编码区是?答:Equus caballus (horse) mRNA 5367 bp linear 175-53672.想查找植物抗性基因相关的信息,以“plant resistant gene”为检索词,加引号和不加引号得到的结果是否相同?为什么?两种检索中,Nucletide数据库中满足条件的记录分别为多少条?答:不同不加引号时只要三个词都出现即可,可以是分别单独出现;加引号要求三个词以词组形式一起出现。
不加引号时,有1825条,加引号时没有满足要求的记录3.用Blastp程序进行序列对位排列分析时,是用核酸还是用蛋白质搜索核苷酸数据库?搜索时能不能用原始序列进行搜索?用基因Z83834对应的蛋白质进行Blastp搜索时,应选用哪个数据库?搜索结果显示有多少条同源序列?同源程度排第三的序列来自什么物种?答:蛋白质,可以用原始序列,应该用nr,搜索结果有100条同源序列,同源程度排第三的序列来自Triticum aestivum (bread wheat)?4. PSI-BLAST在什么情况下使用能发挥其长处?为什么PSI-BLAST (Position Specific Iterated BLAST)在进行多次循环检索后会出现大量假阳性?答:在blastp检索得到的同源序列较少时,可以进行PSI- BLAST(迭代搜索),从而获得更多的同源序列以供参考PSI- BLAST在进行多次循环检索后会出现大量假阳性原因是:如果查询序列A有两个区段,第一次查询找到序列B,B与A有一部分同源,再以B为查询序列是找到的序列C虽然与B有同源序列,但是与A已没有了任何同源性,即C为假阳性,如果再以C为查询序列,则得到的序列将出现大量假阳性。
序列A序列B序列C5. 结合生物信息学的方法,谈谈如何对一条新获得的序列进行定位?答:利用STS数据库进行序列定位:将得到的新序列进行blastn搜索,对应的数据库选择为STS数据库,如果搜索到同源序列,则可以通过STS中序列的位置推断该序列的位点如果STS中找不到同源序列,则可以在基因组数据库或者核苷酸数据库中进行blastn搜索,看找到的同源序列能否提供序列定位信息1. 三大核苷酸数据库分别是?最常用的蛋白质数据库是由EBI (European Bioinformatics Institute)创建的哪个数据库?生物信息学的数据库是否包括文献数据库?NCBI的文献数据库是?(10分)三大核苷酸数据库分别是GenBank、EMBL核苷酸数据库、DDBJ(3分)最常用的蛋白质数据库是由EBI创建的UniProtKB(3分)生物信息学的数据库包括文献数据库(2分)NCBI的文献数据库是Pubmed(2分)2. 想查找抗病基因相关的文献,以“resistant gene”为检索词,加引号和不加引号得到的结果是否相同?为什么?谈谈如何在Pubmed数据库中查找全文 (10分)不同(2分)不加引号时只要两个词都出现即可,可以是分别单独出现(2分);加引号要求两个词以词组形式一起出现(2分)。
在Pubmed数据库中输入关键词“resistant gene”,查询后可看见free full text/free article的标识,进入该文章的摘要页面后,点击相关链接查找,有机会得到免费全文4分)3. 有同学想看看NCBI数据库中有没有序列长度为2011的蛋白质,他应该如何输入关键词呢?简略地谈谈你的搜索过程和结果10分)关键词为“2011[SLEN]” (2分)检索过程:方法一:打开NCBI主页或者Entrez主页,输入关键词,跨库检索点击蛋白质数据库可得满足条件的蛋白质信息目录,点击链接可查看相关信息 方法二:直接选择蛋白质数据库进行搜索,可得满足条件的蛋白质信息目录,点击链接可以进入每条蛋白质信息页面4分)检索结果:有104条蛋白质的序列长度为20114分)4. 用Blastp程序进行序列对位排列分析时,是用核酸还是用蛋白质搜索核苷酸数据库?搜索时能不能用原始序列(FASTA format)进行搜索?用基因Z83834对应的蛋白质进行Blastp搜索时,应选用哪个数据库?有多少个满足要求的结果? (10分)答:Blastp是用蛋白质序列搜索蛋白质数据库(2分),可以用原始序列进行搜索(2分),基因Z83834来源于大麦(2分),应该用nr/nt数据库(2分),搜索结果显示有100个满足要求的结果。
2分)Query4771-51586205-73867670-8033Subject1-3971519-26793515-38785. 两条序列的对位排列(BLAST 2 sequences)能充分展现两条序列的同源区段,请以U72725为Query Sequence、U37133为Subject Sequence进行对位排列分析,找出同源区段,并绘制简图10分)答:有3个同源区段(:3分)如图(7分):7.现拿到一条人类核酸序列NM_017999,请应用Softberry网站相关软件(“Gene Finding in Eukaryota”类中的“FGENESH”)预测基因和分析基因结构进行基因预测时,应该选择什么作为参照物种?Monocot plants (Corn, Rice, Wheat, Barley)?Fish? 还是Human?预测结果显示有几个基因?几个外显子?外显子范围是?答:Human,1个基因,2个外显子,外显子范围分别是250-792,1477-34688. 蛋白质CAA07416的分子量是多少?等电点是多少?组成该蛋白质的氨基酸中,氨基酸组成如何?答:Molecular weight: 124171.1Theoretical pI: 8.93Ala (A) 78 6.9%Arg (R) 72 6.4%Asn (N) 44 3.9%Asp (D) 52 4.6%Cys (C) 12 1.1%Gln (Q) 47 4.2%Glu (E) 95 8.5%Gly (G) 77 6.9%His (H) 10 0.9%Ile (I) 49 4.4%Leu (L) 69 6.1%Lys (K) 91 8.1%Met (M) 10 0.9%Phe (F) 26 2.3%Pro (P) 89 7.9%Ser (S) 132 11.7%Thr (T) 49 4.4%Trp (W) 20 1.8%Tyr (Y) 31 2.8%Val (V) 71 6.3%Pyl (O) 0 0.0%Sec (U) 0 0.0%9.谈谈生物信息学的知识和理念对你以后学习、生活的帮助或启示。
答:略1. 什么是EST序列?EST序列是如何获得的?(10分)EST序列,即表达序列标签(expressed sequence tag)(3分)EST序列是这样获得的:从样品中提取RNA,反转录成cDNA,然后对cDNA5’和3’端各测序一次,即单次测序得到的结果(5分)EST序列代表着mRNA的特性,可以通过EST序列发现基因(2分)2. 想查找植物抗病基因相关的信息,以“plant resistant gene”为检索词,加引号和不加引号得到的结果是否相同?为什么?两种检索中,Nucleotide数据库中满足条件的记录分别为多少条?(10分)答:不同(2分)不加引号时只要三个词都出现即可,可以是分别单独出现(2分);加引号要求三个词以词组形式一起出现(2分)不加引号时,有2330条(2分),加引号时没有满足要求的记录(2分)3. 注册号为U37133的序列来自于什么生物?是DNA、RNA还是蛋白质?由多少个碱基或氨基酸组成?分子是线形还是环状? (10分)U37133的序列来自于Oryza sativa Indica Group(rice)(3分),是DNA(3分),由3921 bp组成(2分),分子式线状。
2分)4. 用Blastn程序进行序列对位排列分析时,是用核酸还是用蛋白质搜索核苷酸数据库?搜索时能不能用原始序列(FASTA format)进行搜索?用基因Z83834进行Blastn搜索时,应选用哪个数据库,human G+T?nr/nt?还是EST?有多少个满足要求的结果? (10分)答:Blastn是用核酸搜索核苷酸数据库(2分),可以用原始序列进行搜索(2分),基因Z83834来源于大麦(2分),应该用nr/nt数据库(2分),搜索结果有67条同源序列(2分)5. PSI-BLAST在什么情况下使用能发挥其长处?为什么PSI-BLAST (Position Specific Iterated BLAST) 在进行多次循环检索后会出现大量假阳性?(10分)PSI-BLAST即Position Specific Iterated BLAST,数据库迭代搜索每次搜索用上次检索得到的所有序列搜索数据库,在blastp检索得到的同源序列较少时,可以进行PSI- BLAST(迭代搜索),从而获得更多的同源序列以供参考(4分)PSI- BLA。
