您所在位置：网站首页 > 生活休闲 > 社会民生 > 生工复习资料

生工复习资料.doc

10页

卖家[上传人]：公****

文档编号：547234040

上传时间：2023-04-08

文档格式：DOC

文档大小：223.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15金贝

下载

/ 10 举报版权申诉马上下载

文本预览

下载提示

常见问题

1.注册号为XP_001918319的序列来自于什么生物？是DNA、RNA还是蛋白质？由多少个碱基或氨基酸组成？分子是线形还是环状？GI号多少？答：Equus caballus (horse) 蛋白质 1730 aa linear 194213952 2.想查找植物抗性基因相关的文献，以“resistant gene”为检索词，加引号和不加引号得到的结果是否相同？为什么？两种检索中，Pubmed数据库中满足条件的记录分别为多少条？答：不同不加引号时只要两个词都出现即可，可以是分别单独出现；加引号要求两个词以词组形式一起出现不加引号时，有49108条，加引号时有473条3.用Blastn程序进行序列对位排列分析时，是用核酸还是用蛋白质搜索核苷酸数据库？搜索时能不能用原始序列进行搜索？用基因Z83834进行Blastn搜索时，应选用哪个数据库，human G+T？nr/nt？还是EST？搜索结果显示有多少条同源序列？同源程度排第三的序列GI号是？答：核酸，可以用原始序列，应该用nr/nt，搜索结果有67条同源序列，GI号是2419858834.两条序列的对位排列（BLAST 2 sequences）能充分发掘两条序列的同源区段，请以U72725为Query Sequence、U37133为Subject Sequence进行对位排列分析，找出同源区段，并绘图。

答：有3个同源区段:Query4771-51586205-73867670-8033Subject1-3971519-26793515-3878如图：5. 结合生物信息学的知识，谈谈如何利用序列对位排列分析进行DNA序列延长（电子PCR）？答：以DNA为例，将新得到的DNA进行blastn搜索，若检索结果中有相似程度非常高的序列，则可以认为查询到的序列是新得到序列的另一个区段，从而进行合并排列，即可得到延长的序列，再用延长后的序列重复上述操作，就可得到更长的延长序列1.以“XM_001918284”为关键词进行Entrez检索，结果显示该序列来自于什么物种？是DNA还是RNA？由多少碱基组成？分子是线形还是环状？编码区是？答：Equus caballus (horse) mRNA 5367 bp linear 175-53672.想查找植物抗性基因相关的信息，以“plant resistant gene”为检索词，加引号和不加引号得到的结果是否相同？为什么？两种检索中，Nucletide数据库中满足条件的记录分别为多少条？答：不同不加引号时只要三个词都出现即可，可以是分别单独出现；加引号要求三个词以词组形式一起出现。

不加引号时，有1825条，加引号时没有满足要求的记录3.用Blastp程序进行序列对位排列分析时，是用核酸还是用蛋白质搜索核苷酸数据库？搜索时能不能用原始序列进行搜索？用基因Z83834对应的蛋白质进行Blastp搜索时，应选用哪个数据库？搜索结果显示有多少条同源序列？同源程度排第三的序列来自什么物种？答：蛋白质，可以用原始序列，应该用nr，搜索结果有100条同源序列，同源程度排第三的序列来自Triticum aestivum (bread wheat)？4. PSI-BLAST在什么情况下使用能发挥其长处？为什么PSI-BLAST (Position Specific Iterated BLAST)在进行多次循环检索后会出现大量假阳性？答：在blastp检索得到的同源序列较少时，可以进行PSI- BLAST（迭代搜索），从而获得更多的同源序列以供参考PSI- BLAST在进行多次循环检索后会出现大量假阳性原因是：如果查询序列A有两个区段，第一次查询找到序列B，B与A有一部分同源，再以B为查询序列是找到的序列C虽然与B有同源序列，但是与A已没有了任何同源性，即C为假阳性，如果再以C为查询序列，则得到的序列将出现大量假阳性。

序列A序列B序列C5. 结合生物信息学的方法，谈谈如何对一条新获得的序列进行定位？答：利用STS数据库进行序列定位：将得到的新序列进行blastn搜索，对应的数据库选择为STS数据库，如果搜索到同源序列，则可以通过STS中序列的位置推断该序列的位点如果STS中找不到同源序列，则可以在基因组数据库或者核苷酸数据库中进行blastn搜索，看找到的同源序列能否提供序列定位信息1. 三大核苷酸数据库分别是？最常用的蛋白质数据库是由EBI (European Bioinformatics Institute)创建的哪个数据库？生物信息学的数据库是否包括文献数据库？NCBI的文献数据库是？(10分)三大核苷酸数据库分别是GenBank、EMBL核苷酸数据库、DDBJ（3分）最常用的蛋白质数据库是由EBI创建的UniProtKB（3分）生物信息学的数据库包括文献数据库（2分）NCBI的文献数据库是Pubmed（2分）2. 想查找抗病基因相关的文献，以“resistant gene”为检索词，加引号和不加引号得到的结果是否相同？为什么？谈谈如何在Pubmed数据库中查找全文 (10分)不同（2分）不加引号时只要两个词都出现即可，可以是分别单独出现（2分）；加引号要求两个词以词组形式一起出现（2分）。

在Pubmed数据库中输入关键词“resistant gene”，查询后可看见free full text/free article的标识，进入该文章的摘要页面后，点击相关链接查找，有机会得到免费全文4分）3. 有同学想看看NCBI数据库中有没有序列长度为2011的蛋白质，他应该如何输入关键词呢？简略地谈谈你的搜索过程和结果10分)关键词为“2011[SLEN]” （2分）检索过程：方法一：打开NCBI主页或者Entrez主页，输入关键词，跨库检索点击蛋白质数据库可得满足条件的蛋白质信息目录，点击链接可查看相关信息方法二：直接选择蛋白质数据库进行搜索，可得满足条件的蛋白质信息目录，点击链接可以进入每条蛋白质信息页面4分）检索结果：有104条蛋白质的序列长度为20114分）4. 用Blastp程序进行序列对位排列分析时，是用核酸还是用蛋白质搜索核苷酸数据库？搜索时能不能用原始序列（FASTA format）进行搜索？用基因Z83834对应的蛋白质进行Blastp搜索时，应选用哪个数据库？有多少个满足要求的结果？ (10分)答：Blastp是用蛋白质序列搜索蛋白质数据库（2分），可以用原始序列进行搜索（2分），基因Z83834来源于大麦（2分），应该用nr/nt数据库（2分），搜索结果显示有100个满足要求的结果。

2分）Query4771-51586205-73867670-8033Subject1-3971519-26793515-38785. 两条序列的对位排列（BLAST 2 sequences）能充分展现两条序列的同源区段，请以U72725为Query Sequence、U37133为Subject Sequence进行对位排列分析，找出同源区段，并绘制简图10分)答：有3个同源区段（:3分）如图（7分）：7.现拿到一条人类核酸序列NM_017999，请应用Softberry网站相关软件（“Gene Finding in Eukaryota”类中的“FGENESH”）预测基因和分析基因结构进行基因预测时，应该选择什么作为参照物种？Monocot plants (Corn, Rice, Wheat, Barley)？Fish? 还是Human？预测结果显示有几个基因？几个外显子？外显子范围是？答：Human，1个基因，2个外显子，外显子范围分别是250-792，1477-34688. 蛋白质CAA07416的分子量是多少？等电点是多少？组成该蛋白质的氨基酸中，氨基酸组成如何？答：Molecular weight: 124171.1Theoretical pI: 8.93Ala (A) 78 6.9%Arg (R) 72 6.4%Asn (N) 44 3.9%Asp (D) 52 4.6%Cys (C) 12 1.1%Gln (Q) 47 4.2%Glu (E) 95 8.5%Gly (G) 77 6.9%His (H) 10 0.9%Ile (I) 49 4.4%Leu (L) 69 6.1%Lys (K) 91 8.1%Met (M) 10 0.9%Phe (F) 26 2.3%Pro (P) 89 7.9%Ser (S) 132 11.7%Thr (T) 49 4.4%Trp (W) 20 1.8%Tyr (Y) 31 2.8%Val (V) 71 6.3%Pyl (O) 0 0.0%Sec (U) 0 0.0%9.谈谈生物信息学的知识和理念对你以后学习、生活的帮助或启示。

答：略1. 什么是EST序列？EST序列是如何获得的？(10分)EST序列，即表达序列标签(expressed sequence tag)（3分）EST序列是这样获得的：从样品中提取RNA，反转录成cDNA，然后对cDNA5’和3’端各测序一次，即单次测序得到的结果（5分）EST序列代表着mRNA的特性，可以通过EST序列发现基因（2分）2. 想查找植物抗病基因相关的信息，以“plant resistant gene”为检索词，加引号和不加引号得到的结果是否相同？为什么？两种检索中，Nucleotide数据库中满足条件的记录分别为多少条？(10分)答：不同（2分）不加引号时只要三个词都出现即可，可以是分别单独出现（2分）；加引号要求三个词以词组形式一起出现（2分）不加引号时，有2330条（2分），加引号时没有满足要求的记录（2分）3. 注册号为U37133的序列来自于什么生物？是DNA、RNA还是蛋白质？由多少个碱基或氨基酸组成？分子是线形还是环状？ (10分)U37133的序列来自于Oryza sativa Indica Group（rice）（3分），是DNA（3分），由3921 bp组成（2分），分子式线状。

2分）4. 用Blastn程序进行序列对位排列分析时，是用核酸还是用蛋白质搜索核苷酸数据库？搜索时能不能用原始序列（FASTA format）进行搜索？用基因Z83834进行Blastn搜索时，应选用哪个数据库，human G+T？nr/nt？还是EST？有多少个满足要求的结果？ (10分)答：Blastn是用核酸搜索核苷酸数据库（2分），可以用原始序列进行搜索（2分），基因Z83834来源于大麦（2分），应该用nr/nt数据库（2分），搜索结果有67条同源序列（2分）5. PSI-BLAST在什么情况下使用能发挥其长处？为什么PSI-BLAST (Position Specific Iterated BLAST) 在进行多次循环检索后会出现大量假阳性？(10分)PSI-BLAST即Position Specific Iterated BLAST，数据库迭代搜索每次搜索用上次检索得到的所有序列搜索数据库，在blastp检索得到的同源序列较少时，可以进行PSI- BLAST（迭代搜索），从而获得更多的同源序列以供参考（4分）PSI- BLA。

点击阅读更多内容