
Entrez 检索系统的简介.doc
20页一、Entrez 检索系统的简介Entrez 检索系统是储存和分析关于分子生物学、生物化学和遗传学知识的自动化系统, 是美国国家生物技术信息中心(National Center for Bio technology Information, NCBI) 网站http:// www. Ncbi. nlm. nih. gov/建立的最受欢迎的检索系统之一,它允许用户从NCBI 整合的多个数据库中同时检索文献题录和分子生物学数据Entrez系统中的数据库均有同样的检索界面, 遵循相同的检索规则这些数据库包含: PubMed: 生物医学文献数据库Nucleotide: 核酸序列数据库, 包括GenBank, RefSeq,和PDB中的序列数据Protein sequence database: 蛋白质序列数据库, 包括来自SwissProt, PIR, PRF, PDB, 以及自GenBank and RefSeq 解码转译的数据Structure: 大分子三维结构数据库Genome: 完整的基因组数据, 包括已经完成基因组测序和正在进行基因组测序的800 多种生物体;PopSet: 人口研究数据集, 指已搜集到的分析人类进化关联的DNA序列集OMIM: 人类孟德尔遗传数据库Taxonomy: GenBank中的物种分类学数据库Books: 生物医学图书ProbeSet: 基因表达和微阵列数据集3D Domains: Entrez Structure中特定功能域的三维结构UniSTS: 标记物和遗传学图谱数据(mapping data)SNP: 单核苷酸多肽性数据库1.Entrez系统的检索1.1 Entrez 检索的基本原理 PubMed用查询词自动映射(Automatic Term Mapping)功能将检索词与主题词转换表(MesH Translation Table)、期刊刊名转换表、短语表、作者索引表进行对照、匹配和转换.检索词被作为主题词和文本词分别检索,并自动形成相应的检索式。
1. 1.1 基本检索:是文献检索查全率的基本方法 自由词检索:进人PubMed检索主页面.检索字段为所有字段,在检索框内键人一个或多个检索词语,按Enter或点击c>o按钮 截词检索:也是在所有字段检索的方便方法,它只适用于单词,检索格式是“X*”, X表示一个词的开始部分如:"immunoglob*”就会检索出immunoglobulin ,immunoglobulins, immunoglobin, and immunoglobins等1.1. 2高级检索:主要用于提高文献的查准率 逻辑组配检索:逻辑组配使用大写的布尔逻辑运算符AND,OR,NOT将检索词连接形成检索式进行检索 预览/索引检索:在预览/索引页面的文本框进行多个词语的添加,再点击运算符,就可组配检索点击预览/索引的预览选择历史记录将显示最新连续检索的三个结果,提供观察检索策略的相互影响 限定检索如果检索结果过多,可采用限定检索范围Entrez的不同数据库因记录内容不同,各限定检索的条件也将随之而变PubMed的限定(Limits)检索页面中,提供了字段、文献类型、年龄、出版年份、语种、物质名称、人或动物、性别、子库及分类数据库等多种限定方向的检索形式。
常用的字段主要有文章题目[T1]、主题词[MeSH]、[MH]、副主题词[SH]、文本词语[TW]、作者姓名[AU]、期刊号[IP]、期刊名称[TA]、出版卷号[VI]、页码[PG]、出版日期[DP]、出版类型[PT].在默认状态下为所有字段[ALL]字段英文简称大小1. 2 Entrez 系统的基本检索用户可通过http://www.ncbi.nih.gov/Entrez 直接访问Entrez系统或登录NCBI网站主页的”Entrez”按钮进入Entrez 系统Entrez允许两种检索方式,一种是指定的识别号(unique identifier, UID),一种是按自由词(text term)检索也支持通过e-mail进行检索,如检索MEDLINE, 获得关于“angiostatin”的文献,显示20条记录,若前面path设置了e-mail,结果可以自动发送到邮箱中1. 3 特征栏介绍 在检索框下提供了四项选择: Limits, Preview/Index, History, Clipboard① Limits(条件限定): 允许用户根据不同的数据库, 进行特定字段的检索② Preview/Index(预览/索引): 提供用户预览检索结果和索引检索、修改检索式的方便;③ History(检索史): 点击History 可浏览检索史, 并能进行组配检索;④ Clipboard(剪贴版): 因为Entrez 系统检索结果输出时只输出显示界面的结果, 因此, 可将多次检索结果分别粘贴到Clipboard, 一并打印或存盘; Clipboard 中允许存放的检索结果最多是500 条; 如果不用, 1 小时后就自动清除。
因此应及时存盘或打印1. 4 结果输出Entrez 系统提供了三种输出途径, 即显示(display) , 存盘(save)和打印(print) (1) 显示(Display)① Show 在检索结果的display下, 选择限定每屏显示的记录数, 从每屏5 条到500 条因为系统默认的存盘或打印均以每屏为单位, 因此以设定500 为宜② Clipboard 因为Entrez 系统检索结果输出时只输出显示界面的结果, 因此, 可将检索结果粘贴到Clipboard, 一并打印或存盘; 另外, Clipboard 还允许将不同检索式中获得的检索结果, 一起放在Clipboard 中, 存盘或打印Clipboard 存放的检索结果最多是500 条,如果不用, 1 小时后就自动清除③ Sort (排序) 系统可将PubMed 的检出结果, 按作者姓名、杂志名称或出版日期排序, 方便阅读④ Text (文本) 点击“Display”框右侧的“text”按钮, 则显示全文 (2) 存盘(save) 点击save 存盘, 存盘记录与设定的显示记录格式相同3) 打印(print) 通过浏览器的print 功能, 可以打印页面显示的检索结果, 也可以打印存放在“Clipboard”中的记录。
二、 SRS检索系统简介SRS(Sequence Retrieval System)由位于英国的欧洲生物信息学研究所开发,是目前生物信息学领域中最常用的数据库检索系统之一 该研究所的SRS系统建于1997年,目前共整合了100多个各类数据库核酸序列数据库EMBL和蛋白质三维结构数据库PDB进行每日同步更新连接方式:华工主页——网格计算——华南理工大学生物信息网格平台——特色服务——SRS——点击进入或者登陆网站http://srs.ebi.ac.uk/实用功能:具多种数据库, 提供关键词查询序列信息 可以通过检索号码为索引 提供分析应用程序(BLAST, FASTA) 整合 EMBOSS (2003) 1. SRS系统的检索Quick Searches:可进行核算序列或蛋白序列的快速搜索,或根据已有的序列搜索相类似或者是同源的序列 Select Databanks: 确定搜索的数据库Tools:提供序列比对(Alignment Tools)、显示(Display Tools)、编辑(Edit Tools)、进化分析(Phylogeny Tools)等工具Result:有显示搜索历史记录、显示搜索结果排列方式、删除或保存搜索结果、限制搜索条件等功能。
三、 DBGET/LinkDB检索工具DBGET/LinkDB检索工具是日本京都大学化学研究所建立的GenomeNet数据库服务主页(http://www.genome.ad.jp),包括KEGG(京都基因和基因组百科全书)和DBGET/DB(http://www.genome.ad.jp/deget/dbget_manual.html)两套主要系统前者注重代谢途径(metabolic and regulatory pathway),后者处理数据库检索而且,该服务器提供了对有关资源进行整合后的综合信息检索界面,包括:核酸序列、蛋白质序列、三维结构、序列motif、酶和复合物、蛋白质-蛋白质相互作用、通路和复合体、基因分类、种属、遗传病、蛋白质突变、氨基酸索引、蛋白质/肽的文献、生物医学文献等DBGET与Entrez、SRS相区别的一大特征在于关键字不是在数据库安装或更新时建立的,而是根据关键字将数据储存在特定区域这样对于在数据库中快速查找是有利的,但是并不精细。












