
GenBank数据库检索及其应用.doc
13页GenBank 数据库检索及其应用 xGenBank 数据库检索及其 应用――Entrez 检索功能重庆医科大学图书馆李 轶简介GenBank 数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库.GenBank 数据库的数据来源有三种:1,直接来源于测序工作者提交的序列;2,与其它数据机构协作交换的数据;3,美国专利局提供的专利数据.NCBI 网站网址:http://www.ncbi.nlm.nih.govGenBank 和 PubMed(序列数据)检索的比较:1,GenBank 的检索结果是序列及其注释信息;PubMed 的检索结果是与序列数据相关的文献信息.2,GenBank 数据更新早于 PubMed,GenBank 数据库的检全率高于 PubMed.3, GenBank 可对序列数据进行限制检索,而 PubMed 只能对文献,杂志,作者等进行限制检索,因而 GenBank 数据库的检准率也高于 PubMed.检索界面简介基本检索输入框基本检索界面:执行检索按钮基本检索输入框基本检索界面:ras[GENE]点击进入跨库检索跨库检索界面:ras[GENE]执行检索按钮跨库检索界面:点击进入 GenBank 数据库GenBank 数据库界面:GenBank 数据库界面:点击进入核苷酸序列数据库检索界面GenBank 数据库界面:特征栏提供辅助检索功能核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(五)范围检索(三)序列长度检索(四)分子重量检索简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算检索限定词:1,基因名称的检索限定词:[GENE]2,生物体名称的检索限定词:[ORGN]3,作者姓名的检索限定词:[AUTH]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索特殊标志符的格式(核酸序列) :2,GenBank/EMBL/DDBJ 序列接受号:(1)1 个字母+5 个阿拉伯数字e.g.:U12345(2)2 个字母+6 个阿拉伯数字e.g.:AY123456,Af1234561,序列辨认号(GI):一串阿拉伯数字e.g.:6995995(1)mRNA 记录(NM_*):e.g.:NM_000492(2)基因组 DNA 重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域(NG_*):e.g.:NG_000019(5)从人类基因组序列注释,加工得到的序列模型记录(XM,XP,or XR_*):e.g.:XM_000483特殊标志符的格式(核酸序列):3,RefSeq(Reference Sequence)序列接受号:特殊标志符的格式(核酸序列):4 , PDB 序列接受号:1 个阿拉伯数字+3 个字母e.g.:1TUP序列接受号的检索限定词为[ ACCN]or[ACCESSION]AF123456[ACCN]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(三)序列长度检索1510[SLEN]序列长度的检索限定词:[SLEN]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(三)序列长度检索(四)分子重量检索2009[MOLWT]分子重量的检索限定词:[MOLWT]简介检索界面基本检索功能(一)名称,作者姓名,截词检索,布尔逻辑运算(二)特殊标志符检索(五)范围检索(三)序列长度检索(四)分子重量检索范围检索:中间用冒号连接1,序列接受号范围检索:AF114696:AF114714[ACCN]2,序列长度范围检索:3000:4000[SLEN]3,分子重量范围检索:2002:2009[MOLWT]4,日期范围检索:2005/01:2006/09/26[MDAT]or[PDAT]简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)检索史管理(History)剪贴板管理(Clipboard)详细匹配过程(Details)限制检索预检索/索引检索检索史管理剪贴板管理详细匹配过程简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)限制检索界面:限制检索界面:核苷酸序列数据库分为三个子数据库:EST :表达序列标记数据库GSS :基因组测序序列数据库CoreNucleotide :包含所有未被以上两个子数据库收录的核苷酸序列核苷酸序列数据库检索界面:核苷酸序列数据库检索界面:限制检索界面:限制检索界面:检索结果显示界面:限制检索范围限制检索(Limits):限制检索范围ras排除某种类型的序列限制分子类型限制分子类型限制基因位点限制基因位点限制序列片段的显示限制序列片段的显示限制数据来源限制数据来源限制数据修订日期限制数据修订日期简介检索入口基本检索功能特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)预检索/索引检索界面:hepatitis b索引检索输入框索引检索按钮索引检索按钮序列特性关键词索引ras[GENE]序列特性关键词索引简介检索界面基本检索功能特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)检索史管理(History)剪贴板管理(Clipboard)详细匹配过程(Details)penicillin-bindingmycobacterium tuberculosis#8 AND #4penicillin-binding AND mycobacterium tuberculosis[ORGN]简介检索入口基本检索功能特征栏辅助检索检索结果的显示检索结果显示界面:选择检索结果的显示格式选择检索结果的显示格式选择检索结果的显示格式摘要格式:联接Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:Genbank 格式:GenBank 记录中特性表中的主要关键词:增强子enhancer无法用信号特性关键词描述的信号序列misc_signalRNA 转录本的剪切识别位点polyA_signal已识别为基因或已命名的序列区域gene核糖体结合位点RBS修饰过的核苷酸modified_base真核启动子的 GC 盒GC_signal包含稳定突变的序列variation原核启动子的 Pribow 盒-10_signal该序列对以前的版本做过修订old_sequence原核启动子中的-35 框-35_signal序列不能确定的区域unsure真核启动子的 TATA 盒TATA_signal同一序列在不同的研究中在位点或区域上有差异conflict真核启动子上游的 CAAT 盒,与 RNA 结合相关CAAT_signal序列特性无法用特性表关键词描述的序列misc_difference转录起始区promoter生物学特性无法用特性表关键词描述的序列misc_feature解 释关键词解 释关键词加工和修饰 rRNA 的小核 RNAsnoRNA3'非翻译区外显子3'UTRexon小核 RNAsnRNA5'非翻译区5'UTR解 释关键词解 释关键词小细胞质 RNAscRNA前体转录本中被剪切掉的 3'端序列3' clip转运 RNAtRNA前体转录本中被剪切掉的 5'端序列5'clip核糖体 RNArRNA信使 RNAmRNARNA 转录本的多聚腺苷酸化位点polyA_site前体 RNAprecursor_RNA内含子intron初始转录本prim_transcript编码成熟肽的序列mat_peptide无法用 RNA 关键词描述的转录物或 RNA 产物misc_RNA转运蛋白编码序列transit_peptide双链 DNA 复制起始区rep_origin编码信号肽的序列sig_peptide转录终止序列terminator蛋白质编码序列CDS与转录终止有关的序列attenuator通过重组所消除的 DNAiDNA基因组中所包含的重复序列repeat_region无法用重组特性关键词描述的重组事件misc_recomb编码免疫球蛋白的可变区的序列V_ segment测序标签位点STS编码免疫球蛋白的可变区 N 末端的序列V_ region蛋白质结合区protein_bind免疫球蛋白重链的开关区S_ region复制,转录的引物结合位点primer_bind插入重排免疫球蛋白片段间的核苷酸N_ region无法描述的核酸序列结合位点misc_binding免疫球蛋白重链,轻链以及 T 细胞 α,β,γ 的结合链J_ segment卫星重复序列Satellite免疫球蛋白重链的可变区,T 细胞受体 β 链D_segment长末端重复序列LTR免疫相关蛋白上的不变区C_region单个的重复元件repeat_unitimmunoglobulin_related解 释关键词解 释关键词线粒体中 DNA 中的取代环D_loop发夹结构stem_loop无法用结构关键词描述的核酸序列高级结构或构型misc_structure解 释关键词解 释关键词GenBank 记录中特性表中的限定词:其他数据库信息的交叉索引号/db_xref=获得序列的细胞类型/cell_type=DNA 复制方向/direction=已被引用的参考文献数/citation=序列直接从环境材料中获得而没有指明来源物种/environmental_sample=获得序列的克隆文库/clone_lib=DNA 样本的来源国/country=嵌合范围/bound_moiety=相对于序列第一个碱基,编码序列密码子的偏移量/codon_start=给定基因的等位基因/allele=含 义限定词含 义限定词序列产物的酶学编号/EC_number=获得序列的细胞器/organelle=指出与参考密码子不同的密码子/codon=评论及附加信息/note=序列编码产物的名称/product=如果序列是 DNA 并来源于免疫球蛋白家族,则表示该序列来源于未重排 DNA/germlinetRNA 反义密码子的位置及它所编码的氨基酸/anticodon=序列来源于某种插入元件/insertion_seq=获得序列的细胞系/cell_line=序列来源的生物个体/isolate=获得序列的染色体/chromosome=为扩增序列来源物种所用的实验室宿主/lab_host=获得序列的克隆子/clone=指明 DNA 来源于染色体分化的大核期/macronuclear获得序列的群体变异种名称/pop_variant=在种群中发生变异的频率/frequency=描述 PCR 的反应条件/PCR_conditi-ons=指明 DNA 序列未按通常的生物学规律翻译,如 RNA 编辑/exception=含 义限定词含 义限定词序列特性所导致的表型/phenotype=指出在记录中的来源特性在其他物种中还有不同的来源特性/focus获得序列的质粒名称/plasmid=序列所代表的功能/function=蛋白质的检索号/protein_id=序列来源于某种物种的单倍体/haplotype=整合在基因组中的前病毒/proviral描述序列来源物种的生理,环境和地理信息/isolation_sou-rce=如果序列是 DNA 并来源于免疫球蛋白家族,则表示该序列来源于重排 DNA/rearranged序列特性的俗名/label=从 5'→3'注明遗传元件的顺序/number=序列来源于某种生物的特定发育阶段/dev_stage=提供测序。
