好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

图书馆跨平台信息检索系统初探.doc

6页
  • 卖家[上传人]:F****n
  • 文档编号:103332217
  • 上传时间:2019-10-06
  • 文档格式:DOC
  • 文档大小:48.50KB
  • / 6 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 图书馆跨平台信息检索系统初探徐汝兴(上海交通大学 图书馆 上海,)摘要 随着计算机和因特网的飞速发展,数字图书馆的电子资源日益丰富图书馆数字资源和发布方式的多样性使用户在使用过程中越来越感到不便跨平台信息检索系统成为目前数字图书馆建设中一个重要的课题本文试图通过对现行各类整合系统的分析,提出一个跨平台检索系统的模式,并通过实践经验对这个系统进行进一步展望关键词 跨平台检索系统;异构数据;数字图书馆;分布式系统;数据整合Initial Research of Cross-Platform Retrieval Systems in Digital LibraryXu Ruxing(Shanghai Jiao Tong University Library Shanghai,)Abstract Along with the rapid development of computer and Internet technologies, electronic resources in digital library are increasingly varied and plentiful. End users are easily getting confused in different interfaces and searching methods when making a query. The cross-platform retrieval system becomes one of the key topics in construction of digital library. The article is trying to present a model of this kind of system based on analysis of several integrated retrieval systems now in use and prospects via further applications of it.Key Words cross-platform retrieval system, heterogeneous resources, digital library, distributed system, data integratation 数字图书馆建设方兴未艾,各种数字资源层出不穷,同时由于数字资源建设的不同步以及采用技术的不同,各种数字资源都有自己的数据结构、组织方式、查询方式以及显示界面。

      对于用户来说,为了查准查全所需要的资料,不得不分别进入不同的查询系统,熟悉每个数据源的检索方式和显示格式跨平台检索系统正式针对了这个问题而出现它可以在一个统一的界面和查询环境下对不同数据源的信息统一进行查询,并以统一的界面显示不同数据源的信息跨平台检索系统可以节省用户获取资料的时间;提高查准率和查全率;将不同媒体不同类型的数据源以整合的方式显示 现今跨平台检索系统有几种类型,都有各自的特点和适用范围,但是在结构和应用上尚不能达到真正的统一资源整合发布要求交大图书馆近两年在这方面作了些研究和探索,并建立了一个试验系统,希望能够建立一个跨平台跨媒体的统一检索系统通过实践也发现了一些问题,希望在此和同行进行交流切磋1图书馆分布式数据源分析1.1电子数据源的多样性按数据实体区分有全文(原文),文摘,索引等;存储方式有数据库,文件系统等;数据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归属上有自建,购买和免费等;数据的内容形式上又有图书、期刊、事实数据等对用户而言,要查到所需学科的各种资料,在分散的资源中,他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面和检索策略。

      即使这样,他也很可能遗漏了某些数据源费时费力但是查全率较低1.2数据发布形式的多样性电子资源目前主要有专用服务器/客户端和WEB发布两种方式专用服务器/客户端模式主要应用在目前的OPAC,Z39.50,某些光盘数据库系统等方面因特网的发展使WEB发布方式成为信息发布的主流方式,也成为跨平台检索系统主要面对的处理对象虽然同为WEB发布方式,但是每种电子数据源的用户界面,检索点,检索策略和显示方式都因为数据源的特点和系统设计等不同而千变万化同是电子图书,“超星”、“书生”和“APABI”都有各自的检索特点:“超星”的检索点是书名、作者、出版社和出版日期;“书生”多了ISBN、丛书名和摘要;“APABI”又多了关键词、全面检索和全文检索等检索点电子图书如此,那么电子期刊之间、期刊与图书及其它资源间的差异就更显而易见了2跨平台检索系统模式分析2.1元数据整合模式元数据整合模式是目前应用较多的跨平台系统系统结构如图1原始数据源元数据集原文发布系统元数据发布系统客户端原文传递图1 元数据整合模式本模式通过对多个全文(原始)数据源按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。

      通过一个发布系统(WEB服务器)与客户端进行交互用户看到的是一个集成后的多数据源查询系统,得到的是对原始数据的描述信息通过一个特定连接,用户可以直接从原始数据源中得到原文数据本模式的特点是检索速度和方式不受不同数据源的约束,元数据查询和原文获取通过不同的服务,但是标引和组织元数据需要耗费一定的资源,元数据与原文数据源之间的同步性差对于元数据一致性协同性要求较高,或变动不太频繁的数据源采用这种方式较为合适例如:电子期刊刊名整合、自建的数据库系统、电子图书整合等2.2中间件模式这种模式多用于数据源有数据访问接口,系统结构见图2本模式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据源的独立访问请求,通过标准(ODBC/JDBC)或非标准的数据访问接口(API)对原始数据源进行实时访问并将结果整合后通过发布系统(或直接)返回给用户 这种模式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据源的原文发布服务;但应用局限于原始数据源必须提供访问接口,而且由于各数据源的速度问题而影响到用户得到结果的时间另外中间件的开发和获取各数据源后的数据整合策略和技术需要合理规划。

      原文发布系统原始数据源ODBC/JDBC 或其它API接口数据采集中间件数据发布系统(可以含全文)查询分析/中间件分拆,数据整合(可以含全文)客户端原文传递图2 中间件模式本模式适合用于有标准接口的数据源跨平台检索中,例如:将图书馆书目查询与电子图书(电子期刊)(必须是标准的数据库而且开放的结构)整合查询;多个图书馆书目查询系统通过各自的Z39.50服务器在客户端的中间件中整合显示(省去了数据发布系统);OAI数据服务者通过OAI协议从不同数据提供者那里获取数据并整合后提供服务2.3网页搜索代理模式这种模式的应用前提是原始数据源都提供了WEB发布并有查询功能,系统结构见图3:这种模式对于目前图书馆大量购买的数据源和网上免费数据源整合发布比较适合这些数据源通常只提供有限的元数据,也极少会提供标准接口分布式网页搜索代理可以通过模拟用户请求到数据源的网站上获取信息,整合以后返回给用户客户端原文发布系统原始数据源查询分析/搜索代理分拆,数据整合(可以含全文)数据发布系统(WEB服务器)原文传递图3 网页搜索代理模式本模式对于大多数网上资源可以进行实时,高细粒度的检索(取决于对方网站提供的检索深度,例如一般国外电子期刊可以提供到篇名级的检索),用户的查准率可以得到最大程度的满足。

      同时,对信息挖掘分析、软件开发和网络环境等的要求也相当高为了获得足够的元数据信息,设计时必须对数据源的WEB结构层次和文献组织有详细的分析,对不同的查询请求需要进行转换以达到数据源接受的要求;同样,对元数据的统一标准、数据整合策略和发布结果策略的制订等都有要求国内外都有类似的软件,但是因为没有将其它类型数据源(特别是现有的自建数据库等)进行整合的妥善解决办法,真正成功的案例不多2.4依附模式将一些其它数据源的部分元数据(含超链接)加入到一个数据源中一起发布最常见的形式有将订购(或自制)的全文电子图书(期刊刊名)的URL地址加入到书目查询系统中(或反向)这种模式短期可以部分解决资源最大利用的问题,但是缺点是数据更新工作量很大而且多为人工处理;适用的范围较小3跨平台检索系统的应用和扩展3.1试验系统的分析我们从2001年起开始进行跨平台检索系统的研究,考虑到上述四种模式的特点,设计了一种集成模式系统结构如图4:数据采集方式一:我们对不是经常更新的数据或者没有合适查询服务的数据源用3.2元数据整合模式建立了元数据数据库,试验系统尝试了书生电子图书,本馆书目查询系统(考虑图书管理系统的运行性能),自建VOD数据库(缺少查询界面)数据采集方式二:对于数据更新频繁但是查询条件简单但是有数据库接口的数据源原始数据源元数据数据库搜索代理数据采集中间件元数据采集数据分析整合器查询分析器数据发布系统(WEB服务器)原文传递原文传递客户端图4 集成模式的跨平台检索系统结构采用2.2中间件模式建立数据采集中间件,实例选用本校硕博士论文库。

      该数据源基于TRS数据库,TRS提供了自定义接口数据采集方式三:对于订购的网上电子期刊等更新速度快又有较好的检索体系的数据源采用2.3网页搜索代理的方式进行元数据采集选定的试验数据源是中国期刊网和Elsevier期刊库由于不同数据源的数据性质差异,我们对所有选定的数据源按照DC的15个标准字段制订了转换标准;对网页搜索方式的数据源,事先分析了网页中与DC对应的数据位置查询界面分简单(自由词)查询和高级查询由于考虑网络和数据源速度,高级查询中列出各个数据库估计的查询时间检索点在简单查询中对各个数据源的所有可检索点进行查询,而在高级检索中仅显示最小检索点数据源的检索条件用户还可以选择数据源和检索词(点)的组合查询显示分概览和细览两种,概览以列表方式显示命中记录的主要字段,细览则列出所有的15个字段,其中的统一资源标识符(DC_Identifier.URI)以URL方式直接让用户连接到全文为了使系统具有可扩展性和可移植性,我们采用了JSP技术来进行开发3.2实现过程中的问题由于我们水平有限,本系统涉及的标准和技术较多,还受到数据源变化等影响,系统实现过程中遇到了一些问题:元数据标准选定:考虑到各个数据源的不同特点和组织方式,我们选用了DC作为一个统一的数据标引标准。

      但是具体落实到不同数据源时,DC有一定的局限性,如果进行不同类型的扩展,那么数据整合又会非常复杂检索策略:不同数据源(特别是网页类的数据源)检索点不同,这点在中文网站上尤其突出,给统一完善的检索机制带来很大挑战我们采用的最小检索点策略将使查全率不能得到保障期望国内数据提供商能够向国际通用标准靠拢检索速度:受网络和原始数据源系统处理速度的影响,获得数据时间差异很大,对用户的耐心以较大考验时间和查全率难以找到合适的平衡点目前大多数系统采用先到先显示的方法这样结果显示的多样化(比。

      点击阅读更多内容
      相关文档
      高等学校学生手册.doc 2025年区教育系统招聘编外教师储备人才事业单位考试押题.docx 2025年秋季青岛版三年级数学上册认识轴对称现象教学课件.pptx 2025年秋季青岛版三年级数学上册用乘法估算解决问题教学课件.pptx 2025年秋季青岛版三年级数学上册两、三位数乘一位数的笔算(不进位)教学课件.pptx 2025年秋季青岛版三年级数学上册1200张纸有多厚教学设计范文.docx 2025年秋季青岛版三年级数学上册多位数除以一位数教学课件.pptx 2025年秋季青岛版三年级数学上册认识平移、旋转现象教学课件.pptx 2025年秋季青岛版三年级数学上册多位数乘一位数教学设计范本.docx 2025年秋季青岛版三年级数学上册认识平移与旋转教学设计范文.docx 2025年秋季青岛版三年级数学上册乘数中间有0或末尾有0的乘法教学课件.pptx 2025年秋季青岛版三年级数学上册两位数乘一位数的笔算(进位)教学课件.pptx 2025年秋季青岛版三年级数学上册《两、三位数乘一位数的笔算(不进位)》教学设计与意图.docx 2025年秋季青岛版三年级数学上册我学会了吗教学课件.pptx 2025年连云港市妇幼保健院招聘专业技术人员考试笔试试题.docx 2025年深圳市大鹏新区发展和财政局招聘考试笔试试卷.docx 2025年绵阳市梓潼县财政投资评审中心招聘考试试题.docx 2025年来宾市妇幼保健院招聘考试笔试试题.docx 2025年无极县教育系统招聘教师考试笔试试卷.docx 2025年灵山县第三中学调配教师考试笔试试题.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.