
网络信息保存运动对我国图书馆建设的启示.docx
9页网络信息保存运动对我国图书馆建设的启示 自从互联网诞生以来,已有大量的早期网络信息资源不再存在,作为一种易逝的,且不可再生的资源,网络信息大多是“原生性”数字资源,除了网页之外,并没有其它存在形式如果有价值的信息不能妥善储存,以后就很难再找回毋庸置疑,如果不采取行动保存目前大量产生的网络信息资源,明天也许它们就将永远地消失殆尽,不留下任何痕迹在意识到网络信息资源保存的重要性后,一些发达国家及相关组织、个人自20世纪90年代以来在全球范围内掀起了一场网络信息保存运动本文在介绍澳大利亚、英国、美国与挪威与国内国家图书馆、中国Web信息博物馆等网络信息保存项目基础上,分析了网络信息保存对我国图书馆建设的启示1 网络信息保存运动在国外20世纪19世纪中后期,随着网络信息保存的呼声越来越高,一些发达国家保存机构如图书馆、档案馆也已认识到保存网络信息资源的必要性和紧迫性因此,开展了各种实验项目来进行网络信息资源的保存,并通过国家或组织的合作来加强项目的开展,如1997年开始的由丹麦、挪威、芬兰、冰岛和瑞典五国合作的Nordic WebArchive项目,以及1998年开始的有9个国家图书馆、1个档案馆和3家出版商合作的nedli网络化欧洲存储图书馆(Networked European Deposit Library)项目。
除此之外,各国图书馆还开展了自己的保存项目,如日本、挪威、瑞典、加拿大、捷克、丹麦、奥地利、法国、德国、荷兰等…限于篇幅,本文只对较为著名和影响较大的澳大利亚PANDORA项目、英国网络信息保存联盟计划(UKWAC)、美国国会图书馆的MINEVRA和NDIIPP项目、挪威的PARADIGMA项目等进行简单介绍1.1 澳大利亚的PANDORA项目在诸多国家网络信息资源保存项目中,澳大利亚国家图书馆的“保存澳大利亚网络信息资源项目”( PANDORA)影响较大澳大利亚国家图书馆1996年就开始了此项目,其根本目的是在建立一个经过选择的澳大利亚网络信息资源归档系统的同时,为保护和存取澳大利亚电子资源制定政策和程序PANDORA项目的初衷是考虑到图书馆有责任收集和保存已经出版的国家资源,而不论资源采取什么样的形式目前,PANDORA项目主要采集的信息资源形式主要是文本文件和图像文件此项目的最终目标是保证未来的澳大利亚人能够检索存取今天澳大利亚的网上信息资源,就像我们今天能够检索以前的报纸和图书一样考虑到馆藏的多样性,澳大利亚国家图书馆正采取多种方法加以处理这些方法包括:维持和保存当前的软件甚至硬件;对那些能够和新的文件格式兼容并能够进行大规模转化的文件进行迁移;如果可能的话,针对某些文件格式开发出仿真工具;对那些不适合迁移和仿真的文件进行简单的保存和更新。
211.2 英国网络信息保存联盟计划(UKWAC)为了解决网络信息长期保存问题,英国六个具有影响力的机构于2003年10月组成联盟,并于2004年6月相互协作来完成一个实验性的项目——英国网络信息保荐联盟计划(UK Web ArchMng Consmtium project,UKWAC)其中的六个联盟机构是:大英图书馆(BritishLibrary),英国国家档案馆(National Archives),联合信息系统委员会(Joint Information Systems Committee,JISC),苏格兰国家图书馆(National Libraries of Scotland),威尔士国家图书馆(Nqtional Libraries of Wales),韦尔科姆图书馆(Welleome Library)UKWAC项目旨在对英国网站信息进行选择性的保存,2005年起联盟成员已经开始保存一些与本机构相关的站点,并在他们的联盟站点提供对已保存站点内容的免费检索服务UKWAC项目中并没有开发新的网络档案系统,而是采用了由澳大利亚国家图书馆开发的PANDAS系统作为联盟的网络信息保存系统。
之所以选择该系统是因为PANDAS系统是当时唯一现成的提供网络信息保存管理环境的应用系统,且该系统支持在分布式环境中使用,而这正是联盟工作机制所要求的另外,通过引进PANDAS系统,联盟只需付出很小的代价就可以尽快开始网络信息保存工作1.3 美国国会图书馆的MINERVA项目和NDIIPP项目美国国会图书馆同样认为保存开放式网络信息资源是国会图书馆的使命之一,并从2000年开始进行网络信息保存项目MINERVA(Mapping the Intemet Electrmuc Resources Virual Arcluve)该项目的主要目标是为有关网络信息的选择和收集方面的实际问题提供试验,从而为美国国会图书馆运行一个大规模的网络信息保存项目提供指导和经验该项目主要的活动包括以下几个方面:使用镜像程序下载网络快照,并对这些快照进行检查(错误、反常);使用OCLC的资源编目软件生成编目数据,并集成到国会图书馆的系统中;建立一个试用网站供用户检索;同美国版权局进行有关法律方面昀协商‘412000年12月,美国国会通过法案建立“国家数字信息基础设施和保存计划”(National Digital InformationInfrasUucture and Preservation Program,NDIIPP),该计划决定让国会图书馆承担领导全国数字信息长期保存的任务,并与政府部门和拥有收集与保存数字内容专长的实体进行合作,与澳大利亚的PANDORA相比.NDHPP项目所保存的网络信息资源形式更加多样化,包括:电子图书、电子期刊、数字音乐、数字电视、数字录像、网站等6种媒体类型信息。
[511.4 挪威的PARADIGMA项目 2001年,挪威国家图书馆开始实施网络信息保存项目PARADICMA (Preservation Arrangement&Retrieval ofAssmted Distal Materials)此项目的目标是确定收集和保存网络信息资源的技术、方法和组织,并且使国家图书馆能够在“呈缴制度”的框架下提供网络信息资源的存取服务[s]主要特点包括:(1)在对网络信息资源的收集方法上,挪威国家图书馆采用了全面自动保存的方法2)在网络信息资源的收集范围上,PARADIGMA项目不仅收集网页,同时还收集FIP文件、网络新闻组等对于vrP文件的选择主要是以主机的名称、文本格式和语言识别来进行;邮件列表和新闻相比,限制更多,一般需要申请和订阅,几乎都要进行人工操作3)对于网络信息资源的描述和处理,PARADIGMA项目对不同类型的资料采用不同的著录级别,如对于图书和期刊是完全著录,而对于一些其他的资料只是简单著录另外,挪威图书馆希望能够形成一个服务机制,让使得出版者和其他相关团体能够在提交网络信息资源之前自己生成描述元数据国家图书馆正在研究各种标识标准,其中一个最重要的方面是有一个处理网络文献不同时间版本的能力。
4)在网络信息资源的检索方面,挪威的网络信息保存将其分为面向编目人员、面向编程人员和面向图书馆用户的界面这种用户界面可以使用户选择统一文件的不同版本7】2网络信息保存运动在国内互联网在中国的普及使得各类网站如雨后春笋般出现,网络信息资源以指数倍增加但由于存储设备的限制,以及网络信息资源更新迅速,使得历史性的网络信息资源不能有效存储的问题在中国显得尤为突出在浩瀚的网络信息资源中,尽管其中的中文信息比率目前还很低,但是,随着我国信息化建设的进程,中文资源从类型到内容正在不断扩充和发展根据中国互联网络信息中心(CNNIC)发布的调查数据,因特网上的中文信息状况为(截止2010年06月30日):全国域名数1121万个,网站数量279万个,除此之外,国内网站的总网页数量,数据库总量等均增长迅速这些反映网络信息资源迅猛增长的数据都说明:进入21世纪网络信息资源已经成为人们获取信息的第一途径,如何长久保存这些有用的易逝信息变得紧迫和必要目前我国的网络信息资源保存尚处千试验和论证研究阶段.启动和开展的主要是网络信息保存试验项目,一个是中国国家图书馆的WICP和ODBN项目,另一个是中国Web信息博物馆计划。
同时浒多地方或高校图书馆(档案馆)也在探索建立网络信息保存机构,如南京图书馆网络信息保存中心、各地的数字档案馆等,大学和科研机构也承担了数字资源保存的课题,其中Web资源保存研究是其重要方面2.1 国家图书馆的WICP和ODBN项目2003年初,国家图书馆正式启动了WICP (WebInformation Collection and Preservation,网络信息采集与保存)和ODBN (On-line Database Navigation,网络数据库导航项目)项目,并于同年11月20日开通“网络信息资源保存”项目主页并提供服务技术上,WICP在进行网络信息的采集和保存的时候,按照表层网贡和深层网页分别进行采集和保存目前,表层网页即静态网页可比较容易地通过程序(也称采集机器人)收集.而深层网页即动态网页的采集在技术上还存在一定的困难组织上,WICP目前仅有十多人组成的“网络文献收集与保存试验小组”,尚无固定的编制和预算这两个项目是针对两类不同页面,即表层网页(静态网页)和深层网页(动态网页)进行网络信息资源的采集和保存WICP项目分别对网站单元和网页单元进行网络文献的收集、编目和保存,分别形成镜像存档和专题存档。
而ODBN项目则是通过收集、整理、编目和保存等操作,最终形成网络导航2.2 中国Web信息博物馆中国Web信息博物馆(Web Infomall)是2002年1月在国家973和985项目支持下,由北京大学计算机网络与分布式系统实验室主持开发的中国网页历史信息存储与展示系统,包括历史网页存储系统和回放系统两个部分这两部分独立完成各自的任务,回放系统是基于存储系统完成的目前系统主要实现了输入URL浏览永久保存的历史网页、典型历史网页展示浏览和历史事件专题回放三大功能它能为用户提供一个完整的历史网页,而不是单篇文章对于追寻重大历史事件发展进程的全貌有着特殊意义作为全国最大、最完整的互联网内容信息收集与仓储中心,Web Infomall现收藏有从2001年以来约10亿个中文网页,并以平均每月增加1000万网页的速度扩张不过中国Web信息博物馆只能查询国内中文网址,而不能像美国arcluve网站可查询全球网站的历史网页3网络信息保存运动对我国图书馆建设的启示比较各个网络信息保存运动开展项目发现,无论各个项目的对象、手段、内容存在何种差异,其网络信息资源保存的模式均包含三项内容,即信息资源的获取、信息资源描述以及检索与浏览。
众所周知,传统的图书馆工作包括文献资料的典藏、编目以及检索,而这又恰恰与网络信息资源保存模式中的三项内容不谋而合通过对这些运动项目的研究,可得到提高我们图书馆工作和服务的典藏、编目与检索工作启示3.1对图书馆典藏发展的启示信息资源的膨胀使得单个图书馆不可能依靠一家的力量去收藏完整的文献信息,网络信息资源的保存同样如此,分析这些保存项目,发现网络信息的搜集策略主要有选择性搜集和全部搜集,只有挪威的网络信息选择策略是全部搜索,其他各国都选用选择性搜集策略,国内的中国Web信息博物馆也只是对国内的中文网址信息进行保存,而不提供如arcluve网站全球网站的历史网页信息保存合适的网络信息搜集策略,明确清晰的收藏范围,可以大大降低计划实施的难度,确保网络信息保存计划的可行性以及获得良好的效果根据这些项目的信息选择策略,我们认为,面对呈指数级别增长的文献与网络信息,图书馆应根据自己的实际情况,采取资源共享、购买数字资源等各种方法,并对他们结合使用,达到有特色同时又能满足基本需求的典藏文献收。












