
日本网络资源存档项目实践研究.doc
8页日本网络资源存档项目实践研究 闫晓创 新华社办公厅 摘 要: 日本国立国会图书馆实施的网络资源存档项目 (Web Archiving Project, WARP) 在网络资源存档的理论和实践方面都取得了显著成果本文从 WARP 项目的基本情况、采集方式、采集频率、检索利用以及特色性内容采集等方面进行了介绍, 认为日本国立国会图书馆的经验对我国开展国家层面的网络资源存档工作, 包括合作共享、法律支撑、社交宣传、国际交流、理论研究等方面都有借鉴意义关键词: WARP; 网络资源; 网页存档; 日本; 基金:2015 年国家档案局科技项目《现代全媒体新闻机构网络资源保存模式研究》 (项目批准编号:2015-X-20) 阶段性成果之一Practical Researches on Web Archiving Project of JapanYan Xiaochuang Abstract: The Japanese Web Archiving Project (WARP) implemented by the National Diet Library (NDL) has got remarkable achievements both in theory and practice of archiving web resource. This paper introduces the collection mode, collection frequency, retrieval, utilization, and characteristic content collect of WARP. We can learn a lot from Japan's experiences to carry out web archiving at the national level covering the following issues, including cooperation and sharing, legal support, social publicity, international exchanges and theoretical researches.Keyword: WARP; Web Resource; Web Archiving; Japan; 根据中国互联网络信息中心 (CNNIC) 2017 年 8 月发布的第 40 次《中国互联网络发展状况统计报告》, 截至 2017 年 6 月, 中国网站总数为 506 万个, 其中“.CN”域名下网站数为 270 万个[1], 平均每个网页的寿命仅为 44 天至 2 年。
为了保存网络上珍贵的文化资源, 世界各国纷纷启动了网络资源的存档项目, 美国、欧洲、澳大利亚等国家和地区都开展了丰富多彩的项目日本也以国立国会图书馆为主体开展了网络资源的存档工作, 并且取得了较为丰富的成果, 极大地丰富了该国文化资源宝库1 日本 WARP 项目基本情况日本网络资源存档项目 (Web Archiving Project, WARP) 从 2002 年启动, 由日本国立国会图书馆负责实施2009 年日本国立国会图书馆对网络资源存档的相关法律进行了修订和完善, 2010 年修订了《国立国会图书馆法》和《著作权法》, 其中《国立国会图书馆法》的第二十五条第三款规定, 为了达到协助国政审议的目的, 国立国会图书馆有权利采集国家与地方公共团体等公共组织发布在网络上的信息;《著作权法》第四十二条第四款规定, 国立国会图书馆基于法律收集网络信息, 无需取得著作权人的许可通过这两个法律, 日本的网络资源存档工作做到了有法可依, 为项目的顺利开展提供了重要的法律保障2010 年 4 月, 日本国立国会图书馆依照法律开始采集日本官方机构的网站, 主要包括中央政府、国会、法院、地方政府、独立的行政机构和高校的网站, 在日本运行的文化和国际活动的网站, 国际活动相关的电子杂志以及在其他网站允许情况下的网络信息。
WARP 项目明确网络资源存档的生命周期是选定、收集、组织化、保存和公开 5 个部分, 紧紧围绕这几部分开展网络资源存档工作1.1 WARP 项目的采集状况WARP 项目已采集了超过 1 万个网站, 采集次数达 9.6 万次, 约 36 亿个文件, 存储容量达 630TB从 2002 年至 2016 年, 日本国立国会图书馆的网络资源采集数量, 包括采集网站数、采集网页数以及数据量等都有了较大的增长 (见表1) 尤其从 2010 年开始, 在日本相关法律配套支持下的网络资源采集量迅速增加WARP 项目网络资源采集的格式涵盖了很多种, 主要包括jpg、png、tiff、html、pdf、xls 等, 其中图片和网页格式类占 60%以上[2]以上数据及表 1 数据统计时间截止到 2017 年 3 月1.2 WARP 项目的采集方法及频率1.2.1 采集方法WARP 项目的采集方法是利用开源的网络爬虫工具对指定的网站进行自动采集采集流程为首先确定采集对象网站, 设置网址 URL, 网络爬虫工具根据采集指令对网页的 HTML 文件进行复制, 复制内容包括 HTML 文件中的文字、图片、音视频文件, 网络爬虫工具从网站主页解析链接描述, 再次回到网页进行采集, 这样反复进行, 直至被采集网页的所有内容采集完毕。
为了减轻采集对象网站服务器的负担和减少对被采集网站正常工作的影响, WARP 项目在采集时设置了一定的时间间隔[3]表 1:WARP 项目年度采集情况 下载原表 针对设置了爬虫协议的网站, WARP 项目根据《国立国会图书馆法》第二十五条第三项规定, 采集对象网站有义务在爬虫协议中追加允许国立国会图书馆采集的内容国立国会图书馆在无法进行采集的情况下, 可以要求对象采集网站通过邮件等方式将相关内容发送至国立国会图书馆, 政府机构有义务向国立国会图书馆报送包括年鉴、要览、人员名单、业务报告和预算决算书等 17 类数据资源WARP 项目采用了完全采集和差异采集两种采集方式完全采集是将每次采集的内容全部留存, 不管内容是否一样 (在采集间隔内, 一个网站内有些网页进行了更新, 有些没有更新) 差异采集是将每次采集活动中不同的内容留下, 相同的内容进行剔除进行差异采集能够减少文件保存所需的存储容量, 大约有70%的减缩量, 也就是说差异采集需要的存储容量为完全采集的 30%左右, 在采集海量网络资源的工作中, 差异采集会极大地节约存储空间在差异采集中, 通过哈希值 (HASH) 的比较来判定是否为相同的文件。
1.2.2 采集频率WARP 项目针对不同的采集对象, 制定了不同的采集频率WARP 项目主要针对的是日本国家机关网站资源的采集, 因此对此类网站采集的频率最高, 对于国家机关网络资源每月采集一次;自治体、都道府县、政令指定都市、市町村、独立行政法人、大学等的网络资源, 每季度采集一次;民间机构的网站资源, 原则上一年采集一次1.3 WARP 项目的提供利用WARP 项目通过专题网站提供了 3 种检索利用方式, 分别为关键词检索、机构检索和详细检索关键词检索通过输入关键词显示两类检索结果, 一类为元数据显示列, 显示的是含有输入关键词的被保存的网页的元数据;另一类为全文显示列, 显示的是含有输入检索词的被保存的网页内容及其网页名称关键词检索的范围是数据库中存储的所有网络资源机构检索主要包括国家中央机构 (立法:国会;行政:内阁、会计检察院;司法:裁判所) 和自治体, 可以通过自治体检索框对日本所有行政机关采集内容进行检索, 或者可以通过展示图点击相应的机构直接显示所采集到的内容此外还有法人 (机构) , 选择后直接显示所采集到的法人 (机构) 的元数据显示列;大学, 选择后显示所采集到各个大学的元数据信息。
通过元数据列进行展示另外还有政党检索、主题活动检索、电子杂志检索等详细检索包括全文、元数据和范围三个检索项目, 其中全文包括采集到的网络内容、URL (网址) 和采集存储格式三个选项;元数据包括公开者 (出版者) 、编者、起始 URL、ISSN/ISBN 等;范围包括保存的时间以及保存的机构类型1.4 WARP 项目检索结果展示WARP 项目提供的搜索结果包括元数据和正文信息两部分, 在检索出的结果中, 与输入的关键词相符的部分是由高光 (强调) 表示的WARP 项目在所采集的网页完全没有被更新的情况下, 正文的检索结果只显示一个数据在 WARP 项目中保存的网站信息, 其网络存储地址 (URL) 表示包含三部分, 即固定部分、永久标识符和原始网站 URL固定部分为 WARP 赋予每个采集网站的一个标识, 永久标识符为基于保存日期给定的标识符, 原始网站 URL 为所采集网站的网址此外, 在存档网络资源的利用方面, 所保网站资源的著作权归属于原著作权者, 公众可在著作权法允许的范围内进行利用, 如果要进行二次开发利用 (图像、文档、报道、数据等的转载) , 利用者需通过相应的渠道获取使用许可。
2 WARP 项目特色性内容采集情况WARP 项目对一些具有特色的网络资源进行了采集和整理, 通过各种可视化的方式让公众更好地了解和理解该项目的内容2.1 国家机关或部门网站随时间的变化WARP 项目对所采集的日本国家机关部门网站中超过 1000 万份文件进行抽取, 通过分析展示了网络资源随时间发展的变化情况, 主要是 URL 和内容的变化情况一是 URL 存续情况的分析:对之前 5 年间的存续状况进行分析, 如在 2015年分析 2010 年至 2014 年采集到的 URL 存续情况, 发现随着时间的增加存续率持续降低, 2014 年的存续率为 86%, 2013 年存续率下降到 69%, 到 2010 年采集到的 URL 只有 40%还可访问二是内容存续情况分析:对过去 5 年的存续情况进行分析, 如在 2015 年分析 2010 年至 2014 年采集内容的存续情况, 发现 2015年采集到的内容在 2014 年有 80%还存在, 2013 年有 61%存在, 2010 年只有 40%还存在此外, WARP 还对日本各中央机构如内阁官房、总务省、法务省、外务省、文部科学省等机构采集的网络资源进行更加细致的分析, 包括不同格式 (如 jpg、html、tiff 等) 变化情况以及相同网站不同层级 URL 的变化情况, 并对这些变化用可视化图表进行展示。
2.2 日本列岛的网站资源WARP 项目对日本列岛的地方自治体的网站进行采集2009 年以前由于合并而不复存在的自治体网站是重点的采集对象, 在获得所有者的许可后予以收集2010 年 4 月以后, 由于法律的修正, 国立国会图书馆可不经发布者的许可收集公共机构的网站资源WARP 项目保存了日本都道府县、指定都市、市町村公共团体、东京 23 个区的网站首页, 通过配置各个机构的经纬度, 将以年为单位所发生的变化, 制作成了动画;还通过利用都道府县网站的链接关系进行了可视化展示, 公众通过可视化图表可以清楚地看到各个机构之间的关系2.3 消亡的市町村公共团体网站1999 年至 2010 年, 日本在全国范围开展市町村大合并运动根据日本总务省的统计, 日本市町村的数量由合并前的 3232 个 (1999 年 3 月 31 日) 减少为合并后的 1719 个 (2013 年 1 月 1 日) 这项运动造成了日本大概 1500 个市町村的网站从网络上消失WARP 项目中对这些消亡的市町村网站和合并协议会的网站进行了采集保存以及可视化展示, 由此这些消失的市町村的网站资源目前仍然可以被访问和利用, 为日本留下了重要的历史记忆。
2.4 东日本大地震网络资源WARP 项目对东日本大地震的相关网站进行了重点收集和保存, 。
