好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

一种快速去重的文件数据复制方法.docx

4页
  • 卖家[上传人]:ting****789
  • 文档编号:308869855
  • 上传时间:2022-06-12
  • 文档格式:DOCX
  • 文档大小:19.34KB
  • / 4 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 一种快速去重的文件数据复制方法专利名称:一种快速去重的文件数据复制方法技术领域:本发明涉及一种数据复制方法,特别涉及一种快速去重的文件数据复制方法技术背景对于现有的文件数据复制方法主要有两种一种是对整体文件进行去重,另一种 是对文件内部数据块进行去重前者是指针对整体文件去重算法进行的改进传统的算法 叫做完全文件检测(whole file detection,WFD)WFS技术是以文件为粒度查找重复数据, 首先对整个文件进行指纹计算(hash计算),然后将该值与已存储的其他文件的hash值进 行比较,如果检测到相同的值,则仅将文件用指针替换,如果不同则将整个文件进行传送, 后者,将文件拆分为更小的数据段,对数据段的内容进行指纹计算,然后对每个段进行指纹 对比,检测出内容相同的数据段,重复的段只传送指针,不同的数据段传输该数据段的全部 内容与前者相比,实际传送的数据量决定于备份或复制间隔内所产生的数据变化量,因 此,比前者所需要传输的数据量要少很多然而其文件对比所需要的检测时间确是相同的, 均为对所有文件的所有内容进行比对检测然而,对于某些文件,经处理前后的内容完全一样,然而其指纹信息确发生了变 化,如果只对全文件进行指纹计算,来确定前后是否一致,进而来决定是否对全文件进行复 制,很可能造成具有完全一样内容的文件被再次传输,增加了传输的负载,也没有达到去复 的目的。

      如果对于一些本来就没有被修改过的文件来说,采用上述数据段去复的方法进行 去重复制,那么需要将该文件分成若干段,将每段内容指纹计算,然后将每个数据段的指纹 进行对比,最终确定复制策略,这样一来,大大增加了对文件内容一致性的检测时间另外, 即便文件内容有改动,然而,对于一些行业来说,比如影视行业,IT业等他们需要定期复制 的文件数量很大,且单一文件大小也很大,通常被修改的部分较大,且被修改的位置在文件 中的分布也不一定,比如,经大量修改后的内容存在于整个文件的中部或末尾,如果采用现 有技术中上述数据段去重的方法的去重文件数据复制方法,对文件数据的进行备份,需要 对所有的内容进行对比,因此,很多没有修改的信息都被提取出进行对比,其前期的检测时 间大大增加了,使复制的效率大大降低,更严重的甚至会造成工业生产的停滞,进而造成较 大的经济损失发明内容为此,本发明要解决的技术问题在于,提出一种能够显著减少重复文件数据检测 时间,又能很好地保证重复性文件检测精度的,高效的快速去重的文件数据复制方法为此,本发明的一种快速去重的文件数据复制方法,包括指纹获取步骤在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前, 处理器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标 文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并将所述IDl文件和所述ID2文件存储在数据库中; 在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在 对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第 二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔 尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和 所述ID4文件存储在数据库中;指纹对比和文件复制执行步骤将所述IDl文件与所述ID3文件进行对比若所述IDl文件与所述ID3文件相同,则无需将所述第二目标文件复制到所述目 标文件目录下;若所述IDl文件与所述ID3文件不相同,且所述ID2文件与所述ID4文件相同,则 传输所述ID3文件更新所述第一目标文件相应的元数据;若所述IDl文件与所述ID3文件不相同,且所述ID2与所述ID4文件不相同,则将 所述第二目标文件全文件复制到所述目标文件目录下。

      上述的文件数据复制方法,所述第一目标文件的元数据信息包括所述第一目标文 件的按特定顺序组合而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目 标文件的元数据信息包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修 改时间上述的文件数据复制方法,所述指纹计算为Rabin计算、MD5计算、SHA-I计算、 SHA-224 计算、SHA-256 计算、SHA-384 和 SHA-512 计算中的一种上述的文件数据复制方法,所述预定间隔尺度为512B-5KB ;上述的文件数据复制方法,其特征在于通过间隔提取的文件数据段大小为 512-2KB上述的文件数据复制方法,所述第一目标文件的元数据信息还包括所述第一目标 文件的父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件 的父目录信息和层次信息上述的文件数据复制方法,在每一次复制步骤完成后对备份文件分配同一个版本 号,作为文件恢复的索引上述的文件数据复制方法,所述预定间隔尺度为1KB上述的文件数据复制方法,所述间隔提取的文件数据段大小为1KB上述文件数据复制方法,所述文件类型包括压缩文件类、音视频文件类、图像文 件类、可执行文件类、文档类和数据文件类中的一种或几种。

      本发明具有以下优点1、快速去重的文件数据复制方法包括在对存储介质中的第一目标文件进行第一 次全文件复制到目标文件目录下以前,处理器对所述第一目标文件的元数据信息进行指纹 计算形成IDl文件,和对所述第一目标文件根据预定间隔尺度间隔提取其若干文件数据段 的内容进行指纹计算形成ID2文件,并将所述IDl文件和所述ID2文件存储在数据库中; 在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在对所述存 储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔尺度间隔 提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和所述ID4 文件存储在数据库中;将所述IDl文件与所述ID3文件进行对比;若所述IDl文件与所述 ID3文件相同,则无需将所述第二目标文件复制到所述目标文件目录下;若所述IDl文件与 所述ID3文件不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述 ID4文件相同,则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所 述ID4文件不相同,则将所述第二目标文件全文件复制到所述目标文件目录下。

      以上处理 过程在备份文件即第一目标文件和待备份文件即第二目标文件的元数据相同的情况下,只 需要对比他们的元数据信息,无需对比其实质内容,由于元数据信息的数据量很小,因此其 检测时间大大提高了,另外,当备份文件和待备份文件元数据相同的情况下,将备份文件经 预定间隔尺度间隔提取的内容经过指纹计算的ID2文件和将待备份文件经预定间隔尺度 间隔提取的内容经过指纹计算的ID4文件进行对比判断其相同性,由于在备份文件即第一 目标文件和待备份文件即第二目标文件元数据不相同的情况下,它们的文件实质内容也有 可能相同,通过间隔提取内容计算指纹用于指纹对比,可以快速发现分布于文件不同位置 的修改处,无须对所有内容进行对比即可发生文件是否被修改过,可以大大减小其对比的 时间,最终保证了相同文件数据的去重,又大大提高文件数据复制的效率2.通常情况下,对于一些大文件,其修改部分较多,且修改部分在文件中所处的位 置又不一定,采用间隔尺度为512B-5KB可以较好的减少对文件相似度检测的时间,间隔提 取的数据段大小为512-2KB能较好地提高检测准确度3.间隔尺度为1KB,间隔提取的数据段大小为1KB,既可以大大减少对大文件相似 度检测的时间,又可以很好地确保检测精度。

      4.在每一次复制步骤完成后对备份文件分配同一个版本号,作为文件恢复的索 引,其中每次文件恢复时都以最高的版本号为恢复索引,可以确保每次文件恢复时都将最 新的文件内容进行恢复为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合 附图,对本发明作进一步详细的说明图1为快速去重的文件复制方法的流程图;具体实施方式如图1所示的,一种快速去重的文件数据复制方法,包括指纹获取步骤在对存储介质中的第一目标文件进行第一次全文件复制到目标文件目录下以前, 处理器对所述第一目标文件的元数据信息进行指纹计算形成IDl文件,和对所述第一目标 文件根据预定间隔尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID2文件,并 将所述IDl文件和所述ID2文件存储在数据库中在对所述第一目标文件进行第一次全文件复制到所述目标文件目录下以后,并在 对所述存储介质中的第二目标文件进行复制到所述目标文件目录下以前,处理器对所述第二目标文件元数据信息进行指纹计算形成ID3文件,和对所述第二目标文件根据预定间隔 尺度间隔提取其若干文件数据段的内容进行指纹计算形成ID4文件,并将所述ID3文件和 所述ID4文件存储在数据库中。

      其中,IDl是第一元数据经过指纹计算产生的一个字符串,而ID2是若数据段内容 经过指纹计算产生的一个组合字符串指纹对比和文件复制执行步骤将所述IDl文件与所述ID3文件进行对比;若所述IDl文件与所述ID3文件相同, 则无需将所述第二目标文件复制到所述目标文件目录下;若所述IDl文件与所述ID3文件 不相同,则将所述ID2文件与所述ID4文件进行对比,若所述ID2文件与所述ID4文件相同, 则传输所述ID3文件更新所述第一目标文件相应的元数据,若所述ID2与所述ID4文件不 相同,则将所述第二目标文件全文件复制到所述目标文件目录下其中,所述第一目标文件的元数据信息包括所述第一目标文件的按特定顺序组合 而成的文件名、文件类型、文件大小和文件最后修改时间;所述第二目标文件的元数据信息 包括所述第二目标文件的文件名、文件类型、文件大小和文件最后修改时间所述指纹计算 为 Rabin 计算、MD5 计算、SHA-I 计算、SHA-2M 计算、SHA-256 计算、SHA-384 和 SHA-512 计 算中的一种所述预定间隔尺度为512B-5KB,最优选为1KB ;通过间隔提取的文件数据段大 小为512-2KB,最优选为1KB ;所述第一目标文件的元数据信息还包括所述第一目标文件的 父目录信息和层次信息,所述第二目标文件的元数据信息还包括所述第二目标文件的父目 录信息和层次信息。

      上述文件数据复制方法,所述文件类型包括压缩文件类、音视频文件 类、图像文件类、可执行文件类、文档类和数据文件类中的一种或几种具体文件类型包括压缩文件类*. arc*, cab*, ddi压缩文件,diskdupe的压缩文件,可由hd-copy还 Hi.氺· Ice,氺· zip,氺· gz,氺· tarii^^kSCi^^x.氺· avi,氺· cmf,氺· fli,氺· ins,氺· m3u,氺· mp3,氺· mov氺· mpeg,氺· vol, 氺.wav,氺.swf ;图像文件类*. bmp, bgi Borland公司的图形界面文件cda, cd文件icn,氺· ico,氺· iff,氺· jpg,氺· Ibm,氺· pbm,氺· pgm,氺· png,氺· caj,氺· tif ;:氺· doc,氺· fmt,氺· fnt,氺· mbd,氺· wps,氺· xls ;ηΤ Α^Τ^^^Ι 氺· com,氺· dll,氺· drv,氺· exe,氺· fox,氺· fxp,氺· frm,氺· obj ;数据文件类*. dat, dbf, idx, img, mem, ndx ;当需要将多个文件同时复制到所述目标文件目录下时,已存在在所述目标文件目 录下的文件为所述第一目标文件,待复制到所述目标文件目录下的文件为第二目标文件。

      实施例2一种快速去重的文件数据复制方法,包括指纹获取步骤在对存。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.