电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

度量空间中索引方法的研究

3页
  • 卖家[上传人]:jiups****uk12
  • 文档编号:40497019
  • 上传时间:2018-05-26
  • 文档格式:PDF
  • 文档大小:223.68KB
  • / 3 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、计算机科学2 0 0 2 V 0 1 2 9 N 9 8 ( 增刊)度量空间中索引方法的研究AR e s e a r c ho fI n d e xM e t h o d si nM e t r i cS p a c e周项敏王国仁于戈 ( 东北大学信息科学与工程学院沈阳1 1 0 0 0 4 )A b s t r a c tT h ei n d e xi so n eo ft h ek e yt e c h n o l o g i e si nt h em u l t i m e d i aa p p l i c a t i o n s I nt h i sp a p e r w ep r o p o s ean e wm e t r i ci n d e xn a m e dM + 一t r e e I ti sb a s e do nt h eo t h e rm e t r i ci n d e xs u c ha sm v p t r e ea n dM - t r e e B ya d d i n gt h ek e yd i m e n s i o nt ot h ei

      2、n d e xe n t r i e s ,i ti st Or e d u c et h em u m b e ro fd i s t a n c ec a l c u l a t i o n sa n dI Oa c c e s s e sf o rt h es i m i l a r i t ym a t c ha n dp e r f o r mf i l t e r i n gt w i c ei nt h ei n t e r n a ln o d eo n l yb yd i s t a n c ec a l c u l a t i n g I te n s u r e st h eh i g hs p a c eu t i l i z a t i o nb yr e a s s i g n i n gt h ee n t r i e sb e t w e e nt h et w i nn o d e s T h ep r e l i m i n a r ye x p e r i m e n ts h o w st h a tt h ek e yd i m e n s i

      3、 o nh a sag o o df i l t r a t i o nu t i l i z a t i o nr a t i o I ti st Ob ea ne f f e c t i v ew a yo fd e c r e a s i n gd i s t a n c ec a l c u l a t i o n sa n dI Oa c c e s s e s A n a l y s i ss h o w st h a tM + 一t r e ei sa ne f f e c t i v ei n d e xt e c h n i q u e K e y w o r d sM u l t i d i m e n s i o n a li n d e x ,M e t r i cs p a c e ,K e yd i m e n s i o n ,R a n g es e a r c h ,k N N s e a r c h1引言在基于内容的相似性检索技术中,索引技术占有非常重要的地位。建立高效的索引结构始终是一个迫切的任务。近些年来,m e t r i ct r e e s

      4、 迅速发展起来,如v p t r e e ,m v p t r e e 3 ,M t r e e 4 3 等。与R 一t r e e系列 1 3 不同,它们考虑对象之间的距离,而不是它们之间的相对位置。这类索引树利用三角不等式关系,缩小查找空间,滤掉不符合要求的数据,达到减少距离计算量的目的。在这篇论文中,我们对v p t r e e ,m v p t r e e ,M t r e e 等一系列m e t r i ct r e e s 以及T V t r e e 2 1 进行了详细的分析,提出了一种新的索引方法M + - t r e e 。M + 一t r e e 是M t r e e ,二元m v p t r e e 以及T V t r e e 的结合,它在M t r e e 的基础上,加入二元m v p t r e e 的两 次过滤思想,且引入了关键维技术和关键维转移的思想。在T V t r e e 中实验表明:在数据分布不均匀的情况下,T V t r e e 的查找效率非常高。实际应用中,图像数据库中图像特征分布通常是不均匀的,且图 像特征中各个维对查询的作用不同,因此引入关键维

      5、技术是非常可行的,它对减少距离计算非常有用。我们又设计了M + - t r e e 的结点结构、建树算法、分裂算法、R a n g eQ u e r y 算法及K N N S e a r c h 算法。 由于加入了关键维,中间结点中每个入口项对应两个子结点分支,增加了结点扇出,降低了树的高度。在分裂算法中,为了保证结点不出现下溢,保证空间利用率的高效性,引入了孪生兄弟间数据调整机制,从而在扇出增加的同时,保证分裂的合理性。接着又对该索引结构性能进行分析。 下面介绍相关工作;提出M + - t r e e 的结构以及相关的算法;对M + - t r e e 进行性能分析;最后总结全文。2 相关工作度量空间中的索引方法非常多,其中M t r e e 是目前一种最为理想的索引结构。M + - t r e e 是在M t r e e 的基础上,结合二元m v p t r e e 的两层过滤思想和T V t r e e 的降维思想,提出的一种新索引技术。它是对M t r e e 的进一步完善。下面介绍与M + - t r e e 密切相关的几种索引方法。v p t r e e 是一种分层的索引结

      6、构。在每一层中, 用一个受益点将数据空间分成球形分片。根据入口 项与结点受益点间距离,将结点空间分割为若干子空间。v p t r e e 利用逐步过滤、逐渐缩小查询空间的方法,实现多媒体信息的相似性查询。v p - t r e e 高度较高,距离计算过多。m v p t r e e 改进了v p t r e e 的设计方法,它将受益点由v p t r e e 的一个改进为多个,增加了树的扇 出,大大降低了树的高度,而且,在叶子结点保存了路径和距离信息,减少了查询距离计算,提高了查找性能,但它和v p t r e e 一样,都是静态的索引结构,不能对索引信息进行即时更新,要想保持查询的高效性,必须对索引结构进行定期更新,这是一件非常繁琐的事情。* ) 本文得到教育部高等学校骨干教师资助计划及沈阳市基金资助。周项敏硕士。研究方向为多媒体数据库2 6 5 同以上索引相比,M t r e e 是一种全新的索引结构,它是一种分页的平衡树结构,它采用自底向上的建树方法,引入结点上移和分裂机制,实现了索引结构的动态化,在进行查询时,充分采用三角不等式过滤机制,减少了距离计算。它最早考虑距离计算复杂性

      7、,但子空间重叠太多。5M + 一t r e e :一种新的高维索引方法5 1M + - t r e e 的设计思想 M + - t r e e 的设计思想来源于对二元m v p t r e e 分片方法的改进和对M t r e e 分片方法与结点结构的改进。二元m v p t r e e 利用两个受益点将数据空间 一次分为四个子空间,实现同一中间节点的二次过滤,但m v p t r e e 在同一中间节点需要进行两次距离计算,由于特征的高维性,距离计算的代价非常高, 如果减少在中间节点中同受益点间的距离计算,将查找的主要计算过程放在叶子结点,这将会避免不 必要的距离计算。M + - t r e e 对二元m v p t r e e 分片方 法的改进在于,它用一次距离计算两次过滤效果替 代了m v p t r e e 中的两次距离计算两次过滤效果。 M + 一t r e e 将对二元m v p t r e e 分片方法的改进 与M t r e e 的动态化结合起来,目的在于保持动态化的特性,减少距离计算的次数。它用一个圆和一个关键维实现在同一中间节点对数据空间的二次过滤,即在不需要增加I

      8、 O 和距离计算的情况下,再次缩小数据查询空间。 关键维即在距离计算过程中,对相似度影响最大的维。由于数据的空间分布的影响,特征的各个维 对查询影响程度不同,其中方差最大的维对相似度的影响最大,采用方差最大的维进行分裂,既可保持 空间分割的最优化,又可以在利用关键维进行过滤时,增强过滤效果。5 2M + - t r e e 与M t r e e 对数据空间的划分M + - t r e e 与M t r e e 对数据空间的划分的不同 在于:M + - t r e e 一次将数据空间分裂为四个子空间,如图1 ,2 所示。 囫畸囵目图2M + 一t r e e 的空间划分5 5M + - t r e e 的结点结构M + - t r e e 的叶子结点中存储所有需要索引的数2 6 6 据库对象,而中间结点存储的是中间结点对象。中间 结点的入口项结构如图4 所示。其中:O r 为中间结点 对象的特征值,R ( O r ) 为中间结点对象的半径,D( O r ,P ( O r ) ) 为结点O r 与其父结点之间的距离,p t r ( e n t r y ) 为父结点中指向该结点的入口项的地址

      9、。D N o 为关键维号,P t r ( T 1 ( o r ) ) 为指向左分支根结点的指针,M t 一为左分支的所有对象中关键维的最大 值,P t r ( T 2 ( O r ) ) 为指向右分支根结点的指针,M 。t n i 。 为右分支的所有对象中关键维的最小值。其中每个 中间结点入口项的左分支中任意对象关键维的值都小于右分支中任意对象关键维的值。IO ,数据库对象特征值lIO l d ( O j )对象标识符ID ( O it P ( O j ) )O ,与父结点间的距离I图3 叶子结点入口项结构图4 中间结点入口项结构5 4M + - t r e e 树结构M + - t r e e 树结构如图5 。其中:矩形为中间结点,黑色的圆形为入口项,每个中间结点入口项对应两个人分支,椭圆形为叶子结点,每个叶子结点入口项对应一个数据库对象。图5M + 一t r e e 总体结构5 5M + - t r e e 的建树过程在建树过程中主要完成对象的插入、结点溢出处理。当O ,插入数据库时,首先由根结点开始,找到 应插入的叶子结点,如该叶子结点为f u l l ,看其孪生 兄弟结点是否满( 同一入口项的左右分支成为孪生兄弟) ,如果未满,则调整两个孪生兄弟结点中对象的分布,并将O ;插入合适的位置,同时修改其父结点中相应的入口项值。否则,进行分裂操作。下面是插入和分裂算法。I n s e r t ( N :n o d e ,e n t r y ( O - ) :M + - t r e e e n t r y( 假设N 是结点的所有入口项的集合;i fNi sn o tal e a f 。t h e n l e tN h = e n t r i e ss u c ht h a td ( O ,) O ,;i fN “西t h e nl e te n t r y ( O ? ) N d ( O ? ,O 。) i sm i n i m u m ;e l s e l e te n t r y ( 1 3 , “ ) N ,d ( 0 7 O 。) 为最小值,l e tr ( O ? ) = d (

      《度量空间中索引方法的研究》由会员jiups****uk12分享,可在线阅读,更多相关《度量空间中索引方法的研究》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.