好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

搜索引擎及其实现方法_2.docx

10页
  • 卖家[上传人]:ting****789
  • 文档编号:309566272
  • 上传时间:2022-06-13
  • 文档格式:DOCX
  • 文档大小:29.99KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 搜索引擎及其实现方法专利名称:搜索引擎及其实现方法技术领域:本发 明涉及搜索引擎技术,尤其涉及ー种可扩展同义搜索查询的搜索引擎及其实现方法背景技术:互联网的飞速发展为人们提供了一个全新的信息存储、加工、传递和使用的载体,网络信息也迅速成为了人们获取知识和信息的主要渠道之一而如此规模的信息资源在将人类占有的几乎所有知识纳入其中的同时,也给资源的使用者带来了如何充分开发和利用的问题搜索引擎正是在这ー需求下应运而生的,它协助网络用户在互联网上查找信息具体地,搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供捜索服务,将用户搜索相关的信息展示给用户搜索引擎提供的搜索服务通常是基于关键词的捜索,即用户通过搜索引擎的输入框输入查询表达式,搜索引擎进行查询并返回包含这些关键词的结果网页由于不同用户的知识背景或使用习惯不同,对同一事物捜索所使用的关键词可能也会不同,再加上自然语言中本身就存在很多同义词或近义词,所以仅基于用户提供的关键词来捜索是不够的目前,很多搜索引擎都具有扩展查询的功能,如同义扩展查询当搜索引擎接收到用户输入的原始查询表达式后,会对其进行分词操作,并识别分词后的词条集合中是否有潜在的同义词对。

      具体地,搜索引擎会将切分后的词条和预定的同义词词库进行匹配,判断这些词条中是否存在同义词的,如果是,则会在同义词的基础上扩展搜索查询,并将扩展的查询结果和原始的查询结果合并后返回显示给用户从而,为用户提供了更多相关的搜索結果然而,同一字词在不同的语义环境中可能体现不同的含义,所以其同义词也只是在某种语义环境中同义或近义,而换做不同的语义环境,该同义词就无法适用了所以,在这种情况下,用同义词扩展查询得到的结果可能就不是用户想要的结果,由此,反而会给用户带来较差的使用体验例如,用户输入的原始查询是“鱼香肉丝怎么做”随后,搜索引擎通过对原始查询的分词,并与同义词库匹配后获得了“怎么做”的潜在同义词对{ “怎么做”,“菜谱” },并用“菜谱”替换了 “怎么做”来执行扩展同义查询并得到相应的查询結果但如果用户提供的原始查询是“怎么做床头柜”,显然,用户此时的需求是想了解家具的制作,而搜索引擎仍然使用“菜谱”来替换“怎么做”进行扩展同义查询的话,就得到了用户并不想要的转义结果,如此用户会对搜索的准确性提出质疑有鉴于此,有必要对现有的搜索引擎予以改进,以解决上述问题发明内容本发明的目的在于提供ー种搜索引擎,其通过分析同义扩展查询结果的语义主题来调整同义查询结果在整个搜索结果中的排序,从而避免在捜索结果的前列出现转义结果,进而确保用户具有良好的使用体验。

      本发明的目的还在于提供ー种上述搜索引擎的实现方法为实现上述发明目的之一,本发明的ー种搜索引擎的实现方法,其包括如下步骤接收用户搜索的原始查询;分析所述原始查询,以获取包含存在于原始查询中的原词及其同义词的潜在同义词对和该潜在同义词对的同义语境,并且将所述同义词替代原始查询中的原词以获得同义查询式;根据所述原始查询和同义查询式捜索并获得原始查询结果网页集合与同义查询结果网页集合;获取同义语境的语义主题分布和同义查询结果中网页的语义主题分布,并计算所述两个语义主题分布的匹配度; 根据所述匹配度合并原始查询和同义查询的结果网页集合,并生成捜索结果列表作为本发明的进ー步改进,所述同义语境语义主题分布的获取步骤包括将原始查询经分词操作后得到的词条加上同义语境包含的词条获得词条集合,然后通过主题模型计算所述词条集合的语义主题分布作为本发明的进ー步改进,所述同义查询结果中网页的语义主题分布的获取步骤包括从网页中提取代表该网页的关键词集合,然后通过主题模型计算该关键词集合的语义主题分布作为本发明的进ー步改进,所述主题模型包括概率潜在语义分析(Probabilitistic Latent Semantic Analysis, PLSA)模型,或潜在语义分析(LatentSemantic Analysis, LSA)模型,或潜在狄利克雷分配(Latent DirichletAllocation, LDA)模型。

      作为本发明的进ー步改进,所述同义语境和同义查询结果中网页的语义主题分布的匹配度计算包括通过余弦相似度来计算表示两个语义主题分布的向量之间的相似度作为本发明的进ー步改进,所述根据匹配度合并原始查询和同义查询的结果的步骤包括当匹配度的值处于预定的匹配度区间内时,确定同义查询结果在捜索结果列表中的位置作为本发明的进ー步改进,所述确定同义查询结果在捜索结果列表中的位置的步骤包括降低同义查询结果中网页的相关度权值作为本发明的进ー步改进,所述确定同义查询结果在捜索结果列表中的位置的步骤包括将同义查询结果插入到捜索结果列表的特定页之后作为本发明的进ー步改进,所述确定同义查询结果在捜索结果列表中的位置的步骤包括将同义查询结果调整到原始查询结果的后面作为本发明的进ー步改进,所述根据匹配度合并原始查询和同义查询的结果的步骤包括当匹配度的值处于预定的匹配度区间内时,根据原始查询结果和同义查询结果中各网页的相关度权值合并原始和同义查询的結果作为本发明的进ー步改进,在用同义词替代原始查询中的原词的步骤前,还判断同义语境和原始查询是否匹配,且当两者匹配吋,才执行替代操作,而当两者不匹配吋,则不执行替代操作作为本发明的进ー步改进,所述判断同义语境和原始查询的匹配度的步骤包括计算同义语境和原始查询的匹配度;当所述匹配度的值处于预定的匹配度区间内时,则确定同义语境和原始查询匹配。

      作为本发明的进ー步改进,所述同义语境和原始查询匹配度的计算根据原始查询除去原词后的长度,以及同义语境的长度来确定作为本发明的进ー步改进,该方法还包括在判断同义语境和原始查询的匹配度的步骤前,还会基于同义语境包含 的词条片断对原始查询做正向最大切分,从而获得切分后的词条集合作为本发明的进ー步改进,该方法还包括如下步骤获取历史的用户查询点击数据,所述数据包括历史的查询式和响应于该查询式而返回的并被点击访问的查询结果网页;识别同义词对,所述同义词对包括存在于所述历史查询式中的原词以及存在于所述查询结果网页中的相应的同义词;将所述历史查询式以及历史查询式中原词的紧邻词记录并确定为所述同义词对的同义语境作为本发明的进ー步改进,所述紧邻词包括所述历史查询式中位于原词前和位于原词后的词条作为本发明的进ー步改进,所述紧邻词包括空词条作为本发明的进ー步改进,该方法还包括,在确定同义语境的步骤前,判断所述结果网页中的标题是否包含同义词且不包含原词;如果是,则再执行所述确定同义语境的步骤,如果否,则不执行确定同义语境的步骤作为本发明的进ー步改进,所述确定同义语境的步骤还包括,统计所述同义语境被记录的频次,当所述频次大于或等于ー预定频次阈值时,确定该同义语境为所述同义词对的同义语境。

      为实现上述另ー目的,本发明的ー种搜索引擎,其包括搜索组件,搜索组件包括查询分析模块,用于接收用户搜索的原始查询;分析所述原始查询,以获取包含存在于原始查询中的原词及其同义词的潜在同义词对和该潜在同义词对的同义语境,并且将所述同义词替代原始查询中的原词以获得同义查询式;捜索模块,用于根据所述原始查询和同义查询式捜索并获得原始查询结果网页集合与同义查询结果网页集合;转义判定模块,用于获取同义语境的语义主题分布和同义查询结果中网页的语义主题分布,并计算所述两个语义主题分布的匹配度;结果合成模块,用于根据所述匹配度合并原始查询和同义查询的结果网页集合,并生成捜索结果列表作为本发明的进ー步改进,搜索引擎还包括主题分析模块,其用于将原始查询经查询分析模块分词操作后得到的词条加上同义语境包含的词条获得词条集合,然后通过主题模型计算所述词条集合的语义主题分布,从而获得同义语境的语义主题分布,并将其传递给转义判定模块作为本发明的进ー步改进,搜索引擎还包括主题分析模块,其用于从网页中提取代表该网页的关键词集合,然后通过主题模型计算该关键词集合的语义主题分布,从而获得该网页的语义主题分布作为本发明的进ー步改进,所述主题分析模块分析的网页来源于网页库,并将计算得到的网页的语 义主题分布储存在网页语义主题库中;所述转义判定模块根据同义查询结果从网页语义主题库中获取同义查询结果的网页的语义主题分布。

      作为本发明的进ー步改进,所述主题模型包括概率潜在语义分析(Probabilitistic Latent Semantic Analysis, PLSA)模型,或潜在语义分析(LatentSemantic Analysis, LSA)模型,或潜在狄利克雷分配(Latent DirichletAllocation, LDA)模型作为本发明的进ー步改进,所述同义语境和同义查询结果中网页的语义主题分布的匹配度计算包括通过余弦相似度来计算表示两个语义主题分布的向量的相似度作为本发明的进ー步改进,所述根据匹配度合并原始查询和同义查询的结果包括当匹配度的值处于预定的匹配度区间内时,确定同义查询结果在捜索结果列表中的位置作为本发明的进ー步改进,所述确定同义查询结果在捜索结果列表中的位置的操作包括降低同义查询结果中网页的相关度权值作为本发明的进ー步改进,所述确定同义查询结果在捜索结果列表中的位置的操作包括将同义查询结果插入到捜索结果列表的特定页之后作为本发明的进ー步改进,所述确定同义查询结果在捜索结果列表中的位置的操作包括将同义查询结果调整到原始查询结果的后面作为本发明的进ー步改进,所述根据匹配度合并原始查询和同义查询的结果包括当匹配度的值处于预定的匹配度区间内时,根据原始查询结果和同义查询结果中各网页的相关度权值合并原始和同义查询的結果。

      作为本发明的进ー步改进,查询分析模块在用同义词替代原始查询中的原词前,还判断同义语境和原始查询是否匹配,且当两者匹配时,才执行替代操作,而当两者不匹配吋,则不执行替代操作作为本发明的进ー步改进,所述判断同义语境和原始查询的匹配度包括计算同义语境和原始查询的匹配度;当所述匹配度的值处于预定的匹配度区间内时,则确定同义语境和原始查询匹配作为本发明的进ー步改进,所述同义语境和原始查询匹配度的计算根据原始查询除去原词后的长度,以及同义语境的长度来确定作为本发明的进ー步改进,该方法还包括分析查询模块在判断同义语境和原始查询的匹配度前,还会基于同义语境包含的词条片断对原始查询做正向最大切分,从而获得切分后的词条集合作为本发明的进ー步改进,搜索引擎还包括用户查询日志分析器,其用于获取历史的用户查询点击数据,所述数据包括历史的查询式和响应于该查询式而返回的并被点击访问的查询结果网页;识别同义词对,所述同义词对包括存在于所述历史查询式中的原词以及存在于所述查询结果网页中的相应的同义词;将所述历史查询式以及历史查询式中原词的紧邻词记录并确定为所述同义词对的同义语境作为本发明的进ー步改进,所述紧邻词包括所述历史查询式中位于原词前和位于原词后的词条。

      作为本发明的进ー步改进,所述紧邻词包括空词条 作为本发明的进ー步改进,日志分析器在确定同义语境前,还判断所述结果网页中的标题是否包含同义词且不包含原词;如果是,则再执行所述确定同义语境的操作,如果否,则不执行确定同义语境的操作作为本发明的进ー步改进,所述确定同义语境的操作还包括,统计所述同义语境被记录的频次,当所述频次大于或等于ー预定频次阈值时,确定该同义语境为所述同义词对的同义语境与现有技术相比,本发明的有益效果是搜索引擎通过比较同义语境和同义查询结果网页的语义主题分布的匹配度,可以判断同义查询结果是否满足用户的潜在需求,从而据此可以相应地控制同义查询结果在整个搜索结果列表中的排序,以避免在捜索结果的前列出现转义結果,进而确保用户具有良好的使用体验图I是本发明的搜索引擎的第一实施方式的工作原理框图;图2是图I所示的搜索引擎挖掘同义语境的工作流程图;图3是图I所示的搜索引擎执行同义扩展查询的工作流程图。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.