
一种搜索方法及搜索系统的制作方法.docx
6页一种搜索方法及搜索系统的制作方法专利名称:一种搜索方法及搜索系统的制作方法技术领域:本发明涉及信息搜索领域,特别涉及一种搜索方法及搜索系统背景技术:随着计算机网络的蓬勃发展,网络上的信息越来越多为此,用户通常需要使用搜索引擎来更好的寻找自己所需要的信息现在常用的搜索引擎有G00GLE,百度,Yahoo,Bing等这些搜索引擎都具有一个相同的特点用户只能输入几个关键词进行搜索如果用户输入的是一个长句或者甚至是一篇很长的文章的话,这些搜索引擎返回的结果往往不尽如人意而且随着用户输入的信息越多,返回的结果往往会越来越坏在这种情况下,用户只能选择输入最核心的一两个词,然后自己在搜索结果中寻找需要的信息本方法致力于解 决搜索引擎中用户无法输入过多信息的缺陷,让用户可以直接输入一段话或者是一篇已有的需求文档进行查询,从而更方便快捷的找到自己所需要的信息截止目前,仍然没有较好的基于全文语义搜索的技术发布曾文均发明的“利用互联网为公众提供和查询信息的方法”该发明通过用户对搜索结果分类的评分提高搜索的准确率用户搜索可以只针对某个特定的分类领域进行,而服务器装置通过比较每个结果在对应领域中的得分,可以将得分高的结果排到前面,从而让用户更容易找到自己所关心的内容。
该方案存在以下缺点 一、分类是用户创建的,往往比较直观,缺乏专业性这种分类结构不利于用户选择,往往会出现用户需求分散在多个分类或无法确定分类的情况二、分类树会越来越庞大,不利于长期运行各个用户对分类有不同的理解,往往会出现重复或类似的分类,随着系统发布时间的增加,分类树会变的越来越庞大,不利于管理同时影响搜索效率三、该技术的准确率取决于用户的态度在用户搜索结束之后,用户被要求对搜索结果进行评分,这增加了用户搜索的复杂度很多用户可能在搜索完成后不进行评分,甚至有些用户可能会随意评分或者恶意评分,这些都会影响系统最终的准确率另一个和本发明近似的方案为于浩等发明的信息检索方法和系统该方案根据用户输入的查询请求从大量信息构成的信息集合中搜索所希望的信息,其中,确定影响用户对网页与查询请求相关性判断的多个因素,作为个性化特征;对于各个个性化特征设定相关的权重,且分别基于各个所述个性化特征建立反映用户的查询请求与信息集合中的信息之间的相关性的检索模型,通过所述的权重将所述检索模型组合成用户兴趣模型;接受用户的查询请求,分别通过各个所述的检索模型对所述信息集合中的信息进行检索,分别生成一个有序网页列表;通过所述的用户兴趣模型,计算每个所述检索模型得到的有序信息列表中的每一条信息与所述查询请求的相关度;根据所述用户兴趣模型输出的相关度,输出最终的检索结果。
该方案存在以下缺点一、使用该技术的用户必须登录才能得到更好的结果 该技术的关键部分在于用户兴趣的分析以及挖掘,当用户未登录时,搜索结果和传统的搜索方式没有显著区别,而很多普通用户并不会为了一次搜索注册账户并登录同时,对于新注册用户由于没有历史数据,无法分析用户兴趣,也就是说该技术的发明只对长期使用该系统的用户有效二、对用户兴趣的分析仍然停留在表层 没有提出和传统兴趣分析有较大改进的分析方法默认的4个分析方法都是普通的文本分析,真正重要的用户兴趣分析只是提出一个模型,没有具体的实施方法三、训练模型的构造没有成熟的案例 和上一个问题类似,虽然提出用训练模型获取用户兴趣,对训练模型如何构建,采用什 么模型等都没有具体的方案,仍然处于构想阶段因此,亟需提供一种搜索方法及搜索系统,以解决上述问题发明内容本发明所要解决的技术问题是提供一种搜索方法及搜索系统,可使得用户获取与输入的语句相关度很高的文档,可有效提供搜索的准确度本发明为解决技术问题而采用的一个技术方案是提供一种搜索方法,预先设置用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,方法包括以下步骤a.获取用户在用户接口模块输入的第一语句以及用户在用户接口模块中选择的第一技术领域;b.对第一语句进行分词处理,以获取第一分词结果,并根据第一技术领域选取对应的第一专业词库,其中第一分词结果包括多个第一词汇以及对应词频;c.根据第一分词结果、第一专业词库以及目标数据库分别对第一词汇进行评分,以获取第一目标词汇以及与第一目标词汇对应的第一相关度权重值;d.在目标数据库中查找包括第一目标词汇的第一文档集合,并根据第一目标词汇以及与其对应的第一相关度权重值对第一文档集合中的每一文档进行评分,以获取第一文档集合中每一文档基于第一目标词汇的第二相关度权重值,并根据第二相关度权重值从大到小对第一文档集合进行排序以产生第一文档列表;e.选取文档列表中排名靠前的预定数目个文档,并根据第一目标词汇出现的次数对预定数目个文档进行评分,以获取预定数目个文档基于第一目标词汇出现的次数的第三相关度权重值,并根据第三相关度权重值从大到小对预定数目个文档进行排序以产生第二文档列表;f.将第二文档列表推送至用户接口模块并显示。
本发明为解决技术问题而采用的另外一个技术方案是提供一种搜索系统,包括用户接口模块、目标数据库以及对应于多个不同技术领域的多个专业词库,系统进一步包括反馈模块,用于获取用户在用户接口模块输入的第一语句以及用户在用户接口模块中选择的第一技术领域;分词模块,用于对第一语句进行分词处理,以获取第一分词结果,并根据第一技术领域选取对应的第一专业词库,其中第一分词结果包括多个第一词汇以及对应词频;查询模块,用于根据第一分词结果、第一专业词库以及目标数据库分别对第一词汇进行评分,以获取第一目标词汇以及与第一目标词汇对应的第一相关度权重值;索引模块,用于在目标数据库中查找包括第一目标词汇的第一文档集合,并根据第一目标词汇以及与其对应的第一相关度权重值对第一文档集合中的每一文档进行评分,以获取第一文档集合中每一文档基于第一目标词汇的第二相关度权重值,并根据第二相关度权重值从大到小对第一文档集合进行排序以产生第一文档列表;排序模块,用于选取文档列表中排名靠前的预定数目个文档,并根据第一目标词汇出现的次数对预定数目个文档进行评分,以获取预定数目个文档基于第一目标词汇出现的次数的第三相关度权重值,并根据第三相关度权重值从大到小对预定数目个文档进行排序以产生第二文档列表;反馈模块进一步将第二文档列表推送至用户接口模块并显示。
由以上技术方案可以看出,本发明提供的搜索方法及搜索系统通过将用户输入的语句进行分词,并设置专业词库对分词结果进行评分,从而获取目标词汇以及对应的第一相关度权重值,并在目标数据库中查找包括目标词汇的文档进行第二次评分并排序以获取第一文档列表,通过对第一文档列表中相关度较高的预定数目个文档进行基于目标词汇出现次数的评分并排序以产生第二文档列表并显示,从而可使得用户获取与输入的语句相关度很高的文档,可有效提供搜索的准确度图I是根据本发明第一实施例的搜索系统的结构示意 图2是根据本发明第一实施例的搜索方法的流程 图3是根据本发明第二实施例的搜索系统的结构示意 图4是根据本发明第二实施例的搜索方法的流程 图5是根据本发明第三实施例的搜索系统的结构示意 图6是根据本发明第三实施例的搜索方法的流程图具体实施例方式下面结合附图和实施例对本发明进行详细说明首先请参见图1,图I是根据本发明第一实施例的搜索系统的结构示意图如图I所示,在本实施例中,本发明的搜索系统包括用户接口模块201、目标数据库202、专业词库 203、反馈模块204、分词模块205、查询模块206、索引模块207以及排序模块208。
并请参见图2,图2是根据本发明第一实施例的搜索方法的流程图如图2所示,本发明的搜索方法包括如下步骤 步骤301 获取用户在用户接口模块201输入的第一语句以及用户在用户接口模块201中选择的第一技术领域本步骤可由反馈模块204执行,具体而言,用户接口模块201可优选为浏览器,通过向浏览器推送相关的网页,从而供用户在网页的输入框上输入对应的第一语句,或在网页上显示技术领域选择菜单,如第一技术领域、第二技术领域、以及第三技术领域(具体可为太阳能技术领域、物联网技术领域以及汽车技术领域),用户通过浏览器输入第一语句并选取对应的第一技术领域,浏览器将相关信息通过网络协议发送至反馈模块204204,从而获取用户在用户接口模块201输入的第一语句以及用户在用户接口模块201中选择的第一技术领域举例而言,目标数据库202可为专利数据库,其存储有海量的专利文档;而第一语句可例如为“我公司拟开发一种太阳能薄膜电池组件,主要解决透光太阳能薄膜电池组件容易短路的问题,进而提升透光太阳能薄膜电池组件的输出电性能”,而用户在用户接口模块201选择了 “太阳能技术领域”并且,专业词库203可由开发者根据各个技术领域的常用关键词在本搜索系统的后台定义,如可定义太阳能技术领域所对应的第一专业词库203为 太阳能,薄膜,电池,电池组件,透光,短路,充电,福射,发电,光电转换,集热器,光伏,光伏矩阵,发电板阵,二极管,逆变器,晶体状,无序结构,收集器。
步骤302 :对第一语句进行分词处理,以获取第一分词结果,并根据第一技术领域选取对应的第一专业词库203,其中第一分词结果包括多个第一词汇以及对应词频本步骤可由分词模块205执行,具体而言,本发明所采用的分词处理技术可使用 现有的各种分词方法实现,本发明对其不作具体限定,分词模块205的作用在于将用户输入的语句转换成一个个词汇由于汉字的词之间没有分隔符,而用户输入的又是一整段的文字,中间肯定不会有空格分隔,所以必须要对用户输入的第一语句进行分词操作经过这一步之后,用户输入的语句就会变成语句中的词以及其在语句中出现的次数(即词频)的集合,然后将这些词以及频率交给查询模块206进行进一步的分析对于中文的分词,可以采用中科院的分词系统ICTCLAS(http://ictclas. org/)进行这个分词系统可以说是目前中文分词方面准确率最高,效率最好的一个分词系统同时该系统是用c(dll格式)编写的,可以很方便的在其他高级语言中调用而在本实施例中,分词模块205产生的第一分词结果具体为 {我,公司,拟,开发,一,种,太阳能3,薄膜3,电池组件3,主要,解决,透光2,容易,短路,的2,问题,进而,提升,输出,电,性能} 步骤303 :根据第一分词结果、第一专业词库203以及目标数据库202分别对第一词汇进行评分,以获取第一目标词汇以及与第一目标词汇对应的第一相关度权重值。
在该步骤中,承上所述,第一分词结果为 {我,公司,拟,开发,一,种,太阳能3,薄膜3,电池组件3,主要,解决,透光2,容易,短路,的2,问题,进而,提升,输出,电,性能} 第一专业词库203为太阳能,薄膜,电池,电池组件,透光,短路,充电,辐射,发电,光电转换,集热器,光伏,光伏矩阵,发电板阵,二极管,逆变器,晶体状,无序结构,收集器而目标数据库202则为包括多个专利文档的海量数据库因此,在本步骤中,根据以下等式获取第一词汇的第一相关度权重值 Wmghi(i) = Ifmog^L* PU) 棚+1 其中,I为多个第一词汇中的一者,,《|^ 为|对应的第一相关度权重值,If(ft为在语句中I出现的词频,cfl)为在目标数据库202中包含I的文档的个数,y为目标数据库202中的文档数量,P(I)为I;在第一专业词库203的加权值; 根据公式(I ),在目标数据库202中,包含第一词汇的文档数的所有文档中的比例为dog((M+1)1 姆(!) + !))),结果近似为{我=10. 07,公司=8. 61,拟=8. 25,开发=6. 82,一 =1.46,种=1.52,太阳能=6. 09,薄膜=5. 71,电池组件=9. 02,主要=3. 84,解决=4. 17,透光=6. 89,容易=4. 76,短路=7. 13,的=1. 26,问题。
