电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

net的同义词典实现同义词检索(c版)(二)

9页
  • 卖家[上传人]:新**
  • 文档编号:480624714
  • 上传时间:2022-12-13
  • 文档格式:DOCX
  • 文档大小:35.54KB
  • / 9 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、同义词检索应该很多时候会用得上的,举个简单的例子,我们搜索关键字good的时候,与well和fine等的词条也可能是你想要的结果。这里我们不自己建立同义词库,直接使用WordNet的同义词库,本篇介绍C#版的实现步骤,还会有续篇-Java版。由于Lucene是发源于Java,所以C#的应用者就没有Java的那么幸福了,Java版已经有3.0.2可下载,C#的版本还必须从SVN库里:s:/svn.apache.org/repos/asf/lucene/ Syns2Index.exe用来根据WordNet的同义词库建立同义词索引文件,同义词本身也是通过Lucene来查询到的2. SynLookup.exe从同义词索引中查找某个词有哪些同义词3. SynExpand.exe与SynLookup差不多,只是多了个权重值,大概就是同义程度好啦,有了Lucene.Net.dll和上面那三个文件,我们下面来说进一步的步骤:二.下载WordNet的同义词库可以从:/wordnetcode.princeton.edu/3.0/下载WNprolog-3.0.tar.gz文件。然后解压到某个目录,如D:WN

      2、prolog-3.0,其中子目录prolog中有许多的pl文件,下面要用到的就是wn_s.pl三.生成同义词Lucene索引使用命令Syns2Index.exed:WNprolog-3.0prologwn_s.plsyn_index第二个参数是生成索引的目录,由它来帮你创立该目录,执行时间大约40秒。这是顺利的时候,也许你也会根本无法成功,执行Syns2Index.exe的时候出现下面的错误:UnhandledException:System.ArgumentException:maxBufferedDocsmustatleastbe2whenenabledatLucene.Net.Index.IndexWriter.SetMaxBufferedDocs(Int32maxBufferedDocs)atWorldNet.Net.Syns2Index.Index(StringindexDir,IDictionaryword2Nums,IDictionarynum2Words)atWorldNet.Net.Syns2Index.Main(Stringargs)莫急,手中有源码,心里不用慌,只

      3、要找到Syns2Index工程,改动Syns2Index.cs文件中的writer.SetMaxBufferedDocs(writer.GetMaxBufferedDocs()*2*/);/GetMaxBufferedDocs()本身就为0,翻多少倍也是白搭为writer.SetMaxBufferedDocs(100);/所以直接改为100或大于2的数就行重新使用新编译的Syns2Index.exe执行上一条命令即可。成功执行后,可以看到新生成了一个索引目录syn_index,约3M。如今可以用另两个命令来测试一下索引文件:D:wordnetSynLookup.exesyn_indexhiSynonymsfoundforhi:hawaiihellohowdyhulloD:wordnetSynExpand.exesyn_indexhiQuery:hihawaiiA0.9helloA0.9howdyA0.9hulloA0.9也可以用Luke-LuceneIndexToolBox来查看索引,两个字段,syn和word,通过word:hi就可以搜索到syn:hawaiihellohowdyhu

      4、llo四.使用同义词分析器、过滤器进展检索相比,Java程序员要轻松许多,有现成的lucene-wordnet-3.0.2.jar,里面有一些如今的代码可以用。C#的那些分析器和过滤器就得自己写了,或许我已走入了一个岔道,但也不算崎岖。小步骤就不详细描绘了,直接上代码,大家从代码中去理解:同义词引擎接口viewsourceprint?01.usingSystem.Collections.Generic;02.03.namespaceCom.Unmi.Searching04.05./06./SummarydescriptionforISynonymEngine07./08.publicinterfaceISynonymEngine09.10. IEnumerableGetSynonyms(stringword);11. 12.同义词引擎实现类viewsourceprint?01.usingSystem.IO;02.usingSystem.Collections.Generic;03.usingLucene.Net.Analysis;04.usingLucene.Net.Analysis.

      5、Standard;05.usingLucene.Net.Documents;06.usingLucene.Net.QueryParsers;07.usingLucene.Net.Search;08.usingLucene.Net.Store;09.10 .usingLuceneDirectory=Lucene.Net.Store.Directory;11 .usingVersion=Lucene.Net.Util.Version;12.13. namespaceCom.Unmi.Searching14. 15. /16. /SummarydescriptionforWordNetSynonymEngine17. /18. publicclassWordNetSynonymEngine:ISynonymEngine19. 20.21. privateIndexSearchersearcher;22. privateAnalyzeranalyzer=newStandardAnalyzer();23.24. /syn_index_directory为前面用Syns2Index生成的同义词索引

      6、目录25. publicWordNetSynonymEngine(stringsyn_index_directory)26. 27.28. LuceneDirectoryindexDir=FSDirectory.Open(newDirectoryInfo(syn_index_directory);29. searcher=newIndexSearcher(indexDir,true);30. 31.32. publicIEnumerableGetSynonyms(stringword)33. 34. QueryParserparser=newQueryParser(Version.LUCENE_29,word,analyzer);35. Queryquery=parser.Parse(word);36. Hitshits=searcher.Search(query);37.38. /thiswillcontainalist,oflistsofwordsthatgotogether39. ListSynonyms=newList();40.41. for(inti=0;ihits.Len

      7、gth();i+)42. 43. Fieldfields=hits.Doc(i).GetFields(syn);44. foreach(Fieldfieldinfields)45. 46. Synonyms.Add(field.StringValue();47. 48. 49.50. returnSynonyms;51. 52. 53.过滤器,下面的分析器要用到Lucene应用WordNet的同义词典实现同义词检索(C#版)22021-07-1810:49viewsourceprint?01.usingSystem;02.usingSystem.Collections.Generic;03.usingLucene.Net.Analysis;04.05.namespaceCom.Unmi.Searching06.07./08./SummarydescriptionforSynonymFilter09./10. publicclassSynonymFilter:TokenFilter11. private Queue synonymTokenQueue = new Queue();12.1

      8、3.14. publicISynonymEngineSynonymEngineget;privateset;15.16. publicSynonymFilter(TokenStreaminput,ISynonymEnginesynonymEngine)17. :base(input)18. 19. if(synonymEngine=null)20. thrownewArgumentNullException(synonymEngine);21.22. SynonymEngine=synonymEngine;23. 24.25. publicoverrideTokenNext()26. 27. /ifoursynonymTokensqueuecontainsanytokens,returnthenextone.28. if(synonymTokenQueue.Count0)29. 30. returnsynonymTokenQueue.Dequeue();31. 32.33. /getthenexttokenfromtheinputstream34. Tokentoken=input.Next();35.36. /ifthetokenisnull,thenitistheendofstream,soreturnnull37. if(token=null)38. returnnull;39.40. /retrievethesynonyms41. IEnumerablesynonymsSynonymEngine.GetSynonyms(token.TermText();42.43. /ifwedonthaveanysynonymsjustreturnthetoken44. if(synonyms=null)45. 46. returntoken;47. 48.49. /ifwedohavesynonyms,addth

      《net的同义词典实现同义词检索(c版)(二)》由会员新**分享,可在线阅读,更多相关《net的同义词典实现同义词检索(c版)(二)》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.