电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

2024文本分析算法

10页
  • 卖家[上传人]:周哈****孩子
  • 文档编号:595158829
  • 上传时间:2024-10-23
  • 文档格式:DOCX
  • 文档大小:480.78KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 文本分析算法文本分析文本数据停用词1.!2.3.#4.$1. 一下2. 一个3. 一些4. 一何1. 语料中大量出现2. 没啥大用3. 留着过年嘛?5.%6.&7.8.(9.)10.*11.+12.,13.-14.-15. .16. .17. .18. .19. .20. ./21. .一5. 一切6. 一则7. 一则通过8. 一天9. 一定10. 一方面11. 一旦12. 一时13. 一来14. 一样15. 一次16. 一片17. 一番18. 一直19. 一致20. 一般21. 一起Tf-idf:关键词提取中国的蜜蜂养殖: 进行词频(Term Frequency,缩写为TF)统计出现次数最多的词是-“的”、“是”、“在”这一类最常用的词(停用词)“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,重要性是一样的?中国是很常见的词,相对而言,蜜蜂和养殖不那么常见逆文档频率(Inverse Document Frequency,缩写为IDF)如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性正是我们所需要的关键词Tf-idf:关键词提取中国的蜜蜂养殖:假定该文长度为1000个词,中国、蜜蜂、养殖各出现20次,则这三个词的词频(TF)都为0.02搜索Google发现,包含的字的网页共有250亿张,假定这就是中文网页总数。包含中国的网页共有62.3亿张,包含蜜蜂的网页为0.484亿张,包含养殖的网页为0.973亿张Tf-idf:关键词提取相似度相似度 句子A:我喜欢看电视,不喜欢看电影。句子B:我不喜欢看电视,也不喜欢看电影。 分词:句子A:我/喜欢/看/电视,不/喜欢/看/电影。句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。 语料库:我,喜欢,看,电视,电影,不,也。 词频:句子A:我 1,喜欢 2,看 2,电视 1,电影 1,不 1,也 0。句子B:我 1,喜欢 2,看 2,电视 1,电影 1,不 2,也 1。 词频向量:句子A:1, 2, 2, 1, 1, 1, 0句子B:1, 2, 2, 1, 1, 2, 1相似度

      《2024文本分析算法》由会员周哈****孩子分享,可在线阅读,更多相关《2024文本分析算法》请在金锄头文库上搜索。

      点击阅读更多内容
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.