电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

新闻个性化推荐系统(python) 调试整体记录

5页
  • 卖家[上传人]:小**
  • 文档编号:88216855
  • 上传时间:2019-04-21
  • 文档格式:DOC
  • 文档大小:613.51KB
  • / 5 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、新闻个性化推荐系统(python) 关zhu并回复 微信公众号:数据挖掘DW (ID:datadw )可获取源代码和数据集。 最近参加了一个评测,是关于新闻个性化推荐。说白了就是给你一个人的浏览记录,预测他下一次的浏览记录。花了一周时间写了一个集成系统,可以一键推荐新闻,但是准确率比较不理想,所以发到这里希望大家给与一些建议。用到的分词部分的代码借用的jieba分词。数据集和代码在下面会给出。1.数据集一共五个字段,以tab隔开。分别是user编号,news编号,时间编号,新闻标题,对应当前月份的日(3就是3号)2.代码部分先来看下演示图 (1)算法说明 举个例子简单说明下算法,其实也比较简单,不妥的地方希望大家指正。我们有如下一条数据plainview plaincopy1. 57389361006498791394550848MH370航班假护照乘客身份查明(更新)11 5738936这名用户在11号看了“MH370航班假护照乘客.”这条新闻。我们通过jieba找出11号的热点词如下。plainview plaincopy1. 失联311三周年马方偷渡客隐形护照吉隆坡航班护照者 我

      2、们发现“航班”、“护照”这两个keywords出现在新闻里。于是我们就推荐5738936这名用户,11号出现“航班”、“护照”的其它新闻。同时我们对推荐集做了处理,比如说5738936浏览过的新闻不会出现,热度非常低的新闻不会出现等。(2)使用方法 整个系统采用一键式启动,使用起来非常方便。首先建立一个test文件夹,然后在test里新建三个文件夹,注意命名要和图中的统一,因为新闻是有时效的,每一天要去分开来计算,要存储每一天的内容做成文档。test文档如下图,就可以自动生成。使用的时候,要先在Global_param.py中设置好test文件夹的路径参数。一切设置完毕,只要找到wordSplite_test包下面的main()函数,运行程序即可。Global_param中设置参数说明: number_jieba:控制提取关键词的数量 number_day:从第一天开始,要预测的天数 hot_rate:预测集预测的新闻热度,数值越大热度越高(3)代码流程 首先我们从main()看起。pythonview plaincopy1. importGet_day_data2. importGe

      3、t_keywords3. importGet_keynews4. importDelete_Repeat5. importGet_hot_result6. importGlobal_param7. defmain():8. foriinrange(1,Global_param.number_day):9. Get_day_data.TransforData(i)10. Get_day_data.TransforDataset(i)11. Get_keywords.Get_keywords(i)12. Get_keynews.Get_keynews(i)13. Delete_Repeat.Delete_Repeat()14. Get_hot_result.get_hot_result(Global_param.hot_rate)15. 16. main() 1.首先Get_day_data.TransforData(i)函数,找到最后一次浏览的是第i天的新闻的用户行为,存放在test/train_lastday_set目录下。 2.Get_day_data.TransforDataset

      4、(i)函数,区分每一天的新闻,存放在test/train_date_set1目录下 3.Get_keywords.Get_keywords(i)函数,调用jieba库,挑出每一天最火的keywords,存放在test/key_words下 4.Get_keynews.Get_keynews(i)函数,通过每一个用户最后一次浏览的新闻,比对看有没有出现当天的热门keywords。如果出现,就推荐当天包含这个keywords的其它新闻。循环Global_param.number_day天,生成test/result.txt文件 5. Delete_Repeat.Delete_Repeat()函数,去除result中的重复项,生成test/result_no_repeat.txt 6.Get_hot_result.get_hot_result(Global_param.hot_rate)函数,因为上面生成的result_no_repeat函数可能出现,每个用户推荐过多的情况,影响准确率。所以用这个函数控制数量,每个用户只推荐新闻热度相对高的候选项。最终结果集test/result_no_repeat_hot.txt注意:test下的result.txt文件每执行一次程序要手动清空,其它文件都是自动生成不用处理。

      《新闻个性化推荐系统(python) 调试整体记录》由会员小**分享,可在线阅读,更多相关《新闻个性化推荐系统(python) 调试整体记录》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.