好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

面向网络舆情监控的热点话题发现技术研究.pdf

82页
  • 卖家[上传人]:E****
  • 文档编号:117232364
  • 上传时间:2019-12-05
  • 文档格式:PDF
  • 文档大小:7.03MB
  • / 82 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 国防科学技术大学 硕士学位论文 面向网络舆情监控的热点话题发现技术研究 姓名:殷风景 申请学位级别:硕士 专业:管理科学与工程 指导教师:肖卫东 2010-11 国防科学技术大学研究生院硕士学位论文 第 i 页 摘 要 随着国家、企业对网络舆情的日益重视,越来越多的网络舆情监控系统被开发 出来帮助政府、部门或企业应对在网络上爆发的关于自己的舆论压力或群体性事 件在使用门槛很低、信息披露很容易、传播很快、影响很大的互联网环境下, 监控系统实时采集相关信息,智能分析信息内容,及时发现舆情危情,为自动化 解决监看、处理网络舆情提供了很好的支持,极大地方便了用户,有力地辅助用 户及时正确地处理舆情危情 在大部分舆情监控的系统中, 用户通过定制来源网站等信息让系统周期性地采 集网站报道,经系统分析处理后将用户关心的报道呈现出来在这个过程中,大 量重复的或者描述同一事件的报道杂乱地出现在显示结果中,既不利于用户的查 看、分析、总结,也不利于系统评价事件的报道详情、准确计算事件的热度,因 而需要运用话题发现技术对这一问题进行改善 本文首先研究了话题发现的关键技术, 在分析话题发现流程后得出聚类是其中 的关键步骤的结论,因此,接下来阐述了各种聚类算法的原理并以此为基础分析 对比了各算法的利弊,最终选取了在话题发现的评测中使用最多的 single-pass 算 法,然后分析了该算法从评测走向实际应用遇到的困难和制约因素,本文中从算 法响应速度、聚类精度和用户介入等角度着手改进 single-pass 聚类算法,最终取 得了良好的实际应用效果,达成了话题发现的目标。

      接下来针对舆情监控的特定应用,研究热点发现的话题热度评价方法,在已有 基于关注度的热度指标基础上,本文提出基于关注度和影响能力的综合热度指标, 更加准确地契合舆情危情发现的目标,经过热度排序后的话题直观简洁地向用户 推荐了舆情监控的急缓先后顺序,使用户可以更好地应对复杂多变的网络环境 通过在舆情监控系统中整合话题发现技术和热点发现技术形成有机统一的热 点话题发现模型,具有较高的应用价值;同时,虽然话题发现技术和热点发现技 术的研究比较成熟,但技术的实用化过程中遇到很多问题严重制约了技术的效果, 所以在舆情监控系统中建立热点话题发现模型也具有较高的研究意义和研究价 值文章最后通过运行实例和对比分析验证了模型的可行性和有效性 主题词:网络舆情 话题发现 热点发现 聚类 国防科学技术大学研究生院硕士学位论文 第 ii 页 ABSTRACT With the government and companies’ increasing emphasis on internet public opinion monitoring, more and more public opinion monitoring system have been developed to assistant its user to deal with the public pressure or mass events on the Internet. Public opinion monitering system can gather related information real time, analyze the content intelligently, dig out the danger in public opinion timely, support the watching and disposing internet public opinion automaticly, as well as convenient its user and strongly help its user deal with public opinion correctly. In most of public opnnion monitering system, user gathers reports from internet sites periodically by customize source sites and system present the results to user after system’sanalysis and dispose. There are always lots of repetitious reports or reports describing the same event appearing between the results. This is not good for user either to look over, analyze and summarize the situation or to judge of the detail of one event and its heat. So it is necessary to improve the situation by using topic detection technology. In this paper we study the key technology of topic detection. We conclude that clustering is the most decisive step after learning the whole process of topic detection. We introduce the main principium of some clustering algorithms and analyze their advantages and disadvantages, then we pick single-pass clustering algorithm which is very popular in topic detection evaluating as our core algorithm. We study the difficulty and restrictive factors lying in single-pass algorithm’s practicality, we set about a series of measures to improve its performance such as speed, accurateness and user intervention, and finally we obtain a well practical effect and fulfill the goal of topic detection. Aimed at the idiographic application, we study the hot evaluation and detection methods, and put forward integrated hot index based on focus degree and influence capability by meliorate index based focus degree. The integrated hot index can tally better with the goal of public opinion monitoring, with the integrated hot index the topic show a rank representing its importance laconically so that user can cope with the dynamic Internet better. We put forward the hot topic detection model which is very valuable to improve internet public opinion monitoring system by combining topic detection technology and hot evaluation method; at the same time, although research on topic detection and hot evaluation method is somekind of mature, we still face many difficulties in putting these technologies into practice, so it has very high of researching significance and value. At the end of this paper we proved the feasibility and validity of the hot topic detection model by running an instance and contrasts. 国防科学技术大学研究生院硕士学位论文 第 iii 页 Key Words::Internet public opinion, Topic detection, Hot detection, Clustering 国防科学技术大学研究生院硕士学位论文 第 III 页 表 目 录 表 1 各类聚类算法聚类指标对比. 25 表 2 各网站登记权重表 40 表 3 不同阈值聚类效果比较分析. 53 表 4 三种算法聚类效果指标对比. 57 表 5 正义网政法舆情热点 58 表 6 正义网反腐舆情热点 59 国防科学技术大学研究生院硕士学位论文 第 IV 页 图 目 录 图 1 话题自动发现的流程 17 图 2 经典 single-pass 聚类算法执行流程 . 21 图 3 改进算法的执行流程描述 31 图 4 热点话题发现模型的功能设计 . 44 图 5 热点话题发现模型结构设计. 45 图 6 各模块间数据关系图 46 图 7 数据形式变迁图 47 图 8 网络舆情监控系统 49 图 9 网络舆情监控系统的功能交互图 . 50 图 10 网络舆情监控系统体系结构图 . 51 图 11 舆情信息采集的定制 52 图 12 舆情信息的分类显示 52 图 13 热点话题发现模型的运行结果 . 53 图 14 话题要素分析图 54 图 15 话题发现结果中的漏检示例 . 54 图 16 话题发现结果中的错检示例 . 55 图 17 三种聚类算法运行速度对比 . 56 图 18 人民网第一季度地方应对舆情能力排行榜 60 图 19 人民网第二季度地方应对舆情能力排行榜 60 国防科学技术大学研究生院硕士学位论文 第 1 页 第一章 绪论 1.1 研究背景和问题研究背景和问题 据中国互联网络信息中心(CNNIC)发布的《第 26 次中国互联网络发展状况统 计报告》[1]数据显示,截止 2010 年 6 月 30 日,我国网民人数达到 4.2 亿,互联网 普及率攀升到 31.8%,宽带网民人数达 3.6 亿多,占总网民人数的 98.1%,上 网用户达 2.77 亿。

      报告还称,网民每周上网时间持续增加,人均每周上网时长达 19.8 小时;网民学历结构呈低端化变动趋势,初中和小学以下学历网民增速超过 整体网民此外,数据显示,中国 56%的网民经常在网上发表意见,84.3%的网民 认为互联网是最重要的信息渠道, 48%的网民对互联网的信任程度比电视高另据 2010 年统计, 全世界互联网网站数以亿计, 其中我国网站数目 323 万个, 域名 1121 万个,注册域名数、网站数、网页数量稳居亚洲第一,其中论坛有 130 多万个, 数量为全球第。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.