资讯数据挖掘应用设计.docx
7页资讯数据挖掘应用设计一、设计目的本设计方案基于资讯与个股或资讯与概念题材的关系,先厘清每日资讯本身的热度值,基于此计算出所涉及之个股热度和所涉及概念题材之热度需明白最终所需为每日个股热度表现或题材热度表现,而题材热度表现最终仍需反映在个股之上,故在些方案过程中,亦需要充分计算出个股与概念的相关关系,并形成一整套的加工、应用体系1、应用模块结构设计资料数据挖掘应用系统涉及资讯人工加工、程序算法和资讯数据应用整合三大方面,下图为整个系统的程序算法和资讯数据应用之核心模块结构图示,资讯人工加工可参见资讯加工平台的功能设计2、应用模块的目标应用模块最终将受制于源头资讯加工方式的制约,而如何从资讯中提取题材、如何建立题材与个股的关联度才是整个加工系统的难点和关键当前有两种思路:做最好的领先题材,所有题材自行提取,相关个股关系自行构建,但对维护人员对投资性题材提取的敏感度要求较高、题材与个股关系的分析工作量较大!做一般性题材,所有题材可以从众多财经资讯网站遴选,题材所含个股及个股相关性也可能采用从众多资讯抽取生成的方式处理,进而计算出相关度通过综合考虑,现阶段采用“一般性题材”的思路二、资讯应用目标资讯最终应用设计: 1、当前最热概念题材: 热点题材列表、题材异动事件、题材市场关注度(实时刷新)2、近一周热点题材3、题材定义、题材相关个股及相关度、题材投资要点、题材所属个股投资要点、题材相关资讯。
4、概念热度走势与资讯关联、行情对比5、个股热度走势与资讯关联、行情对比三、资讯数据挖掘开发(一)资讯热度计算1、资讯的特点资讯来源于各网站,可能是一家原创、多家转载,也可能是多家分别报道,各网站受众及影响度不同;同一篇核心资讯,不管来自哪家媒体或网站,所属分类大体相同,但不同资讯间所属分类是重要区分点(即所属分类,与来源关联度不大); 同一篇核心资讯,在不同的网站上,内容上可能有区别,如内容的原创性、内容完整性、内容披露的时间段等;同一篇核心资讯,在不同的网站上,被放置的栏目可能会不同,代表各网站对该资讯的重视度;同一篇核心资讯,在不同的网站上,被关注的程度不同,表现为跟帖量、推荐数、转载量等指标(跟帖量、推荐数见网易新闻); 2、资讯热度计算思路资讯热度计算引用要素:资讯本身重要性、资讯来源、来源所属栏目注:鉴于当前公开获取的网络资讯源,比较难以统计或追踪网站发布转载量、评论数、浏览量等媒体平台的关注度指标,故暂不列入对重复或转载资讯,通过程序+人工双重排重,只选择来源最早的一条资讯作为主资讯,重复或转载资讯只统计资讯来源、来源所属栏目两个要素,权重为6:4,重复资讯热度归并为主资讯。
3、资讯热度计算模型(1)计算公式影响资讯热度的评价指标有:资讯来源影响力(a1)、栏目重要性(a2)、资讯重要性(a3),对各评价指标以百分制评分,按加权评分法计算出资讯热度资讯热度为Z,评价指标i的分值为Ni,权重为Qi,即Z=∑Ni*Qi;资讯热度的计算,最终是基于排重后的核心资讯来计算,每一篇核心资讯对应一篇或多篇原始资讯,重复资讯热度将归并为核心资讯上2)注意事项为保证不同核心资讯间分值的可对比性,需保持评价标准的一致,如同一计算公式中,指标分值制要一致,统一采取百分制;同一计算公式中,指标权重加总为100%从应用的角度,一篇核心资讯的热度,有两个主要的评价主体,披露方和资讯阅读者,披露方的因素可细分为披露方本身评分、披露方细分栏目评分;资讯阅读者的因素可细分为评论数、装载量、跟帖量、推荐数等因素;其中,披露方本身评分是一篇核心资讯各原始资讯的权重划分指标,披露方细分栏目评分、资讯阅读者各项评分是该核心资讯各原始资讯的细分指标以上提到的其他指标,可供参考实际意义有限,应分配较低的权重注:后续可考虑引用百度等搜索工具的数据量作参考要素4、计算因子的度量(1)度量基准所有资讯来源划按影响力、网站质量、资源等要素划分为五档,五档基准分值为:档次基准分值段计分方式一档(90.00至100.00]随机值二档(80.00至90.00]随机值三档(70.00至80.00]随机值四档(60.00至70.00]随机值五档(50.00至60.00]随机值(2)资讯来源重要性对所有资讯来源网站进行分级分档(3)资讯内容重要性资讯影响力由资讯编辑判断,划为五档。
侧重于关注资讯的资讯类别及其影响力(4)来源栏目或类别资讯来源所属栏目或类别划为五档5、资讯热度要素权重评价要素核心资讯权重重复资讯权重资讯来源重要性40%60%来源栏目或类别30%40%资讯内容重要性30%(二)题材热度计算1、题材热度讲算思路题材来源于资讯基于投资分析后的提炼在现阶段的加工方式之下,我们通过加工资讯时,标记资讯相关的题材及相关度,同时在资讯热度指标的支持下,反向计算题材热度2、题材与资讯的相关度对题材相关资讯划分相关度,相关度分为四档档次标记基准分值段计分方式一档1-高(90.00至100.00]随机值二档2-较高(80.00至90.00]随机值三档3-一般(70.00至80.00]随机值四档4-弱(60.00至70.00]随机值3、计算公式设题材热度值为T,相关资讯i的热度值为Ni,与题材的相关度为Ri则题材的热度为 T=∑Ni*Ri; 计算范围:最近48小时4、后续拓展引用交易所市场统计数据;引用LEVEL2高频行情资金流入流出数据,作为题材热度的市场要素三)个股热度计算1、个股热度计算思路个股热度计算思路类同于题材热度,当前主要来源于资讯所涉及的个股及从属于题材的个股和相关资讯。
在现阶段的加工方式之下,我们通过两个维度来计算个股热度:1、直接与个股相关的资讯:在加工资讯时,标记资讯相关的个股及相关度,同时在资讯热度指标的支持下,反向计算个股热度2、不与个股相关,但有相关题材的,在题材热度基础上,再次计算叠加计算题材与个股的相关度2、个股与资讯的相关度对资讯与个股相关度划分为四档档次标记基准分值段计分方式一档1-高(90.00至100.00]随机值二档2-较高(80.00至90.00]随机值三档3-一般(70.00至80.00]随机值四档4-弱(60.00至70.00]随机值3、计算公式(1)仅与个股直接相关,不涉及题材的资讯:个股热度值为S1,相关资讯i的热度值为Ni,与个股的相关度为Ri个股热度为 S1=∑Ni*Ri;(2)仅与题材相关,不与个股相关的资讯: 个股热度为S2,题材的热度值为Z,涉及题材的资讯数为n,题材与个股的相关度为Ri S2=Z/n*Ri(3)个股热度S:S=S1+S2计算范围:最近48小时4、后续拓展引用交易所市场统计数据引用LEVEL2高频行情资讯流入数据(四)题材与个股的相关度1、题材与个股的相关度算法一(1)题材相关资讯,资讯涉及个股,根据资讯实时计算。
题材所涉及的资讯数为Zi,相关资讯涉及个股次数为Si,则题材与个股相关度R1=Si/Zi题材与资讯的相关度、资讯与个股的相关度暂不考虑计算范围:最近一年通过资讯计算的结果如下:题材相关个股相关性(R1)基建题材股票A60%基建题材股票B50%基建题材股票C30%基建题材股票D20%基建题材…………(2)并对计算结果,再由人工确认对于已存在的题材,由编辑通过分析整理确定题材与个股相关性历史基数题材相关个股相关性R2基建题材股票B100%基建题材股票A90%基建题材股票C80%基建题材股票D70%(3)对两类要素进行算述加权!资讯相关性权重60%,基准相关性权重40%2、题材与个股的相关度算法二(1)建立题材及题材关键词(2)通过构建有助于判断个股是否归属题材及归属度的要素体系及权重,通过通过计算机通过关键词匹配技术匹配计算出相关度(3)对计算结果辅以人工判断4)例用题材及题材关键词作资讯全文检索,作关键词排序。
2022年高考数学必杀技系列之导数专题7 极值点偏移问题(原卷版).docx
最新教学设计教学考一体化网考形考试题及答案(DOC 44页).doc
你还在用电刷镀技术修复轴头磨损吗?.docx
一般公差标准HB5800-1999.pdf
四川成都洛带宝胜村(原大院村)熊家湾杨氏宗谱(杨光裕整理)网上版本.doc
四川成都洛带宝胜村(原大院村)熊家湾杨氏宗谱(杨光裕整理)网上版本.doc
环境工程设计基础PPT课件.ppt
县委领导班子2021年换届五年工作总结.docx
通环(2018)8323时速250公里、350公里高速铁路桥梁插板式声屏障安装图.pdf
高中数学复习专题07 导数中的同构问题(解析版).docx
工程材料与成型工艺基础习题汇编答案--老师版..doc
中储粮-智能通风技术规程-2011.pdf
