
互联网大数据挖掘系列研究之(十四):基于新闻舆情的选股策略研究.pdf
35页1 基于新闻舆情的选股策略研究 互联网大数据挖掘系列研究之(十四) 金融工程|专题报告 2018年11月15日 证券研究报告 罗 军 S0260511010004 020-87579006 邮箱: 安宁宁:S0260512020003 0755-23948352 邮箱: 陈原文 S0260517080003 邮箱: 0755-82797057 广发证券金融工程 2018年11月15日 CONTENTS目录 2 策略构建 02 策略实证 结果 03 研究背景 01 结论 04 01 |研究背景| 3 01 02 03 04 4 研究背景 互联网新闻数据 随着计算机科学技术的快速发展, 媒体新闻的传递从过去的只有电视、报 纸、杂志几种渠道,发展到今天以互联 网媒体为主流媒体进行信息传递 在金融投资领域,人们投资决策所 需的各种资讯很大部分是通过各种互联 网媒体获得的,而媒体的新闻和报道往 往引导着投资者的注意力 纵观海内外,学术界关于新闻媒体 对资本市场的研究,有着一系列丰富的 研究成果 数据来源:广发证券发展研究中心 5 研究背景 海外相关研究 2008年,Tetlock首次利用情感分析法对华尔街日报、道琼斯新闻等媒 体新闻内容进行情感分析,判定新闻内容信息为积极还是消极,实证结果表明消极信 息会带来向下的价格压力。
数据来源: TETLOCK等More Than Words: Quantifying Language to Measure Firms Fundamentals,广发证券发展研究中心 6 研究背景 海外相关研究 2009年,Fang 和 Peress 利用几大主流报纸的文章数量,作为媒体覆盖率的衡 量指标通过分析1993年至2002年期间,NASDAQ 成分股的媒体覆盖率和股票回报 率之间的关系,得出结论:在不区分正负面新闻的情况下,受到广泛报道的股票收益 显著低于无报道股票 数据来源:LILY FANG, JOEL PERESS等Media Coverage and the Cross-section of Stock Returns,广发证券发展研究中心 7 研究背景 海外相关研究 2011年,Joseph等利用谷歌提供的谷歌搜索量指数(SVI)来衡量投资者关注度 并对Russell 3000 指数样本股票在2004年至2008年的数据进行研究,发现谷歌搜索量 指数与投资者关注度有正相关性,可以作为个人投资者关注度的衡量该指数的上升 能够预测股票收益在两周内的上涨和一年内价格的反转。
数据来源: JOSEPH等In Search of Attention,广发证券发展研究中心 8 研究背景 媒体效应的解释 媒体效应 行为金融理论-过度弱势假说传统金融理论-风险补偿假说 受到媒体报道比较多的股票更 为投资者所熟知,所面临的信 息风险更小 未被媒体报道的股票具有较低 的信息透明度和较高的信息不 对称风险,因此需要正的风险 溢价进行补偿 投资者注意力容易受到新闻媒 体的影响,形成对某些市场热 点的“过度关注”,买入那些 “抓住他们注意力的股票”, 这种因为过度关注所带来的短 期内对新信息的过度反映和股 票价值的高估,导致随后收益 的长期反转,形成“过度关注 弱势” 数据来源:广发证券发展研究中心 9 研究背景 国内部分互联网大数据基金产品 名称代码跟踪指数上市时间公司开放/封闭主动/被动类型 博时中证银联智惠 大数据100指数型 证券投资基金 002588.OF 中证银联智惠大数 据100 2016/5/20博时基金开放式被动指数型基金 广发中证百度百发 策略100A指数型 证券投资基金 000826.OF 中证百度百发策略 100指数 2014/10/30广发基金开放式被动指数型基金 广发中证百度百发 策略100E指数型 证券投资基金 000827.OF 中证百度百发策略 100指数 2014/10/30广发基金开放式被动指数型基金 泰达宏利同顺大数 据量化优选灵活配 置混合型证券投资 基金 002263.OF2016/2/23泰达宏利基金开放式主动灵活配置型基金 南方大数据300A 指数证券投资基金 001420.OF大数据3002015/6/24南方基金开放式被动指数型基金 东兴证券众智优选 基金 002465.OF2016/6/13 东兴证券股份有限 公司 开放式主动灵活配置型基金 大成中证360互联 网+大数据100指 数型证券投资基金 002236.OF 中证360互联网+ 大数据100指数 2016/2/3大成基金开放式被动指数型基金 广发百发大数据策 略精选灵活配置混 合型证券投资基金 001741.OF2015/9/14广发基金开放式主动灵活配置型基金 广发百发大数据策 略精选灵活配置混 合型证券投资基金 001742.OF2015/9/14广发基金开放式主动灵活配置型基金 数据来源:公司官网、广发证券发展研究中心,数据截止至2018年11月14日 10 研究背景 互联网大数据抓取体系 数据来源:广发证券发展研究中心 获取网页抓 取规则 获取反监控规则、 异常 规则、设置 代理 IP 通用可扩展集群 抓取线程池 连接池 可视化配置 智能化配置 网页规 则识别 监控系统 抓取任务调 度分发器 常 规 抓 取 临 时 抓 取 反监控 管理 反监控规则 异常规则 恢复策略 监控异常、调 整反监控规则 带优先级抓 取消息 分配调度服务器 批量存储 11 研究背景 互联网大数据挖掘体系 大数据挖掘 搜索引擎 网络舆情概念轮 动 搜索舆情下的行业 轮动 网络舆情下的大类 资产配置 网络媒体 个股新闻热度 财经门户选股 热点题材动向 关联个股投资机 会 股吧、社交 股吧情绪挖掘 热度挖掘 雪球热度挖掘 网络搜索热度挖掘 研究报告 研报热点挖掘 汇丰PMI前沿挖掘 公告、财报 公告抓取 公告分类监测 A股调研信息挖掘 特定公告内容挖掘 数据来源:广发证券发展研究中心 研究背景 专题策略报告 基于网络新闻热度的择时策略-互联网大数据挖掘系列专题(一) 那些年一起追过的财经小编选股策略-互联网财经频道文本挖掘策略 基于互联网挖掘的热点选股策略-互联网大数据挖掘系列专题之(五) 基于大数据挖掘的关联个股投资机会-互联网大数据挖掘系列专题之(六) 基于大数据挖掘的Smart Beta策略-互联网大数据挖掘系列专题之(七) 多维数据下的大数据择时策略研究-互联网大数据挖掘系列专题之(八) 基于大数据挖掘的概念轮动策略-互联网大数据挖掘系列专题之(九) 基于舆情的大类资产配置策略-互联网大数据挖掘系列专题之(十) 基于大数据挖掘的行业轮动策略-互联网大数据挖掘系列专题之(十一) 基于网络舆情的指数轮动策略研究-互联网大数据挖掘系列专题之(十二) 基于网络舆情再探指数轮动策略研究-互联网大数据挖掘系列研究之(十三) 互联网文本挖掘工具 1、A股新闻热度搜索工具; 3、上市公司信息变更抓取; 5、汇丰PMI实时监测工具; 7、特定公告实时监测工具; 9、百度指数搜索工具; 2、A股上市工具公告抓取工具; 4、文本信息批量识别及处理; 6、个股研报热点监测工具; 8、财经小编选股工具; 10、A股上市公司调研信息文本挖掘工具; 大数据研究现状 12 02 |策略构建| 13 01 02 03 04 策略构建----数据来源 互联网新闻数据可预测性分析 14 行为金融学 & 非理性行为: 金融市场上有许多异常现象是传统金融理论和模型所无 法解释,比如规模效应、日历效应等。
行为金融学从投资者 非理性心理和行为等方面对这些现象给予一定的理论支撑 有限关注一直是行为金融学中研究的热门话题,当投资 者面对诸多信息时,极易受到外界信息的干扰,进而导致个 性化的选择注意差别,最终反映在股票价格上面 有限关注的存在在一定程度上限制了投资者学习和决策 的过程我国大部分投资者为散户投资者,由于缺乏专业的 知识,容易受到外界信息的干扰,从而造成投资损失 策略构建----数据来源 15 投资者关注度的衡量 目前学术上一般用引起投资者注意的事件或信息作 为投资者关注度间接的代理变量传统关注度的代理变 量有超额收益、异常交易量、换手率、涨跌停板等,但 这些指标都是金融资产本身的交易特性和价格行为,并 不能直接反映投资者对股票市场的关注程度 在现实股票市场中,互联网成为广大股民获取信息 最主要的渠道互联网搜索引擎提供的相关数据,准确 刻画投资者的心理活动因此,我们可以使用个股的新 闻数量作为投资者关注度的衡量指标,探究投资者关注 度和股票收益之间的关系 策略构建----数据来源 16 投资者关注度的衡量 为了尽可能地获取个股在所有热门新闻网站上的新闻数量,有以下两种思路: 1. 分别获取各个热门财经新闻网站有关个股的新闻信息,这种方法的缺点是效率 极低,需对不同网站的网页源码进行解析,导致抓取的工作量大,耗费时间长。
2. 借助搜索引擎的相关新闻搜索功能,通过搜索引擎我们即可获得个股在各个热 门财经网站上的新闻信息这既增加了效率也增加了数据量目前具有新闻搜索功能 的搜索引擎主要有新浪财经新闻搜索、百度新闻搜索、360新闻搜索等 本文采用第二种搜索引擎采集新闻来构建投资者关注度指标 17 策略构建----数据来源 个股新闻数量描述性统计 对个股从2010年至2018年6月的新 闻量数据进行统计其中,新闻数量最 多的来自华夏幸福(8832条)、中国动 力(8259条)、科大讯飞(5714条); 新闻数量最少的来自中迪投资(43 条)、圣济堂(41条)、华创阳安(34 条) 指标数值(单位:条) 股票个数1117 平均数706.56 标准差790.76 最小值34 25%分位数 364 50%分位数 518 75%分位数 736 最大值8832 数据来源:广发证券发展研究中心 18 策略构建----数据来源 新闻数量分年度统计 随着移动互联网的普及和快速发展,关于个股的财经新闻数量显著增长,2018年 上半年个股新闻数据总量高达12万条,占2017年年度新闻总量的80% 数据来源:广发证券发展研究中心 -10% 0% 10% 20% 30% 40% 50% 60% 0 20000 40000 60000 80000 100000 120000 140000 160000 2010年2011年2012年2013年2014年2015年2016年2017年2018年Q2 新闻数量分年度统计(单位:条) 新闻数量同比增速 19 策略构建----数据来源 新闻数量分行业统计 行业分布上,新闻量多的行业主要集中在医药生物、化工、房地产、计算机等行 业。
数据来源:广发证券发展研究中心 0 10000 20000 30000 40000 50000 60000 70000 80000 医药生物 化工 房地产 计算机 电气设备 电子 交通运输 传媒 公用事业 商业贸易 机械设备 有色金属 采掘 汽车 农林牧渔 食品饮料 轻工制造 纺织服装 建筑装饰 家用电器 钢铁 建筑材料 通信 综合 国防军工 非银金融 休闲服务 银行 交运设备 建筑建材 行业新闻数量一览(单位:条) 20 策略构建----数据来源 个股新闻数量与股票价格走势图 0 20 40 60 80 100 0 10 20 30 40 50 60 70 赣锋锂业新闻数量(单位:条)与股票价格(单位:元)走势图 新闻数量股票价格(右轴) 0 10 20 30 40 50 60 70 80 0 5 10 15 20 小天鹅A新闻数量(单位:条)与股票价格(单位:元)走势图 新闻数量股票价格(右轴) 0 5 10 15 20 0 5 10 15 20 25 30 35 40 中化国际新闻数量(单位:条)与股票价格(单位:元)走势图 新闻数量股票价格(右轴) 0 5 10 15 20 25 30 35 0 。












