
基于随机森林算法和分析师推荐的选股策略探讨 - 金融证券.docx
5页基于随机森林算法和分析师推荐的选股策略探讨 - 金融证券 金融证券论文 本文是一篇金融证券论文,本文的目的是探索使用分析师的目标价格作为股票选择信息的来源,并使用随机森林算法建立投资模型并获得超过市场基准的收益研究结果说明,研究报告中包含的信息可以预测未来的股价变化,也能表明随机森林能够很好地应用于复杂关系模型的建立第一章 绪论1.1 研究背景及研究意义随着计算机科学和现代金融理论的开展,已经出现了借助计算机技术和数学办法实现证券投资组合和自动交易构建的量化投资技术在信息量不断增加的背景下,要依靠投资者在有限的时间内进行积极的投资来获利是极其困难的,而量化策略可以不断拓宽决策运算的边界,从而实现超越市场水平的收益在量化投资策略中,因子策略是其中的重要方向其核心首先是选择适当的因子并进行叙述,其次是构建因子模型获取超额收益当前绝大局部的量化策略可分为根本面量化和技术面量化两种类型,传统的根本面量化的主要逻辑是通过对标的公司本身的数据进行分析,从而找出具有开展潜力的公司,这种办法的问题在于使用的信息都是已发生的历史信息,而股价的决定因素往往来自于未来的信息;而技术面量化那么依赖于对各种实时指标的分析从而推测出投资者状态,进而在适宜的时点买卖从而获取超额收益,由于市场的有效性提高,通过这种策略获得收益的难度也越来越高。
量化投资最早可以追溯到格雷厄姆和戴维多德的?证券分析》中,作者认为,通过分析股票的客观财务指标,可以发现具有未来增长潜力的股票随着计算机技术的开展,投资者可以使用设计和编程来代替财务分析中的人,防止人的主观性从业者通常采取各种定量分析办法,如统计学、数学金融、行为金融、自然语言处理、机器学习办法等一些驰名的公司包括 Euclidean Technologies 等是使用机器学习进行量化投资的典型案例传统的有效市场理论将市场有效性分为弱势有效、半强势有效和强势有效当前国内的股票市场一般被认为是半强势有效市场在该前提下,技术分析无效,股价由股票的根本面信息决定,股价的变动往往取决于股票根本面的变动,此外提前得知底细消息也可以获得超额收益因此如果能够判断一支股票未来根本面的变化情况那么可以提前买入并在之后获得高于市场的超额收益传统的根本面量化多数基于股价的历史信息,但历史信息并不能代表股价未来的变动趋势,相对来说,分析师是资本市场非常重要的信息中介之一1.2 研究思路与办法 本文通过搜集带有目标价的研报信息,并填补相应的目标公司、目标券商、研报信息、市场行情等相关信息,使用随机森林模型来建立多因子选股模型。
原那么是要考虑不同因素与分析师预测准确性之间的关系,从而确定公司将来突破目标价的可能性进而根据得到的概率筛选出具有投资价值的股票投资组合从而获得超额收益本文选取 A 股市场 2022 年至 2022 年全部给出目标价的研报,选取行情因子、公司根本面因子、投资者行为因子、研报特征因子、股票市场格调因子、研究机构特征因子六大类作为因子池,考虑到季报发出时间的信息含量,以季度作为样本分割规范,以研报达成目标可能性对应构造训练样本首先进行数据预处理,之后通过 RandomSearchCV 进行模型超参数优化,并且选取最正确训练窗口长度以训练期下一个季度的样本进行回测对模型进行滚动训练,选取每个季度预测的未来最可能上涨的十只股票采用总收益率、年化收益率、夏普比率等指标对模型的强度进行判断最后采取一些额外的优化办法,将得到的结果与原始结果进行比拟,从而探讨不同的情况对模型强度的影响第二章 相关理论与文献综述2.1 文献综述2.1.1 分析师预测准确性影响因素研究对于分析师预测准确性的研究主要集中在分析师所在公司的特征、分析师自身及研报的特征、标的公司的特征等,其余还考虑了宏观因素、市场制度改革以及投资者的行为等因素。
从宏观因素的影响来看,现有研究说明,经济政策的不确定性会大大降低预测的准确性,如戴泽伟和杨兵〔2022〕使用 Baker 构建的经济政策不确定性指数研究经济政策不确定性与分析师准确性的相关关系,发现宏观经济政策不确定性会降低盈余预测准确性钟覃琳和刘媛媛〔2022〕进行了进一步的研究,发现分析师报告在经济政策不确定强的时期具有更高的信息含量,且政策波动对报告的影响主要集中在非国有和高成长性企业当中从分析师的角度来看,分析师所在券商对于预测准确性有明显影响,如高祥〔2022〕 发现影响显著的评级变动一般来自规模较大、研究实力较强及上榜新财富多的券商机构Elisabeth Kempf〔2022〕发现承销规模更大的投行可能聘请预测准确度更高的分析师分析师的声誉本身也会作用于研报的市场影响,如金瑾〔2022〕 研究了声誉与超额收益率之间的影响,发现证券分析师可以通过声誉在短期内影响市场,但无法为投资者带来超额收益但赵留彦和宁可〔2022〕发现上榜新财富的分析师所做的评级上调总体上具有良好的投资参考价值,但取消了新财富后分析师的勤勉工作程度和荐股能力有所下降与之类似,周豫〔2022〕使用Logit 模型发现新财富上榜分析师拥有更多的信息优势,是更好地信息参照。
从分析师自身能力的角度来看,分析师的专业能力越强那么预测能力越强,如 Itzhak 等〔2022〕发现内部人员在专业知识领域内拥有卓越的交易技能,这种技能源自于选股能力而不是择时,而且往往集中在最难以评估的股票上Keming Li〔2022〕也研究了分析师覆盖范围对预测准确率的影响,发现分析师的覆盖范围对分析师预测准确性有显著的相关性,而且这种影响在市场衰退或不确定性影响较高时更大施然〔2022〕也发现了分析师经验与准确性之间的正相关关系图 2.1 随机森林原理图.....................2.2 相关理论2.2.1 有效市场假说有效市场假说由尤金法玛于 1970 年提出,其本质是讨论市场有效性的界定规范衡量证券市场的外在效率有两个重要标志:一是价格能否根据相关信息自由变动,二是证券的有关信息能否充沛地披露和均匀地分布,使每一个投资者都能获得同样的信息市场的有效性越强,那么以上两个条件满足的越充沛根据以上若,投资者在买卖股票时能够立即运用所有的信息,导致所有过去影响股价的信息都已经反馈在股票价格当中了,从而得出技术分析无效的结论,这时候的市场已经到达了弱势有效市场当股票价格充沛反映了所有的公开资讯,投资者无法用根本面分析技术来获取超额收益,这时候的市场已经到达了半强有效市场,此时无法再依赖财务报表、经济情况、政治形式等等进行股票的未来价格预测。
在一个强大而高效的市场中,有关股票的所有公开和未公开信息已反映在股票的价格中此时市场已到达强势有效,内部信息不再能够获得超额收益CAPM 模型由威廉夏普、林特尔、特里诺、莫辛等人在现代投资组合理论上开展起来,它是现代金融市场价格理论的核心,并广泛用于投资决策和公司财务管理,CAPM 主张投资组合的回报只与系统性风险有关,因为该组合的风险已经得到尽可能的分散,非系统性风险已被打消但该理论的成立有大量若前提因此在实际中并不能验证历史的投资收益随着时间的流逝,CAPM 推导了 APT 理论和最新的 FAMA-FRENCH 三因素模型EMH 的支持者认为,被动投资组合具有更多优势,而 EMH 的反对者那么认为,投资者可以依靠自己的能力来击败市场EMH 的争议很大,并且引起了更多争议,这也导致了后期行为金融的兴起尽管学者引用了许多支持 EMH 的证据,但沃伦·巴菲特〔Warren Buffett〕等长期投资者一直在击败市场根据 EMH,这是不可能的此外,1987 年的股市崩盘也证明了股票价格可能存在严重的泡沫,导致其偏离其公允价值实际上,专家的独特能力可以在一定程度上获得超过市场平均水平的信息,从而击败市场上的其他参与者以获得超额收益。
第三章 理论模型、数据预处理与因子筛选 ................................ 163.1 理论模型构建....................................... 163.2 数据预处理.......................... 17第四章 基于随机森林的分析师预测准确性模型构建 ........................... 204.1 超参数优化..................................... 204.2 选取最正确训练窗口.............................. 20第五章 模型改良与优化 .................................... 245.1 调整组合构建办法 ....................................... 245.2 调整调仓周期......................................... 25第五章 模型改良与优化5.1 调整组合构建办法由于本策略持股期限中,假设仅使用均分持股的策略,那么在同一期未发现优秀研报前及标的股票止盈后就不再有投资标的,导致资金有较长的空置期,因此引入资金无限制的条件,在研报发出日时将全部资金持有一只股票,后续研究报告中包含的其他股票在当日用同等规模的资金进行投资,此时股票每日的平均收益率为正在持仓的所有股票的均值。
那么可得到下列投资绩效,并得到收益率曲线,如表 5.1所示表 5.1 调 12 金融证券论文 整持仓办法后的投资绩效通过分析表 5.1 中不同办法投资业绩的结果,可以得知,使用这种持仓办法的组合回报率确实提高了一定程度,但回撤率也同时有较大幅度的提高,如图 5.1中的组合回测曲线所示,但仍未超过 30%,信息比率及夏普比率均高于之前的模型,因此,可以说,与原始模型相比,该办法提高了模型的效果第六章 结论6.1 研究总结本文的目的是探索使用分析师的目标价格作为股票选择信息的来源,并使用随机森林算法建立投资模型并获得超过市场基准的收益研究结果说明,研究报告中包含的信息可以预测未来的股价变化,也能表明随机森林能够很好地应用于复杂关系模型的建立本文以 2022 年至 2022 年所有研报评级为买入或增持,且给出目标价的研报及研报标的公司的信息作为总样本来源,同时选取了 6 个因子大类,总计 81 个因子作为备选因子,因子数据包括区间数据和日度数据,以 3、6、9 个月股票收盘价是否突破目标价作为标签构建总样本集。
首先对原始因子进行了数据预处理,使用了全部因子进行了动态建模,并设置3 个月作为滑动窗口的长度选取每一期目标价达成概率最高的前 10 个样本建立股票池发现以 3 个月为训练期,标签长度为 3 个月的前提下的投资模型绩效最高,总收益率为 69.55%,年化收益率为 11.76%,年化超额收益率 14.79%,大幅当先市场基准〔沪深 300〕之后引入了无限资金的若,发现收益率得到了进一步的提高尔后增加了 6 个月和 12 个月目标价是否达成作为标签进行了进一步的回测。












