网络新闻评论的情感倾向对股市收益率的影响探究
网络新闻评论的情感倾向对股市收益率的影响探究王瑶佩 引言 随着股市的不断发展,各种股市理论研究层出不穷,从最初由 Bachelier(1900)随即漫步理论(Random Walk Theory RWT)和 samuelson(1960's)有效市场理论 (Efficient Market Hypothesis EMH),认为市场是随即有效不可预测的,到如今运用逐渐完善的基本面分析方法和技术分析方法,对股市的运行进行了科学的阐释。如今基本面分析方法和技术分析方法仍是股市分析的主流方法。但是,自Kahneman和Tversky通过研究人们的非理性决策进而提出前景理论(Prospect Theory),并于2002年获得诺贝尔经济学奖以来,投资者情绪与市场的关系越来越受到学术界的关注。学者们基于认知心理学发展的最新研究成果,从行为金融学的视角,进行理论和实证两方面研究,试图以全新的视角来揭示 股票市场收益与波动内在原因。 目前国内外学者更多的基于Baker M和Wurgler J.(2006) Baker M,Wurgler J. Inveester sentiment and the cross section of stock returnJ.Journal of Finance , 2006, 61(4); 1645-1680提出的六个代理变量:封闭式基金折价、股票换手率、IPO数量和上市首日平均收益率、股权融资的比例股利升水等间接指标来探究情绪对股市的影响,本文希望运用更贴近直接情感的评论的中情感倾向来探究对股市收益率的影响,本文的研究是基于Robert P. Schumaker(2012) Robert P. Schumaker a, , Yulei Zhang b , Chun-Neng Huang c , Hsinchun Chen d, Evaluating sentiment in financial news articles, Decision Support Systems 53 (2012) 458464研究方法,并有所改进。 数据的预处理 在本文中,我们借鉴Pagan and Sossounov(2003)的非参数法,适当调整其中的牛、熊市判别标准,通过寻找股价变化的波峰和波谷,诊断股票市场的牛、熊周期。2013.072015.062010.072011.042011.122012.05 但是后来我们发现其实从2013年7月到2014年10月上证综指的涨跌幅不超过3% ,于是,我们在原先的定义基础上增加了大家常提到的“猴市”,也就是震荡市,最终,本文选取2014年5月-2014年7月的数据作为猴市样本,2014年8月到2014年10月的数据作为牛市样本,2015年8月-2015年10月的数据作为熊市样本,略过股灾期,互联网新闻评论来自东方财富网。 情感指标与初步模型 本文采用Werner Antweiler and MurrayZ. Frank(2004)的情感指标作为研究对象,目前大多数研究采用一天作为时间窗口,本文采用Robert P. Schumaker(2012)的20 min作为时间窗口来探索一天内影响的情况。 股市的收益率,本文采用上证综指的20 min的涨跌幅作为研究对象实验过程三个时间段的数据处理过程类似,仅以熊市数据为例首先引入数据Libname Project 'F:研一SASFinal project' PROC IMPORT OUT=Project.stockbear DATAFILE= "F:研一SASFinal project熊市数据.txt" DBMS=TAB REPLACE; GETNAMES=YES; DATAROW=2; RUN;引入数据后,因为情感指数和股市收益率都是时间序列数据,为了防止“伪回归”的出现,需要对sent和R进行ADF单位根检验proc autoreg data =Project.stockbear ;model return = / stationarity =(adf =3); run;结果如下:AUTOREG 过程 sent增广 Dickey-Fuller 单位根检验类型滞后RhoPr < RhoTauPr < TauFPr > F零均值3-168.7811<.0001-8.0059<.0001 单均值3-169.3343<.0001-8.0047<.000132.0383<.0010趋势3-176.1743<.0001-8.1545<.000133.2709<.0010AUTOREG 过程 Return增广 Dickey-Fuller 单位根检验类型滞后RhoPr < RhoTauPr < TauFPr > F零均值3-647.5513<.0001-12.2758<.0001 单均值3-654.8968<.0001-12.2971<.000175.6091<.0010趋势3-654.9962<.0001-12.2870<.000175.4865<.0010可以看出在1%的显著水平下,sent和R是平稳的,没有单位根,然后又进行了滞后1阶、2阶,4阶的检验,P-Value均小于0.001,所以可以认为sent和R是平稳的。然后,为数据集增加新的变量sent_1为sentt-1,以此类推sent_2,sent_3,sent_4,sent_5,sent_6,分别为sent的t-2至t-6项。本文希望探究时隔多久情感因素对股市的影响最大,影响持续的时间会有多长。 AVGR2为两期收益的平均值,用于检验时间窗口的长度是否会影响情感变量的选取和显著程度data Project.stockbear1; set Project.stockbear; AVGR2=(return+lag(return)/2;sent_1=lag(sent);sent_2=lag(sent_1);sent_3=lag(sent_2);sent_4=lag(sent_3);sent_5=lag(sent_4);sent_6=lag(sent_5);run;生成新的数据集后,首先本文对各个变量进行了Pearson 相关性分析:可以看出在各个自变量之间的相关性并不强,可能出现多重共线性的可能性小,回归时我们选用逐步回归法,将sent和sent的一阶至六阶滞后项都做为自变量进行回归。方差分析源自由度平方和均方F 值Pr > F模型30.002510.0008361012.33<.0001误差4130.028000.00006781 校正合计4160.03051 均方根误差0.00823R 方0.0822因变量均值-0.00025283调整 R 方0.0755变异系数-3256.92892 参数估计变量自由度参数估计标准误差t 值Pr > |t|容差方差膨胀Intercept1-0.000319710.00040373-0.790.4289.0sent10.002640.000450775.85<.00010.817011.22398sent_11-0.000832480.00046614-1.790.07480.776061.28857sent_31-0.000790900.00042327-1.870.06240.927971.07762共线性诊断个数特征值条件指数偏差比例Interceptsentsent_1sent_311.582791.000000.005760.185290.207870.1212720.995171.261140.991950.001420.006300.0006005630.869521.349190.000161720.225490.019240.7867440.552521.692540.002140.587790.766590.09139结果分析: 根据方差分析我们可以看出在1%的显著性水平下从方程的整体的整体拟合效果是显著,从各个自变量来看,在其他变量不变的情况下,sent增加一个单位,因变量hrearn增加约0.00264个单位, 其他变量的解释原理相同,但在5%的显著水平下不显著。根据多重共线性诊断可以看出vif值小于10,且在1附近不存在严重多重共线性。问题R-square较小,说明还有很多影响股市收益率的因素未考虑在内,但是在只考虑情感因素的前提下,R-square能达到8%左右,足以说明,情感因素在股市收益率的变动过程中起到了不可替代的作用。同理,对猴市数据和牛市数据进行相同的分析。其ADF检验,相关系数分析与前者类似。以下只对回归结果进行分析猴市结果如下:方差分析源自由度平方和均方F 值Pr > F模型10.000013040.000013044.660.0315误差4240.001190.00000280 校正合计4250.00120 均方根误差0.00167R 方0.0109因变量均值0.00007034调整 R 方0.0085变异系数2378.74944 参数估计变量自由度参数估计标准误差t 值Pr > |t|容差方差膨胀Intercept1-0.000053460.00009931-0.540.5907.0sent_610.000204680.000094852.160.03151.000001.00000共线性诊断个数特征值条件指数偏差比例Interceptsent_611.577681.000000.211160.2111620.422321.932790.788840.78884牛市结果如下:方差分析源自由度平方和均方F 值Pr > F模型10.000046340.000046348.460.0040误差2450.001340.00000548 校正合计2460.00139 均方根误差0.00234R 方0.0334因变量均值0.00014452调整 R 方0.0294