
稳健的均值回归模型研究统计学专业.docx
14页稳健的均值回归模型研究摘要均值回归模型是数学模型中的一种模型,一般用于投资股票方面,同时也可以应用于自然、社会中的其他方面稳健性检验考察的是评价方法与指标解释能力的强壮性本文将基于线性回归模型,研究如何提高模型 的稳健性,从而抵抗离群值的影响,使得模型更准确关键词:均值回归模型;线性回归模型;稳健性;离群值;M估计On robust mean regression modelsAbstractMean regression model is a mathematical model, which is generally used in investing in stocks, and can also be applied to other aspects of nature and society. Robustness test examines the robustness of evaluation methods and index interpretation ability. Based on the linear regression model, this paper studies how to improve the robustness of the model, so as to resist the influence of outliers and make the model more accurate.Keywords: mean regression model; linear regression model; robustness; outliers; M-estimates目 录1 绪论 52 稳健的均值回归模型介绍 62.1 稳健估计 62.1.1 稳健统计的含义及目标 62.1.2 稳健回归 62.1.3 离群值 72.2 线性模型下的均值回归模型 73 M估计与MM估计 83.1 M估计 83.2 MM估计 94 稳健估计的应用 114.1 M估计的应用 114.2 MM估计的应用 125 结束语 15主要参考文献 15致 谢 161 绪论均值回归最开始的时候是金融中的一个重要的概念。
均值回归这一现象是由十九世纪英国著名学者弗朗西斯加尔顿爵士发现的,并且与万有引力的发现是一样的重要均值回归现象被人们广泛用在预测和判断上那些预报员和法官主要基于归纳法来推断和判断将来的事件特别是在证券市场中,能够在一定时间内对目标轨迹的推论和判断往往表现出较高的准确度的一种现象回归模型的稳健型考察的是指标解释能力还有评价方法的强壮性,即为在改变一些参数的条件下,指标和评价方法是不是依然可以对评价的结果保持一个相对稳定、相对一致的解释估计回归模型的回归系数的传统方法是最小二乘法(OLS)普通最小平方法对资料有两本基本的假定:第一,各观测点因变量与残差之间是相互独立的;第二,各观测点因变量残差服从正态分布 然而,在处理实际资料时,有些资料不满足两个假定之中的一个或者两个都不满足例如,当多个自变量之间具有多重共线性或对每个个体进行多次重复观察时,独立性假设可能就不满足了;服从正态性的假定,在很多资料中也很难满足;各观测点上的因变量方差相等的假定,往往也很难满足严格地说,进行回归分析或者大多数多元统计分析的资料都应该来自单组设计多元定量资料,即所有个体属于同一个总体换句话说,对研究目的和全部观测变量而言,样本中的全部受试对象应具有同质性。
但由于现实问题的复杂性,很难保证全部观测点都具有同质性,若混进了极少数异常点,尽管他们的数目较少,但对统计分析的结果造成的危害有时候是相当严重的然而在现实情况下,离群值难以避免,如果这个时候利用最小二乘法估计,产生的结果相对很差,而且预测效果也不再理想,在一定程度上会限制回归模型的应用所以提升回归模型的稳健性,抵抗离群值的影响就很有必要,也很有实际意义提高回归模型稳健性一般从两方面下手∶一方面是用稳健统计方法处理数据,因为该方法对离群值不敏感另一方面,通过恰当的算法识别出数据中异常值,再用一般统计方法进行处理异常值分析是检测数据中是否存在录入错误的问题或者有不合理数据的过程常用的异常值检验方法[1]有:基于距离的方法,基于方差的方法,基于密度的方法,基于聚类的方法,基于角度的方法等稳健回归分析的关键是让估计出来的回归系数更加稳定它的本质就是把一般的最小二乘法做出合适的修改,让之后构造出的回归模型对离群值不敏感,再通过“迭代再加权最小二乘法”等类似的方法求解正规方程组,最后再得到各回归系数更加稳定的估计值这些方法有很多,比如∶S估计、R估计、MM估计、M估计和L估计等本文我们将从M估计入手,研究如何降低异常值的影响,提高回归模型的稳健性。
2 稳健的均值回归模型介绍2.1 稳健估计2.1.1 稳健统计的含义及目标稳健估计是指在离群值不能避免的时后,选出合适的估计方法,尽最大可能降低离群值对未知量估计值的影响,最终得到正常模式下的最优估计稳健估计的目标[2]如下:(1) 当假定的分布模型和实际的分布模型有较大的差距时,也不会对估计值带来严重的影响2) 在假设的观测分布模型下,估计值应是最好的;(3) 当假设的分布模型和实际的分布模型差距不大时,离群值对估计值的影响不大;稳健估计的主要宗旨:以稳健为前提,提高估计值的效率衡量一个稳健估计的稳健能力有两方面因素:一方面是局部和整体的稳健,另一方面是定性和定量稳健2.1.2 稳健回归稳健回归是稳健统计的一个重要部分稳健回归是让离群值不对得到的回归系数产生剧烈影响回归方法的稳健型能够以影响函数和崩溃点衡量通过稳健回归能够很容易判断离群值崩溃点低稳定性就越差,可容忍的离群值越少如果估计函数的影响函数如果无界,就有很大的稳健性稳健性要同时不被X和Y所影响普通最小二乘法(OLS)的影响函数是无界的,崩溃边缘是1/n,也就是如果观测值里面有一个离群值,对最小二乘估计的影响就很大因此,对稳健的的回归估计很重要。
崩溃点:崩溃点表示一个估计量可以承受最大离群值的数量和样本容量的比值,即BP现在大多数稳健估计都主要是稳健能力比较强的估计,又叫高崩溃点估计主要原理是以中位数思想为圆心设计多维参数稳健估计它的一个重要特征就是能很大程度上的减弱杠杆观测的保差运用,也可以给很多稳健估计提供比较可靠的迭代初始值影响函数:影响函数是1974年Hampel所提出影响函数的数学表达式为: , (2.1.1)上式为T在F处的方向导数另,为在x处的点分布,又为观测值x对估计量T的影响,数学表达式为: (2.1.2) 在稳健的估计方法研究中,追求有界的影响函数如果影响函数无界,也就是估计方法因为离群值的影响严重,侧面体现了该方法稳健性是比较好的2.1.3 离群值离群值即为异常值,在一个样本中,数值的大小几乎和其他的部分数据不一样相关人员得出结论:在实际情况和实验中,离群值大概为总观测数据的百分之一到百分之十而它一般会产生恶性后果降低结论的准确度以前的统计方法对离群值敏感,所以在以前的统计方法中,结果往往由于一些离群值受到影响当总体中存在异常值且明显不对称时,用算术平均值来估计数学期望就会产生很大的误差。
因此,在非正态分布条件下,使用广泛的样本平均数统计量稳定性很不理想与样本平均书做比较,顺序计量的中位数稳定性最好排序后离群值分布在数据两侧因此,异常值对中位数的影响不大在一些特殊情况下,用中位数代替更好离群值是包括只在Y方向异常,在X方向上正常的离群点和X、Y都有异常的离群点在一般的线性回归模型中,异常值往往会对回归参数的估计造成影响,从而使模型失真2.2 线性模型下的均值回归模型设因变量为,个自变量为,线性回归模型是用来解释因变量y怎样依赖自变量和误差项的方程一般形式可用下式表示: (2.2.1)上式中,是回归模型的参数;是误差项式(2.2.1)表明: 是的线性函数与误差项的和误差项是除了与之外的随机因素对的影响,是与之间的线性关系无法表示的变异性在多元线性回归模型中,有几个基本假定[3]: (1) 误差项是一个期望值为0的随机变量,此时,的期望值2) 对,的方差一样3) 误差项是一个随机变量,服从正态分布、相互独立,独立性表明任意一组自变量所对应的误差项和随便一组其他自变量对应的误差项无关正态性说明对于的值,因变量都是服从正态分布的随机变量线性回归模型中,均值回归模型可表达为: 。
(2.2.2)3 M估计与MM估计3.1 M估计M估计是1964年Huber提出的,也叫广义最大似然估计,是常见的稳健估计方法它的基本思想是通过是残差的某种函数最小化来求解M估计是最重要的稳健估计方法目前来说,很多稳健估计方法都是由M估计派生出的一般最小平方估计的原理是通过残差平方和最小化来求解,公式如下: (3.1.1)M估计用增加速度比较管那么的残差函数()取代残差平方和函数,目标函数为: (3.1.2)上面函数的解不能实现尺度同变形,所以需要标准化处理残差,即尺度的稳健估计,即: , (3.1.3)上式中,代表待估参数;是残差一般来讲,函数是平方和函数,即若已知,M估计的参数值可通过对取导数得到,也就是下面个方程的解: , (3.1.4)式中,.上式可运用迭代再加权最小平方法求解加权方程的定义为: (3.1.5)如若未知,那么和可以用下方程极小化得到: (3.1.6)用的比较多的计算尺度参数的算法有中位数估计、Tukey估计和Huber估计三种下面介绍Huber估计的方法来计算尺度参数Huber估计由解下面的方程来估计: (3.1.7)上式中,;称为Huber常数M估计稳健与否是通过权重函数决定的。
常用的M估计权重函数[4]很多:andrews函数、cauchy函数、hampel函数、huber函数、中位数函数等下面给出线性回归模型中M估计的定义:定义函数,令,若,则称为的M估计M估计的性质:在M估计中,影响函数有界,因此M估计是稳健的但是在最小二乘估计(OLS)中,影响函数无界,所以最小二乘估计不稳健虽然M估计大多目标函数的曲线是不同的,但都对离群值做了降权处理在M估计,估计效率和稳健性达到最优的条件不一样,因此就要取中间值,以我们所求常数d在残差项绝对值变大的过程中,目标函数的增加开始减速,估计的稳健性就更强在目标函数是凸函数、符合一些比较弱的条件的时候,M估计有弱相合性M估计也有了正态性3.2 MM估计M估计一般具有很高的崩溃点和渐进效率,但是它不能处理杠杆效应,对自变量方向的异常值很敏感为了改善,我们就要用改进后的M估计,通过M-S的算法得出Mm估计,进而抵消杠杆效应带来的影响与S估计的优点,在具有高效率的情况下,兼备着很高的破坏点,是现如今最热门的稳健估计方法之一MM估计基于迭代S估计得到稳健的初始估值,又由M估计导出回归系数的原理假设现有一线性回归模型: , (3.2.1)令,,使用回归方法可生成个回归系数。












