
第六章统计分析.docx
30页第六章统计分析第六章统计分析1、如何理解相关关系? (P239)相关关系是指变量之间的不确定的依存关系它与通常的函数关系不同,函数关系 是变量之间确定的依存关系,相关关系则不同,对丿应于:一个变量的某个数值,另一个变量 可能有儿个茯至许多个数值在社会经济领域小,社会和经济变量受随机因索的影响很 大,它们Z间的关系主要表现为相关关系而相关性分析就是对变量之间的相关关系的分析,其任务就是对变量之间是否存在 必然的联系、联系的形式、变动的方向作出符合实际的判断,并测定它们联系的密切程度, 检验具有效性v(x(.-x)2x(r-n2i-l r=l按研究变量的多少划分:-•元相关(单相关)多元相关(复相关) 相关关系分类 按照变量间依存关系的形式分:线性相关非线性相关按变量变化的方向分:正相关负 相关按变量间关系的密切程度分:完全相关不相关或零相关对变量间相关关系进行表现的方法:散点图法、相关系数法;通过散点图可以判断两个变量之间有无相关关系,并对变量间的关系形态作出人致的描 述,但散点图不能准确反映变量Z间的关系强度2、相关系数如何计算相关系数是在直线相关的条件下,说明两个变量Z间的相关关系密切程度的统计分析指 标。
若相关系数是根据总体全部数据计算的,称为总体相关系数,一般记为:若是根据 样本数据计算的,则称为样本相关系数,i般记为"相关系数根据总体全部数据总体相关系数根据样木数据样木相关系数的计算公式:(Xn1)(Yi )XY iinn XiYi Xi Yinnn1相关r的取值范围在一1到1之间,B|J 1 r 1 02相关系数r具有对称性O3相关系数r数值与x y原点及尺度无关 相关系数的性质4相关系数仅仅是x与y之间线性关系的一个度暈,不能用于表述O非线性关系("0仅表示两个变暈之间不存性相关关系,并不说明变量之间没有任何关系,它们之间可能存在菲线性相关关系)5R虽然是两个变暈之间线性关系的一个度量,却不一定意味着x O与y — •定有因果关系3、如何理解一元线性冋归分析?一元线性冋归的实质是找岀与样木点拟合最佳的直线一•元线性冋归分析是描述和评估 给定变星与一个变量线性依存关系的方法冋归分析是描述和评定给定变量与i个或多个变量线性依存关系的方法;一般地,冋归百线是根据经验数据得出的,通过冋归方程获得的拟合曲线实际上是未知 的总体冋归宜线的一个例子,而所抽取的某特定吋期内的价格只是一个样木,所以实际冋 归线则应该根据数据中测量的谋差,以及模型中没有包含的变量加以修正。
一般地,一元线性冋归模型可以表示为y冋归分析的主要日的:确定因变量和口变暈之间的数学关系(1) 冋归模型因变量y与自变量x之间具有线性关系(既然研究的都是线性冋归,首先就要满足线性关系这一条件)(2) 在重复抽样中,自变量x的取值是固定的,即假定x是菲随机的(多重共线性现象)冋归分析的假设条件(3)误差项 的均值为零(4) 误差项的方差为常数(异方差现象)(5) 误差项 是独立随机变量且服从正态分布(白相关现彖)注意:多重共线性是针对 多元线性冋归模型而言的,因为涉及到两个以上自变量4、一元线性冋归最小二乘估计的表达式是什么?一元线性冋归方程是一条直线,最小二乘估计的表达式如下:0 x (实际回归线,总体冋归线)1 1 \XiYi XiYin Xi2 ( Xi)2"l0 ")2 最小二乘法就是寻找一条直线,使得这些偏差的平方和加总最小,也即使(Yi Yii 1值最小1从理论上讲,最小二乘法可获得最佳估计值O2最小二乘法通过平方后给得出的较人误差赋予了更人的权 使用此方法的主要原因O重3计算绝对偏差和要比计算平方偏差和难度大O4最小二乘法提供更有效的检验方法O5、一元线性冋归模型的基木假设佇哪些?一般地,在作一•元线性冋归分析过程中,冋归分析是建立一系列假设基础上的,这些假设为:1、 冋归模型因变量y与自变量x之间具有线性关系。
2、 在重复抽样中自变量x值是固定的即假定x是非随机的3、课差项 的均值为 零4、谋差项 的方差为常数5、误差项 是独立随机变量且月及从正态分布,即〜N (0, 2)多种检验都是基于 以上假设从而确保冋归模型的可靠性6、如何检验-元线性冋归系数与方程的显著性? (P253)显著性检验的原理:通过对总体冋归模型中参数是否为零的统计学检验,推断模型所表示的因果关系能否成 立一般分为单个参数的t-检验和整体参数的F-检验一般先假设参数为0 (原假设), 在此基础上建立统计量,再给出显著性水平(如1%, 5%),如果原假设成立,概率小于显 著性水卜的事件应该不成立,但若统计量显示小概率事件亦会发生,只能推翻原假设,选 择备选假设一元线性冋归方程冋归系数的显著性检验步骤:(1)提出假设原假设:H0: (2)确 定显著性水平 (3)计算回归系数的t值如果原假设110成立,在残差 服从正态分布的情况下,有0备择假设:H1:~N(0,1(Xi 12) )2八冋归系数的t值为t)S(CTnsn工(X/)2工(X厂片)21=1")其中s(理论上可以证明s为2的无偏估计,其中s2(Yi 1n1Y)2n 2从而能够得到冋归系数t值的最终计算公式为:(4)确定t的临界值 当原假设成立时,构造的t统计量t服从自由度为(n-2)的t分布。
)S(11给定显著性水平,双侧检验的临界值为 (5)做出判断当计算的t值影响;当计算的t值时拒绝原假设H0,认为t(n 2)显著不为0,自变量对因变量有显著的t t (n 2)时不能拒绝原假设II认为1显著为0,自变量对因变量没冇显著的影响在检验冋归系数1的显著性时,通常更适合单侧检验单侧检验的示意图如图所示:注意3点:A、 t值的正负取决于冋归系数;B、 s项会确保t值随着偏差平方和的增加而减小;C、 样本点的X值区间越窄,t值越小,冋归系数估计的可靠性越低见例6-47、如何使用一元线性回归方程进行预测? (P259)预测分为点预测和区间预测:"0就是对应y0的点预测点预测就是将x的一•个特定值 x0代入样木冋归方程,计算得出y"x,要预测x二x时的值,将x带入冋归模型就可得八0 0 值当估计出的冋归模型为ylOO到相应的预测值区间预测:[h]归分析希望通过样本所仏计岀的参<代替总体的参数A假设检验1 f以通过•次抽样的结来检验\ 数川能的假设值的范田(如楚弁为冬),fl 没仃抬lll/k -次抽样111样木参数值到丿氏离总 数的允们仃多“近” O耍判断样木参数的佔计们/| •:多人程度• I •-“近似”地秤代总体参数的貞们,彳匸往需娈 构造•个以样木参数的估讣什i为中心的‘卞 來折察它以多人的川能件(概率)包含右贞 参数们冷这种方法就是参数检验的置信区IX 要判断估计的参数值B离真实的参数崔 叮预先选择一个概率a (O
如果Yi科i即实际观测值落在样木冋归“线”上,贝0拟合最好可认为,“离差”全 部来自冋归线,而与“残差”无关对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:S 丁; = 2 元2 + Y Q; + 2Z 讣E-2 . V" 2记总体平方和(Total Sum of Squares) TSS y (Yi )")2 冋归平方和(Explained Sum of Squares) " i2 (YESS y i2i22")2RSS e (Y Y ii i 残差平方和(Residual Sum of Squares )TSS二ESS+RSSY的观测值围绕其均值的总离差(total va 可分解为两部分:一部分来自回归线(ESS), 分则来自随机势力(RSS)o见例6-59、如何理解多元线性分析? (P267)是在一元线性冋归模型基础上衍生而来,口变量个数在两个以上因此多元线性冋归模型的假设条件也就增加了一条:自变景之间不存性关系否则就会出现多重共线性现 象多元线性冋归分析与一元线性冋归分析的最人区别:在一元线性冋归中,线性关系的检验与冋归系数的检验是等价的;在多元线性冋归中,这两种检验方法不再等价。 -•般地,多元线性冋归模型的表达式为y述被解释变量y的期望值与解解变量1X X122• • •kxk,描x1线性关系的方程为:E(y)xk,称为多元线性冋归方程残渥可以解释为因变量的观测值他因索对因变量y的彩响y1与拟合值Ay1间的差额,它包括除X1影响之外的其冋归方程的拟合优度拟合优度用于描述冋归方程对样木观测值的拟合程度两种方法:吃与修正的RN 冋归方程标准误差这里的R称为多元样木的判定系数或多元样本可决系数、决定系数与一元线性冋归模 型中的R2别无二致2是度量多元线性冋归方程拟合程度的统计量,反映了在因变量的变差中被估计的冋 归方程所解释的比例R2的表达式为:R2SSRSST1SSESST(其中SST为总平方和SSR为回归平方和SSE为残差平方和)R2的取值在区间【0,1】内,R越接近于1,表明拟合效果越好;R越接近于0,22表明冋归效果越差而与一元线性冋归分析中的一点不同是,这里出现了修正的R2O主要是因为在多元线性冋归方程中,增加自变量的个数会使R值变人,如果模型中增加一个自变量,即使这 个自变量在统计上不显著,R值也会变人。
