
数理统计方法.ppt
69页—— 对随机现象进行观测、试验,对随机现象进行观测、试验, 以取得有代表性的观测值以取得有代表性的观测值 —— 对已取得的观测值进行整理、对已取得的观测值进行整理、 分析分析, ,作出推断、决策作出推断、决策, ,从而从而 找出所研究的对象的规律性找出所研究的对象的规律性数数理理统统计计的的分分类类描述统计学描述统计学推断统计学推断统计学第八章第八章 数理统计方法数理统计方法参数估计参数估计假设检验假设检验回归分析回归分析方差分析方差分析 推断 统计学总体和样本总体和样本总体与个体总体与个体 总体总体或或母体母体指我们研究对象的指我们研究对象的全体构成的集合全体构成的集合,,个体个体指总体中包含的指总体中包含的每个成员每个成员.. 我我们们研研究究总总体体时时,,所所关关心心的的往往往往是是总总体体某某方方面面的的特特性性,,这这些些特特性性又又常常常常可可以以用用一一个个或或多多个个数数量量指标来反映.指标来反映. 例例如如,,在在研研究究某某厂厂生生产产的的灯灯泡泡的的质质量量时时,,关关心心的可能是这些灯泡的寿命和光亮度等.的可能是这些灯泡的寿命和光亮度等. 总总体体指指一一个个或或多多个个数数量量指指标标,,我我们们可可以以用用一一个个或多个随机变量来表示它们.或多个随机变量来表示它们.总体总体指标值全集指标值全集指标指标随机变量随机变量把总体与某个随机变量的可能取值的集合等同,把总体分布与某个随机变量的分布等同,把对总体的研究转化为对某个随机变量规律的研究。
数理统计中提到的总体,是指分布未知或数理统计中提到的总体,是指分布未知或者分布类型已知但至少某些参数未知的随机变者分布类型已知但至少某些参数未知的随机变量,常用量,常用X X,,Y Y,,Z Z等表示 因因此此,,总总体体可可以以是是一一维维随随机机变变量量,,也也可可以以是是多多维随机变量.维随机变量. 例例如如,,在在研研究究某某厂厂生生产产的的灯灯泡泡的的质质量量时时,,可可以以分分别别用用X,,Y表表示示灯灯泡泡的的寿寿命命和和光光亮亮度度,,那那么么,,对对上上面面两两个个问问题题的的研研究究就就转转化化为为对对总总体体(X,,Y)的的研研究了.究了. 2 2 样本与抽样样本与抽样 实实际际应应用用中中,,为为了了研研究究总总体体的的特特性性,,总总是是从从总总体体中中抽抽出出部部分分个个体体进进行行观观察察和和试试验验,,根根据据观观察察或或试验得到的数据推断总体的性质.试验得到的数据推断总体的性质.我们把从总体中抽出的部分个体称为我们把从总体中抽出的部分个体称为样本样本,,把样本中包含个体的数量称为把样本中包含个体的数量称为样本容量样本容量,,把对样本的观察或试验的过程称为把对样本的观察或试验的过程称为抽样抽样,,把把观观察察或或试试验验得得到到的的数数据据称称为为样样本本观观测测值值((观观测测数据),简称数据),简称样本值样本值.. 在在应应用用中中,,我我们们从从总总体体中中抽抽出出的的个个体体必必须须具具有有代代表表性性,,样样本本中中个个体体之之间间要要具具有有相相互互独独立立性性,,为为保保证证这两点,一般采用简单随机抽样.这两点,一般采用简单随机抽样. 定定义义 一一种种抽抽样样方方法法若若满满足足下下面面两两点点,,称称其其为为简简单随机抽样单随机抽样:: (1) 总体中每个个体被抽到的机会是均等的;总体中每个个体被抽到的机会是均等的; (2) 样本中的个体相互独立.样本中的个体相互独立. 由简单随机抽样得到的样本称为由简单随机抽样得到的样本称为简单随机样本简单随机样本.. 如如果果没没有有特特殊殊说说明明,以以后后所所说说样样本本均均指指简简单单随随机机样样本本..随机抽样随机抽样 获得样本获得样本完成试验完成试验 获得数据获得数据整理加工整理加工 统计推断统计推断3 统计量与抽样分布统计量与抽样分布 在在利利用用样样本本推推断断总总体体的的性性质质时时,,往往往往不不能能直直接接利利用用样样本本,,而而需需要要对对它它进进行行一一定定的的加加工工,,这这样样才才能能有有效效地地利利用用其其中中的的信信息息,,否否则则,,样样本本只只是是呈呈现现为一堆为一堆“杂乱无章杂乱无章”的数据.的数据.一、基本概念1. 统计量的定义统计量的定义1. 表示位置的统计量表示位置的统计量 设设X1,,X2,,…,,Xn为为总总体体X的的样样本本,,x1,,x2,,...,,xn为样本观测值,为样本观测值, (1) 样本均值样本均值 常常用用来来作作为为总总体体期期望望((均均值值))的的估估计计量量,,其观测值为其观测值为(2)(2)中位数中位数把一组数据按大小顺序排序后处于中间位置的数。
把一组数据按大小顺序排序后处于中间位置的数(3)(3)分位数分位数 设设X为为一一随随机机变变量量,,我我们们知知道道对对于于给给定定的的实实数数x,,P{X > x}是是事事件件{X > x}的的概概率率..在在统统计计中中,,我我们们常常常常需需要要对对给给定定事事件件{X > x}的的概概率率,,由由此此确确定定的的x取取是是一一个临界点个临界点,称为分位数称为分位数(点点),有如下定义:有如下定义: 定定义义 设设X为为随随机机变变量量,,若若对对给给定定的的 (0,,1),,存存在在x 满满足足 P{X > x } = ,,则则称称x 为为X的的上上 分分位位数数(点点)..1.方差、标准差与变异系数.方差、标准差与变异系数 、极差极差样本方差、标准差与变样本方差、标准差与变异系数为总体方差、标异系数为总体方差、标准差、变异系数的相合准差、变异系数的相合估计估计———方差方差———均方差均方差——变异系数变异系数 时,有时,有 2 2 表示分散性的数字特征表示分散性的数字特征标准差标准差(方差方差)越越大大,表示观察值表示观察值分布越分散;反分布越分散;反之分布越集中之分布越集中. 刻划数刻划数据据相对相对分散分散指指标标 ——极差极差 (1) 样本样本k阶原点矩(简称样本阶原点矩(简称样本k阶矩)阶矩) ,,(k = 1,,2,,…) (2) 样本样本k阶中心矩阶中心矩 ,,(k = 2,,3,,…)显然显然3 3 表示分布形态的数字特征表示分布形态的数字特征 ((3 3)偏度)偏度 (skewness) (skewness)注注意意奇数奇数阶中阶中心距心距频频数数频频数数其中其中s样本标准差样本标准差. 分布对称;分布对称; 称正偏度称正偏度(右偏态右偏态) 均值右边数据更分散;均值右边数据更分散; 负偏度,均值左边的数据更分负偏度,均值左边的数据更分散散.4.峰度.峰度 1.正峰正峰值表示数据中含有表示数据中含有较多多远离均离均值的极端数的极端数值,相,相对尖尖锐的分布的分布,尾部粗尾部粗2.负峰表示两峰表示两侧的极端数的极端数值比比较少,数据大部分少,数据大部分在均在均值周周围,相,相对平坦平坦,尾部尾部细 尖峰粗尾 平峰细尾反映与正态分布相比某反映与正态分布相比某一分布的尖锐或平坦度一分布的尖锐或平坦度. . 设设设设已知已知已知已知总总总总体体体体X X X X的可能分布函数族的可能分布函数族的可能分布函数族的可能分布函数族为为为为: : : : 理论根据理论根据: :样样本矩本矩( (的的连续连续函数函数) )依概率收依概率收敛敛于于总总 体矩体矩( (的连续函数的连续函数).).其中其中其中其中 为待估参数为待估参数为待估参数为待估参数. . . . 矩估计法矩估计法: :用用样样本矩本矩( (函数函数) )来估来估计总计总体矩体矩( (函数函数).).8.2 参数估计法参数估计法-- 矩估计法矩估计法 设总设总体体X X的前的前k k阶阶矩矩 均存在均存在均存在均存在, , , ,而样本矩而样本矩而样本矩而样本矩其中其中其中其中 矩估矩估计计法就是法就是: : 令令总体的前总体的前k k阶矩分别与样本的阶矩分别与样本的 对应阶矩相等对应阶矩相等, ,即即 矩估计法矩估计法 可作为待估参数可作为待估参数可作为待估参数可作为待估参数 的估计量的估计量的估计量的估计量( ( ( (称为称为称为称为矩估计矩估计矩估计矩估计 量量量量),),),),其其其其观观观观察察察察值为值为值为值为待估参数的估待估参数的估待估参数的估待估参数的估计值计值计值计值( ( ( (称称称称为为为为矩估计值矩估计值矩估计值矩估计值).).).).这是含这是含这是含这是含k k k k个待估参数个待估参数个待估参数个待估参数 的的的的联立方程组联立方程组联立方程组联立方程组,其解,其解,其解,其解1. 矩估计法矩估计法 解解解方程组得到矩估计量分别为解方程组得到矩估计量分别为例例1. 矩估计法矩估计法 上例表明上例表明: 总体均值与方差的矩估计量的表达式不因不总体均值与方差的矩估计量的表达式不因不同的总体分布而异同的总体分布而异.一般地一般地,1. 矩估计法矩估计法 一般说,事件一般说,事件A A发生的概率与参数发生的概率与参数有关,有关, 取值不同,则取值不同,则P(A)P(A)也不同。
因而应记也不同因而应记事件事件A A发生的发生的概率为概率为P(A|P(A| ).).若若A A发生了,则认为此时的发生了,则认为此时的 值应是值应是在在 中使中使P(A|P(A| ) ) 达到最大的那一个达到最大的那一个这就是极大这就是极大似然的思想似然的思想. .2. 最大似然估计最大似然估计 求最大似然估计量的步骤求最大似然估计量的步骤:最大似然估计法是由费舍尔引进的最大似然估计法是由费舍尔引进的.2. 最大似然估计最大似然估计 最大似然估计法也适用于分布中含有多个最大似然估计法也适用于分布中含有多个未知参数的情况未知参数的情况. 此时只需令此时只需令对数似然方程组对数似然方程组对数似对数似然方程然方程2. 最大似然估计最大似然估计 解解X 的的似然函数为似然函数为例例2. 最大似然估计最大似然估计 2. 最大似然估计最大似然估计 它们与相应的矩它们与相应的矩估计量相同估计量相同.2. 最大似然估计最大似然估计 对对于同一个参数于同一个参数, ,用不同方法求出的估用不同方法求出的估计计量可能量可能 不同不同. .那么那么, ,采用哪一个估计量为好呢采用哪一个估计量为好呢? ?用何种标准来用何种标准来 评判估计量的优劣评判估计量的优劣? ? 下面下面, ,介介绍绍几个常用几个常用标标准准. . 1 1、、无偏性无偏性无偏性无偏性 定义定义定义定义 设设设设估估估估计计计计量量量量 存在期望存在期望存在期望存在期望, , , ,且且且且对对对对任意任意任意任意 有有有有3 3 3 3 3 3、估计量的评选标准、估计量的评选标准、估计量的评选标准、估计量的评选标准、估计量的评选标准、估计量的评选标准 则则称称 为为 的的无偏估计量无偏估计量无偏估计量无偏估计量. . 称称为为用用 来估来估计计 的的系统误差系统误差系统误差系统误差. .因此因此, , 无偏估计就是说无系统误差无偏估计就是说无系统误差无偏估计就是说无系统误差无偏估计就是说无系统误差. .2 设设 都是参数都是参数θ的无偏估计,若的无偏估计,若则称则称 比比 有效.有效. 例例如如,,设设总总体体X的的方方差差存存在在,,X1, X2,…,Xn(n>2)为总体为总体X的一个样本,的一个样本,易知易知 , 均为均为 的无偏估计的无偏估计,又有又有所以所以,当当n>2时, 最有效,时, 最有效, 较较X1有效.有效. 3. 相合性相合性 总总体体参参数数θ的的估估计计量量 是是样样本本的的函函数数,,随随着着样样本本容容量量的的增增加加,,其其值值应应该该越越来来越越接接近近真真值值θ,于于是有:是有:定定义义7.4 设设 是是参参数数θ的的一一个个估估计计量,若 依概率收敛于量,若 依概率收敛于θ,即对任意的,即对任意的ε > 0,有,有则称 是参数则称 是参数θ的相合估计量,或者一致估计量.的相合估计量,或者一致估计量. 4.4. 区间估计 区间估计 前面,我们讨论了参数点估计前面,我们讨论了参数点估计. 它它是用样本算得的一个值去估计未知参数是用样本算得的一个值去估计未知参数. 但是,但是,点估计点估计值仅仅是未知参数的一个值仅仅是未知参数的一个近似值。
近似值它它没有没有反映出这个近似值的误差范围,反映出这个近似值的误差范围,还有可信度还有可信度. 区间估计正好弥补了点估计的这个缺陷区间估计正好弥补了点估计的这个缺陷 .点估计缺点点估计缺点 定定义义 设设X1,X2,…,Xn为为总总体体X的的一一个个样样本本,θ为为总总体体X的的未未知知参参数数,对对给给定定的的(0,1),如如果果有有两个统计量两个统计量 和和 满足满足 则则称称区区间间 是是θ的的一一个个区区间间估估计计或或置置信信区区间间,, 分分别别称称作作置置信信下下限限、、置置信信上上限限,, 1 – 称为称为置信水平置信水平或或置信度置信度.区间估计区间估计【【例例】】已已知知某某种种灯灯泡泡的的寿寿命命服服从从正正态态分分布布,,现现从从一一批批灯灯泡泡中中抽抽取取16只只,,测测得得其其寿寿命命((单单位位::小小时时))如如下下所所示:示:1510 1450 1480 1460 1520 1480 1490 14601480 1510 1530 1470 1500 1520 1510 1470求该灯泡平均使用寿命求该灯泡平均使用寿命90%、、95%及及99%的置信区间的置信区间. 解:解:用用X表示灯泡的寿命,设表示灯泡的寿命,设X~~N( ,, 2),,由于由于 2未知未知,用用 计算计算 的置信区间.的置信区间.其中其中n=16,正态总体均值的区间估计正态总体均值的区间估计Matlab命令命令X=[1510 1450 1480 1460 1520 1480 1490 14601480 1510 1530 1470 1500 1520 1510 1470];正态总体均值的区间估计正态总体均值的区间估计[muhat,sigmahat,muci,sigmci]=nomfit(x,0.05)Muhat返回正态总体均值的点估计,返回正态总体均值的点估计,sigmahat返返回正态总体标准差的点估计,回正态总体标准差的点估计,muci返回其均值的返回其均值的区间估计,区间估计,sigmci返回其标准差的区间估计,返回其标准差的区间估计,x表表示数据,示数据,1-0.05是置信度,是置信度,0.05是显著性水平是显著性水平假设检验的思想方法是:假设检验的思想方法是: (1) 提出假设;提出假设; (2) 在假设成立的条件下构造一个小概率事件;在假设成立的条件下构造一个小概率事件; (3) 由由样样本本数数据据判判断断小小概概率率事事件件是是否否发发生生了了,,如如果果小小概概率率事事件件发发生生了了,,根根据据“小小概概率率原原理理”,,作出否定原假设的推断.作出否定原假设的推断.假设检验的思想方法化工产品的化工产品的数量和质量数量和质量反应温度反应温度压 力压 力原料成分原料成分原料剂量原料剂量溶液浓度溶液浓度操作水平操作水平反应时间反应时间机器设备机器设备一、单因素试验方差分析法 方差分析方差分析——根据试验的结果进行分析根据试验的结果进行分析,鉴别鉴别各个有关因素对试验结果的影响程度各个有关因素对试验结果的影响程度.试验指标试验指标——试验中要考察的指标试验中要考察的指标.因 素因 素——影响试验指标的条件影响试验指标的条件.因因素素可可 控控 因因 素素 不可控因素不可控因素水 平水 平——因素所处的状态因素所处的状态.单因素试验单因素试验——在一项试验中只有一个因素改变在一项试验中只有一个因素改变.多因素试验多因素试验——在一项试验中有多个因素在改变在一项试验中有多个因素在改变.例例1 设有三台机器设有三台机器, ,用来生产规格相同的铝合金薄用来生产规格相同的铝合金薄板板.取样取样,测量薄板的厚度精确至千分之一厘米测量薄板的厚度精确至千分之一厘米.得结得结果如下表所示果如下表所示.表表9.1 铝合金板的厚度铝合金板的厚度机器机器Ⅰ机器机器Ⅱ机器机器Ⅲ0.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262试验指标试验指标: 薄板的厚度薄板的厚度因素因素: 机器机器水平水平: 不同的三台机器是因素的三个不同的水平不同的三台机器是因素的三个不同的水平 假定除机器这一因素外假定除机器这一因素外, 其他条件相同其他条件相同, 属于属于单因素试验单因素试验. 试验目的试验目的: 考察各台机器所生产的薄板的厚度考察各台机器所生产的薄板的厚度有无显著的差异有无显著的差异. 即考察机器这一因素对厚度有无即考察机器这一因素对厚度有无显著的影响显著的影响. 在每一个水平下进行独立试验在每一个水平下进行独立试验,结果是一结果是一个随机变量个随机变量.例例1表表9.1 铝合金板的厚度铝合金板的厚度机器机器Ⅰ机器机器Ⅱ机器机器Ⅲ0.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262问题分析问题分析将数据看成是来自三个总体的样本值将数据看成是来自三个总体的样本值.检验假设检验假设检验假设检验假设 进一步假设各总体均为正态变量进一步假设各总体均为正态变量,且各总体的且各总体的方差相等方差相等,但参数均未知但参数均未知. 问 题问 题——检验同方差的多个正态总体均检验同方差的多个正态总体均值是否相等值是否相等. 解决方法 解决方法——方差分析法方差分析法,一种统计方法一种统计方法. 数学模型数学模型表表观察结果观察结果水平水平样本总和样本总和样本均值样本均值总体均值总体均值假设假设单因素试验方差分析的数学模型单因素试验方差分析的数学模型需要解决的问题需要解决的问题1.检验假设检验假设数学模型的等价形式数学模型的等价形式总平均总平均原数学模型原数学模型改写为改写为检验假设检验假设等价于等价于检验假设检验假设—数据的总平均数据的总平均—总偏差平方和总偏差平方和((总变差总变差))二、平方和的分解—误差平方和误差平方和—效应平方和效应平方和检验假设检验假设拒绝域为拒绝域为单因素试验方差分析表单因素试验方差分析表方差来源方差来源因 素因 素A误 差误 差总 和总 和平方和平方和 自由度自由度 均 方均 方F 比 比 所所以以对对给给定定显显著著性性水水平平 (0, 1),,H0的的拒拒绝绝域为:域为:计计算算得得到到F的的观观测测值值为为F0, 当当F0落落入入拒拒绝绝域域时时拒拒绝绝原原假假设设H0, 可可以以认认为为因因素素A对对响响应应变变量量有有显显著著影影响响;;否否则则不不能能拒拒绝绝H0,,认认为为因因素素A对对响响应应变变量量无显著影响.无显著影响.10.2.3 方差分析的方法方差分析的方法例 例 设有三台机器设有三台机器,用来生产规格相同的铝合金薄用来生产规格相同的铝合金薄板板.取样取样,测量薄板的厚度精确至千分之一厘米测量薄板的厚度精确至千分之一厘米.得结得结果如下表所示果如下表所示.表表9.1 铝合金板的厚度铝合金板的厚度机器机器Ⅰ机器机器Ⅱ机器机器Ⅲ0.2360.2380.2480.2450.2430.2570.2530.2550.2540.2610.2580.2640.2590.2670.262解解方差分析表方差分析表方差来源方差来源因 素因 素A误 差误 差总 和总 和平方和平方和自由度自由度均 方均 方F 比 比0.0010533332.920.000526670.000016212140.0001920.00124533各机器生产的薄板厚度有显著差异各机器生产的薄板厚度有显著差异.在在MATLAB中的求解中的求解函数函数:anova1格式格式:p=anova1(x)说明说明:对样本对样本X中的多列数据进行单因素方差分析中的多列数据进行单因素方差分析,比较各列的均值比较各列的均值,返回返回“零假设零假设”成立的概率值成立的概率值,如果如果概率值接近于零概率值接近于零,则零假设值得怀疑则零假设值得怀疑,表明各列的均表明各列的均值事实上是不同的值事实上是不同的.源程序源程序: x=[0.236,0.238,0.248,0.245,0.243; 0.257,0.253,0.255,0.254,0.261; 0.258,0.264,0.259,0.267,0.262];p=anova1(x’)程序运行结果程序运行结果 前面我们学习了随机变量的数学期望前面我们学习了随机变量的数学期望和方差,对于多维随机变量,除了其数学和方差,对于多维随机变量,除了其数学期望和方差外,我们还要研究反映各分量期望和方差外,我们还要研究反映各分量之间关系的数字特征,其中最重要的,就之间关系的数字特征,其中最重要的,就是现在要讨论的是现在要讨论的协方差和相关系数协方差和相关系数引引 言言 这里有两个变量,一个是父亲的身高,一个这里有两个变量,一个是父亲的身高,一个是成年儿子身高。
为了研究二者关系,英国统是成年儿子身高为了研究二者关系,英国统计学家皮尔逊收集了计学家皮尔逊收集了1078个父亲及其成年儿子个父亲及其成年儿子身高的数据身高的数据, 画出了一张散点图画出了一张散点图儿儿子子的的身身高高父亲的身高父亲的身高问:父亲及其成年儿子身高存在怎样的关系呢?问:父亲及其成年儿子身高存在怎样的关系呢?fatherson类似的问题有:类似的问题有: 1、吸烟和患肺癌有什么关系?、吸烟和患肺癌有什么关系?2、受教育程度和失业有什么关系?、受教育程度和失业有什么关系?3、高考入学分数和大学学习成绩有什么关系?、高考入学分数和大学学习成绩有什么关系?……??? 设设X和和Y是两个随机变量,若是两个随机变量,若一、协方差一、协方差Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}1.定义定义 E{[X-E(X)][Y-E(Y)]}存在,则称存在,则称E{[X-E(X)][Y-E(Y)]}为随机变量为随机变量X与与Y的协方差的协方差(covariance),记作,记作 显然,两个随机变量的协方差本质上就是显然,两个随机变量的协方差本质上就是这两个随机变量的一个这两个随机变量的一个特殊函数特殊函数的数学期望。
的数学期望二、相关系数二、相关系数为随机变量为随机变量X和和Y的相关系数的相关系数 (correlation coefficient).1.定义定义:若若D(X)>0, D(Y)>0,且且Cov(X,Y)存在时,称存在时,称在不致引起混淆时,记在不致引起混淆时,记 为为 .使使 P{Y=a+bX}=1,,即即X和和Y以概率以概率1线性相关线性相关.下面先以图示之:下面先以图示之:的充分必要条件是存在常数的充分必要条件是存在常数a,b(b≠0))xy0i. 例如:匀速行驶的汽车行例如:匀速行驶的汽车行驶的时间驶的时间X与路程与路程Y之间就之间就是是完全正相关的完全正相关的此时称此时称X与与Y完全正相关完全正相关此时此时b>02.2.相关系数的性质:相关系数的性质:xy0ii. 例如:你每天用在学习上的例如:你每天用在学习上的时间时间X与用在玩上的时间与用在玩上的时间Y之之间就是间就是完全负相关的完全负相关的此时称此时称X与与Y完全负相关完全负相关此时此时b<0xy0iii. 例如:某同学的身高例如:某同学的身高X与他的与他的学习成绩学习成绩Y之间就是之间就是不相关的。
不相关的此时称此时称X与与Y不相关不相关xy0例如:你每天用在学习上的例如:你每天用在学习上的时间时间X与你的学习成绩与你的学习成绩Y之间之间就是就是正相关的正相关的此时称此时称X与与Y正相关正相关此时此时b>0iv. xy0例如:你每天用在玩上的时例如:你每天用在玩上的时间间X与你的学习成绩与你的学习成绩Y之间就之间就是是负相关的负相关的此时称此时称X与与Y负相关负相关此时此时b<0v. 。
