
概率分布与参数估计.ppt
123页课程名称:教育实验设计与数据分析课程名称:教育实验设计与数据分析概率分布与参数估计概率分布与参数估计概率分布概率分布试验实例试验实例lE1: 抛一枚硬币,分别用“H” 和“T” 表示出正面和反面;lE2: 将一枚硬币连抛三次,考虑正反面出现的情况;lE3:将一枚硬币连抛三次,考虑正面出现的次数;lE4:掷一颗骰子,考虑可能出现的点数;lE5:记录某网站一分钟内受到的点击次数;lE6:在一批灯泡中任取一只,测其寿命;lE7:任选一人,记录他的身高和体重事件发生的标志事件发生的标志l由于事件是随机试验的每一个可能结果,可表示为样本空间的某个子集l所以,事件A的发生,当且仅当试验的结果是子集A中的元素l由此,必然事件即为一个试验中所有基本事件的集合,包含了样本空间的所有样本点;不可能事件不包含样本空间的任一样本点,为一空集事件关系的实质事件关系的实质l由上可知,事件之间的关系由他们所包含的样本点所决定;l由此,事件之间的这种关系也可以用集合之间的关系来描述偏度的意义(三级动差)偏度的意义(三级动差)l表示偏度的指标实际上是z分数的三次方的算术平均数。
l由公式可以看出,正态分布时,由于左右对称,z分数的三次方的总和应等于0;而正偏态时,由于平均数右边的z分数值较大,故z分数三次方总和的绝对值较左边为大,故z分数三次方的总和大于0;而负偏态则相反峰度的意义(四级动差)峰度的意义(四级动差)l表示峰度的指标实际上与z分数的四次方的算术平均数有密切关系l当两曲线的标准差相同时,曲线越高狭,两极端分数的分布次数越多,峰度值就会越大;反之,曲线越低阔,两极端分数的分布次数越少,峰度值就会越小l故,峰度值为0时,分布为正态;峰度值大于0时,分布为高狭峰;峰度值小于0时,分布为低阔峰二项分布的极限分布是正态分布二项分布的极限分布是正态分布公式表达: 式中,y为次数,N为总人数,X为测量分数 若左式中的N取为1,便是正态分布的密度函数,即:连续和离散型随机变量概率分布的区别连续和离散型随机变量概率分布的区别连续型随机变量连续型随机变量1)连续型随机变量记做X;2)随机变量特殊值记做x;3)连续型概率分布(概率密度函数)记做f(x);4)P(X=x)=0;5)6)离散型随机变量离散型随机变量1)X表示离散型随机变量;2)x表示随机变量特殊值;3)离散型概率分布(概率分布函数)记做f(x);4)P(X=x)=f(x);5)6)大数原则与大数原则与Z Z分布分布l大数原则 从公式可以看到,样本平均数的标准误与母总体的标准差成正比,而与样本容量n成反比,样本容量越大,样本平均数的标准误越小。
lZ分布 无论母总体的分布,还是样本平均数的分布,都可以通过求标准分数Z,将各自的正态分布形式转换成标准正态分布此时,标准正态分布的随机变量为z分数,故标准正态分布也称Z分布样本平均数的样本平均数的Z Z分布和分布和t t分布总结分布总结总体样本容量分布形态精确或近似已知 正态30Z分布精确 正态n<30Z分布精确 非正态30Z分布近似 非正态n<30??未知 正态30t分布精确 Z分布近似 正态n<30t分布精确 非正态30t分布近似Z分布近似 非正态n<30??参数估计参数估计统计推断统计推断 ((statistical inferencestatistical inference))总体总体样本样本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 统计推断统计推断如:样本均数如:样本均数 样本标准差样本标准差 S 如:总体均数如:总体均数 总体标准差总体标准差 内容:内容:1、、参数估计参数估计 包括:点估计包括:点估计 区间估计区间估计2、、假设检验假设检验 被估计的总体参数被估计的总体参数总体参数总体参数符号表示符号表示用于估计的用于估计的样本统计量样本统计量一个总体一个总体均值比例方差两个总体两个总体均值之差比例之差方差比第一节第一节 点估计点估计、区间估计、区间估计一、点估计(一、点估计(point estimationpoint estimation)) 从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。
例如: 用样本均值作为总体未知均值的估计值 注意:点估计没有给出估计值接近总体未知参数程度的信息 二、良好估计的标准二、良好估计的标准l无无偏偏性性::估计量的数学期望等于被估计的总体参数用多个样本的统计量作为总体μ的估计值,其偏差的平均数为零l 是 μ的无偏估计, 是 的无偏估计X XC CA A 无偏无偏无偏无偏无偏无偏有偏有偏有偏有偏有偏有偏l l有效性:有效性:有效性:有效性:一个方差较小的无偏估计量称为一个一个方差较小的无偏估计量称为一个更有效的估计量如,与其他估计量相比,样更有效的估计量如,与其他估计量相比,样本均值是一个更有效的估计量本均值是一个更有效的估计量AB 中位数的抽样分布中位数的抽样分布中位数的抽样分布中位数的抽样分布均值的抽样分布均值的抽样分布均值的抽样分布均值的抽样分布X XP P( (X X ) )l一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数AB较小的样本容量较小的样本容量较小的样本容量较小的样本容量较大的样本容量较大的样本容量较大的样本容量较大的样本容量 P P( (X X ) )X Xl充分性:充分性:一个样本容量为n的样本统计量,是否充分反映了全部n个数据所反映总体的信息。
例如,平均数比众数、中位数的充分性高; 比Q、AD的充分性高 三、区间估计三、区间估计((interval estimation)) 根据一个样本的观察值给出总体参数所在的区间范围,并给出总体参数落在这一区间的概率 例如: 总体均值落在50-70之间,置信度为 95% 注意:区间估计是在点估计的基础之上进行的,并不具体指出总体参数等于什么置信区间置信区间置信区间置信区间置信下限置信下限置信下限置信下限置信上限置信上限置信上限置信上限决定区间边界值的因素l样本点估计值(如样本平均数)l联系总体参数和样本点估计的样本统计量(如Z统计量)l该统计量的抽样分布(如果样本平均数服从正态分布,则Z统计量的抽样分布是标准正态分布)落在总体均值某一区间内的样本均值落在总体均值某一区间内的样本均值 x_XX = Z x95% 95% 的样本的样本的样本的样本 -1.96 -1.96 x x +1.96+1.96 x x99% 99% 的样本的样本的样本的样本 - 2.58- 2.58 x x + 2.58+ 2.58x x90%90%的样本的样本的样本的样本 -1.65 -1.65 x x +1.65+1.65 x x置信水平置信水平 总体未知参数落在某一区间内的概率,表示为 1-。
此时, 为显著性水平,是总体参数未在某一区间内的概率 常用的置信水平值有0.99,0.95,0.90相应的相应的 为0.01,0.05,0.10区间与置信水平区间与置信水平均值的抽样分布均值的抽样分布均值的抽样分布均值的抽样分布1 - 1 - 的的的的区间包含了区间包含了区间包含了区间包含了 的区间未包含的区间未包含的区间未包含的区间未包含 1 - 1 - / /2 2 / /2 2区间估计的原理区间估计的原理l区间估计是根据样本分布理论,用样本分布的标准误(SE)计算区间长度,解释总体参数落入某置信区间可能的概率l区间估计存在成功估计的概率的大小和估计范围的大小两个问题二者是一对矛盾)l在保证置信度的前提下,尽可能提高精确度影响区间宽度的因素影响区间宽度的因素1.数据的离散程度,用来测度;2.样本容量, (标准误);3.置信水平 (1 - ),影响 Z 的大小第二节第二节 总体平均数的区间估计总体平均数的区间估计一、总体平均数估计的步骤1.根据实得样本的数据,计算样本平均数与标准差2.计算标准误:(1)当总体方差已知时(2)当总体方差未知时3.确定置信水平或显著性水平4.根据样本平均数得抽样分布,确定查何种统计表 一般总体方差已知查正态分布表;当总体方差未知,样本方差已知,查t表(如果n>30,可以查正态表作近似值);确定 , 。
5.计算置信区间(1)如果查正态分布表,置信区间可以写作(2)如果查t值表,置信区间写作 6.解释总体平均数的置信区间 估计总体平均数落入该区间的正确可能性概率为 1-α,犯错误的可能性的概率为α二、总体方差二、总体方差2已知,对总体平均数已知,对总体平均数μ的估计的估计1. 假定条件•总体服从正态分布,且总体方差(2)已知•如果不是正态分布,可以由正态分布来近似 (n≥30)2.使用正态分布统计量Z3.总体均值 在1-置信水平下的置信区间为算例:见教材算例:见教材p205p205--206206解解::已知总体正态分布,σ=0.15,x=2.14, n=9, 1-= 0.95,Z/2=1.96 总体均值的置信区间为我们可以95%的概率保证该种反应时平均长度在21.302~21.498 毫秒之间【【例例】】某种反应时服从正态分布,一次作业中9名被试的平均反应时为21.4毫秒已知总体标准差 =0.15毫秒,试建立该种反应时的置信区间,给定置信水平为0.95三、总体方差三、总体方差2未知,对总体平均数未知,对总体平均数μ的估计的估计1.假定条件•总体方差(2)未知•总体必须服从正态分布正态分布2.使用 t 分布统计量3. 3. 总体均值总体均值 在在1-1- 置信水平下的置信水平下的置信区间为置信区间为算例:见教材算例:见教材p207p207--208208解解::已知总体正态分布,x=50, s=8, n=25, 1- = 0.95,t/2=2.0639。
我们可以95%的概率保证总体均值在46.69~53.30 之间【【例例】】从一个正态总体中抽取一个随机样本, n = 25 ,其均值x = 50 ,标准差 s = 8 建立总体均值 的95%的置信区间总结(总体平均数的区间估计)总体样本容量置信区间精确或近似已知 正态30精确 正态n<30精确 非正态30近似 非正态n<30??未知 正态30精确 近似 正态n<30精确 非正态30近似近似 非正态n<30??第三节第三节 总体方差与标准差的区间估计总体方差与标准差的区间估计一、总体方差的区间估计1、概率表达2、置信区间公式推导(精确分布)3、各种情况下总体方差的区间估计1)n 2时,使用 分布进行精确区间估计2)n 30时,使用标准正态分布进行近似区间估计二、总体标准差的区间估计1、置信区间公式推导(精确分布) 已知: 不等式开平方,即得:2、各种情况下总体标准差的区间估计1)n 2时,使用 分布进行精确区间估计2)n 30时,使用标准正态分布进行近似区间估计三、两总体方差之比的区间估计三、两总体方差之比的区间估计1、如何理解两方差之比的区间估计§如果S S1 12 2/ / S S2 22 2接近于1,1,说明两个总体方差很接近;§如果S S1 12 2/ / S S2 22 2远离1,1,说明两个总体方差之间存在差异。
2、置信区间公式推导第四节第四节 相关系数的区间估计相关系数的区间估计一、积差相关系数的抽样分布•总体相关系数等于0时;•总体相关系数不等于0时二、积差相关系数的区间估计三、等级相关系数的区间估计第五节 比率及比率差异的区间估计一、比率的区间估计1、比率的样本分布•精确分布:二项分布•np大于5,且nq大于5时:近似正态分布 2、比率的区间估计( np大于5,且nq大于5 )3、各种情况下比率的区间估计•1) np大于5,且nq大于5时(同上式)•2)np小于5时(查表计算)二、比率差异的区间估计1、两样本比率差异的抽样分布• 时,两样本比率差异的分布近似正态分布 2、比率差异的区间估计3、各种情况下比率的区间估计•1) (同上式)•2) 感谢各位的参与!感谢各位的参与!下节课内容:下节课内容:假设检验与方差分析假设检验与方差分析参考文献:参考文献:1 1)张厚粲、徐建平:现代心理与教育统计,北京师范大学出版社;)张厚粲、徐建平:现代心理与教育统计,北京师范大学出版社;2 2)王孝玲:教育统计学,华东师范大学出版社;)王孝玲:教育统计学,华东师范大学出版社;3 3)林清山:心理与教育统计学,东华书局;)林清山:心理与教育统计学,东华书局;4 4)舒华:心理与教育研究中的多因素实验设计,北京师范大学出版社。
舒华:心理与教育研究中的多因素实验设计,北京师范大学出版社。












