
心理统计学5随机变量分布.ppt
62页心理与教育统计学,陈启山 华南师大心理系 kaisanchan@,随机变量分布,概要 二项分布 正态分布 卡方分布 t分布 F分布,1 二项分布(binomial distribution),问题: 一个学生全凭猜测答2道是非题,则答对0、1、2道题目的概率分别是多大? 如果是3道题、4道题呢?,2道是非题的情况,TT TF, FT FF,3道是非题的情况,TTT TTF, TFT, FTT TFF, FTF, FFT FFF,4道是非题的情况,TTTT TTTF, TTFT, TFTT,FTTT TTFF, TFFT, FFTT,TFTF, FTTF, FTFT TFFF, FTFF, FFTF, FFFT FFFF,n道是非题的情况,用n次方的二项展开式来表达在n次二项试验中成功事件出现不同次数(X=0,1,…,n)的概率分布叫做二项分布 每一项的概率可用下列通式来计算:,从二项分布图可以看出,当p=q,不管n多大,二项分布呈对称形 当n无穷大时,横轴上的组距接近0,二项分布演变成正态分布思考:,如果不是是非题,而是5道四择一的选择题,全凭猜测答对0、1、2、3、4、5道题目的概率分别是多少? 试画出其概率分布图。
更一般的概率模型如下:,二项分布的性质,二项分布是离散型分布p与q相等时,概率分布图是对称的;二者不等时,概率分布图呈偏态 二项分布的均值与标准差: 二项分布的极限形式是正态分布2 正态分布曲线(normal distribution curve),,正态分布曲线是一个理论性模型,一种单众数(仅有尖峰)的次数多边图,其平均数、中位数和众数相同其形状为钟形,完美平滑且对称,其尾端无限地延展至左右两端 正态分布曲线是一个极为重要的统计概念结合平均数与标准差,我们能用正态曲线对各种实证分布建构出更精准的描述叙述 当然,没有任何的实证分布其形状能够完美符合这一理想模型,然而,许多变量(标准化测验、身高、体重与智商)相当地接近正态曲线,而得以采用正态性假设这一假设让正态曲线的一种最重要的运用成为可能:将各种实证性分布的描述建立在我们对理论性正态分布的基础之上2.1 正态分布曲线的高度,如同二项分布的纵轴一样,正态分布曲线的高度代表频数Abraham de Moivre推出以下公式对之进行计算:,,z分数,均值为0,SD=1,让曲线下的面积为1,则N=1,知道z,即可求出y,,,z=0时,y为.3989,z=±1时,y=.2420 换言之,若曲线的高度y=1,则z=±1时,曲线高度应为y=.6067;即:得分z=0时有10000人,则z=1或z=-1时人数各为6067。
2.2 正态分布曲线的面积,曲线高度是频数,曲线下面积则是累积频数 曲线下面积也视作随机变量出现的概率 下图的两个阴影分别表示什么含义?,面积的计算:积分,z1到z2之间曲线下的面积,可以想像为由无数的细长长方形组成,每一长方形的高为y,底边为dz,所以每一长方形面积为ydz,所有长方形面积之和便是:,,得分在 之间者,占总人数的68.27% 得分在 之间者,占总人数的95.45% 得分在 之间者,占总人数的99.73%,,,,三个标准差原则 可以看到,在平均数上下各三个标准差的范围内,分布着全部数据的99.73%,反言之,在三个标准差之外的数据不足0.27%,因此常把“三个标准差”做为判断可疑值取舍的依据正态分布表,模式1:教材附表1,模式2:,非查表不可吗?,正态分布表的使用(教材90-94页),2.3 正态分布曲线的形状,μ决定曲线的位置,σ决定曲线的“胖瘦”,方差愈大时,曲线形状会变的矮且分散方差愈小时,曲线形状会变的高且集中2.4 正态分布的性质,正态分布是一族分布,它随随机变量的均值、标准差的大小与单位不同而有不同的分布形态 正态曲线关于x=u对称,成单峰状,向两侧下降延伸,呈一口钟形。
其拐点位于正负一个标准差处当x 时,曲线右尾以x轴为渐近线(永不相交);当x- 时,曲线左尾也以x轴为渐近线曲线下方与x轴所围面积正好是1,由对称性,在x=u左方或右方的面积均为0.5无论各分布的均值与标准差的值是多少,x取值以下特定区域的概率(面积)是确定的,即:,得分在 之间者,占总人数的68.27% 得分在 之间者,占总人数的95.45% 得分在 之间者,占总人数的99.73%,2.5 标准正态分布,正态分布完全由均值和标准差唯一确定各随机变量的均值与标准差的大小与单位不同,所以其分布形态各不相同 均值为0,标准差为1的正态分布服从标准正态分布所有正态分布均可通过 转化为标准正态分布标准化的例子 P(5 X 6.2),标准化的例子 P(2.9 X 7.1),一般正态分布,2.6 正态分布的应用(教材94-99),标准分数 确定录取分数线 确定特定分数界限内的个体数,2.7 符合正态分布的抽样分布,样本均值的抽样分布,,当总体服从正态分布N ~ (μ,σ2 )时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X 的数学期望为μ,方差为σ2/n。
即X~N(μ,σ2/n),,总体分布,抽样分布,平均数的标准误(standard error, SE) 标准误衡量了抽样误差(sampling error)的大小所谓抽样误差是指由抽样引起的样本统计量与总体参数间的差异 标准误越小,统计量与参数越接近,样本对总体越有代表性,用统计量推断参数的可靠度越大,所以,标准误是推断统计可靠性的重要指标标准差与标准误的比较,样本均值抽样分布的应用 样本均值的抽样分布符合正态分布,这一分布关于总体平均数对称 根据正态分布曲线的性质,我们可以衡量某一样本均值是否落在总体平均数的正负1/2/3…个标准差的范围内 换言之,我们也可以由某一已知的样本均值来估计总体平均数的可能范围2.8 中心极限定理(Central limit theorem ),是概率论中讨论随机变量和的分布以正态分布为极限的一组定理这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量近似服从正态分布的条件 在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的用正态分布逼近二项分布,中心极限定理的动态演示 网页,样本均值的抽样分布与中心极限定理,2.9 正态分布总结,写出你的总结报告。
(1) (2) (3) ……,3 卡方分布( /chi-square distribution),,,3.1 卡方分布的密度函数,呈单峰正偏态,偏度随n增大而变小当n较大时(如大于30),近似于正态分布 均值等于df,方差等于2df3.2 卡方分布表,教材附表11,卡方统计量主要用于计数数据的假设检验3.3 符合卡方分布的抽样分布,样本方差的抽样分布 n个相互独立的标准正态变量的平方和服从自由度为n的卡方分布,即z分数的平方和服从卡方分布: 通常u是未知的,用其无偏估计样本均值代替,于是,,一个类推: 样本均值的抽样分布服从正态分布,我们可以根据正态分布的密度函数(曲线)的性质,用样本均值来估计总体平均数的取值范围 样本方差的抽样分布服从卡方分布; 卡方分布的密度函数的性质跟正态分布是类似的 所以,我们也可以根据卡方分布的密度函数性质,用样本方差来估计总体方差的取值范围4 t 分布(Student's t-distribution ),“Student”是谁?,小样本统计理论的开创者:戈塞特 1908《生物计量学》 平均数的机误 (the probable error of the mean) 学生 t 检验 统计理论发展史上的里程碑:描述走向推断,4.1 t 分布的密度函数,关于纵坐标对称,形状与正态分布曲线类似,尾巴较粗。
n较大时,趋向正态分布 均值等于0,方差等于n/(n-2)4.2 t 分布表,4.3 符合t分布的抽样分布,来自一个正态总体,来自两个正态总体,t 统计量是参数估计与假设检验的基础5 F分布,F 分布的密度函数,单峰正偏态,非对称 两个自由度决定了分布的形态 分子自由度为1,分母自由度任意时,F值与分母自由度相同概率的t值的平方相等F 分布表,,符合F分布的抽样分布,F统计量主要用于方差分析6 小结,随机变量的分布与样本统计量的抽样分布是推断统计的基础。












