好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

统计学-概率.ppt

50页
  • 卖家[上传人]:M****1
  • 文档编号:601542013
  • 上传时间:2025-05-16
  • 文档格式:PPT
  • 文档大小:443KB
  • / 50 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,第,4,章 随机变量的概率分布,4.4,离散随机变量的分布,,4.5,连续随机变量的分布,,4.6,使用概率来检验假设,,,,学习目标,,,离散随机变量及相应的分布,,连续随机变量及相应的分布;,,利用概率进行决策分析离散型随机变量与连续型随机变量,试验,随机变量,可能的取值,抽查,100,个产品,取到次品的个数,0,1,2,…,100,一家餐馆营业一天,顾客数,0,1,2,…,抽查一批电子原件,使用寿命,X,0,新建一座住宅楼,半年完成工程的百分比,0,X 100,分布,随机变量取一切可能值或范围的概率或概率的规律称为概率分布,(probability distribution,,简称分布,),概率分布可以用各种图或表来表示;一些可以用公式来表示概率分布是关于总体的概念有了概率分布就等于知道了总体前面介绍过的样本均值、样本标准差和样本方差等样本特征的概念是相应的总体特征的反映我们也有描述变量,“,位置,”,的总体均值、总体中位数、总体百分位数以及描述变量分散(集中)程度的总体标准差和总体方差等概念。

      4.4,离散随机变量的分布,离散变量只取离散的值,比如骰子的点数、网站点击数、顾客人数等等每一种取值都有某种概率各种取值点的概率总和应该是,1,当然离散变量不不仅仅限于取非负整数值一般来说,某离散随机变量的每一个可能取值,x,i,都相应于取该值的概率,p,(,x,i,),,这些概率应该满足关系,,最简单的离散分布应该是基于,可重复,的有,两,结果(比如成功和失败)的相同,独立,试验(每次试验成功概率相同)的分布,例如抛硬币,比如用,p,代表得到硬币正面的概率,那么,1,-,p,则是得到反面的概率如果知道,p,,这个抛硬币的试验的概率分布也就都知道了4.4.1,二项分布,这种有两个可能结果的试验有两个特点:,,一是各次试验互相独立,,,二是每次试验得到一种结果的概率不变(这里是得到正面的概率总是,p,)类似于抛硬币的仅有两种结果的重复独立试验被称为贝努里试验(,Bernoulli trials,)4.4.1,二项分布,下面试验可看成为贝努里试验:,,每一个进入某商场的顾客是否购买某商品,,每个被调查者是否认可某种产品,,每一个新出婴儿的性别根据这种简单试验的分布,可以得到基于这个试验的更加复杂事件的概率。

      为了方便,人们通常称贝努里试验的两种结果为“成功”和“失败”4.4.1,二项分布,和贝努里试验相关的最常见的问题是,:,如果进行,n,次贝努里试验,每次成功的概率为,p,,那么成功,k,次的概率是多少?,,这个概率的分布就是所谓的二项分布,(binomial distribution),这个分布有两个参数,一个是试验次数,n,,另一个是每次试验成功的概率,p,基于此,二项分布用符号,B(,n,,,p,),或,Bin(,n,,,p,),表示由于,n,和,p,可以根据实际情况取各种不同的值,因此二项分布是一族分布,族内的分布以这两个参数来区分4.4.1,二项分布,一般公式下面,p,(,k,),代表在,n,次,Bernoulli,试验中成功的次数的概率,,p,为每次试验成功的概率有,,这里,,为二项式系数,或记为,,4.4.1,二项分布,,九个二项分布,B(5,p),,(p,=,0.1,到,0.9),的概率分布图,另一个常用离散分布是,Poisson,分布,(“,泊松分布,”)它可以认为是衡量某种事件在一定期间出现的数目的概率比如说在一定时间内顾客的人数、打入总机的个数、页面上出现印刷错误的个数、纺织品上出现疵点的个数。

      4.4.2 Poisson,分布,在不同条件下,同样事件在单位时间中出现同等数目的概率不尽相同比如中午和晚上某商店在,10,分钟内出现,5,个顾客的概率就不一定相同因此,,Poisson,分布也是一个分布族族中不同成员的区别在于事件出现数目的均值,l,不一样4.4.2 Poisson,分布,参数为,l,的,Poisson,分布变量的概率分布为(,p,(,k,),表示,Poisson,变量等于,k,的概率),,4.4.2 Poisson,分布,,参数为,3,、,6,、,10,的,Poisson,分布(只标出了,20,之内的部分),这里点间的连线没有意义,仅仅为容易识别而画,因为,Poisson,变量仅取非负整数值,假定有一批,500,个产品,而其中有,5,个次品假定该产品的质量检查采取随机抽取,20,个产品进行检查如果抽到的,20,个产品中含有,2,个或更多不合格产品,则整个,500,个产品将会被退回这时,人们想知道,该批产品被退回的概率是多少?,,这种概率就满足,超几何分布(,hypergeometric,distribution,),4.4.3,超几何分布,取连续值的变量,如高度、长度、重量、时间、距离等等;它们被称为连续变量,(continuous variable),。

      换言之,一个随机变量如果能够在一区间(无论这个区间多么小)内取任何值,则该变量称为在此区间内是连续的,其分布称为连续型概率分布它们的概率分布很难准确地用离散变量概率的条形图表示4.5,连续变量的分布,,想象连续变量观测值的直方图;如果其纵坐标为相对频数,那么所有这些矩形条的高度和为,1,;完全可以重新设置量纲,使得这些矩形条的面积和为,1,不断增加观测值及直方图的矩形条的数目,直方图就会越来越像一条光滑曲线,其下面的面积和为,1,该曲线即所谓,概率密度函数,(probability density function,,,pdf,),,简称密度函数或密度下图为这样形成的密度曲线4.5,连续变量的分布,,逐渐增加矩形条数目的直方图和一个形状类似的密度曲线连续变量落入某个区间的概率就是概率密度函数的曲线在这个区间上所覆盖的面积;因此,理论上,这个概率就是密度函数在这个区间上的积分对于连续变量,取某个特定值的概率都是零,而只有变量取值于某个(或若干个)区间的概率才可能大于,0,连续变量密度函数曲线(这里用,f,表示)下面覆盖的总面积为,1,,即,,4.5,连续变量的分布,4.5.1,均匀分布,均匀分布(,uniform distribution,)是最简单的连续型分布。

      它的取值范围是一个区间,比如,(a, b),均匀分布随机变量,X,取值在该区间的一个子区间的概率等于该子区间宽度与区间,(a, b),宽度,b-a,之比,例如,假设区间,(a, b),为(,0,1,)区间,那么,X,落入(,0.2, 0.5,)的概率为,(0.5-0.2)/(1-0)=0.3,4.5.1,均匀分布,下图展示了在区间,(0,1),上的均匀分布的密度函数,近似地服从,正态分布,(normal distribution,,又叫,高斯分布,,Gaussian distribution),的变量很常见,象测量误差、商品的重量或尺寸、某年龄人群的身高和体重等等在一定条件下,许多不是正态分布的样本均值在样本量很大时,也可用正态分布来近似4.5.2,正态分布,正态分布的密度曲线是一个对称的钟型曲线(最高点在均值处)正态分布也是一族分布,各种正态分布根据它们的均值和标准差不同而有区别一个正态分布用,N(,m,,,s,2,),表示;其中,m,为均值,而,s,2,为方差(标准差的平方) 也常用,N(,m,,,s,),来表示,这里,s,为标准差4.5.2,正态分布,哈佛大学心理学家,Richard J.,Herrrnstein,和美国企业研究所,(American Enterprise Institute),著名学者,Charles Murray,的名著,《,钟曲线:美国生活中的智商与阶级结构,》,,智商是天生的,和家庭背景、阶层、甚至教育程度都没有关系。

      高智商和低智商在人口中的分布,长期以来基本是固定的高智商的人反正都会成功,于是就集中资源对低智商的人进行倾斜性的教育投资,,,这违反了基本的市场逻辑智商和阶层没有关系,有钱的人未必智商高4.5.2,正态分布,标准差为,1,的正态分布,N(0, 1),称为,标准正态分布,(standard normal distribution),,标准正态分布的密度函数用,f,(x,),表示任何具有正态分布,N(,m,,,s,2,),的随机变量,X,都可以用简单的变换(减去其均值,m,,再除以标准差,s,):,Z,=(,X,-,m)/s,,,而成为标准正态随机变量这种变换和标准得分的意义类似4.5.2,正态分布,两条正态分布的密度曲线左边是,N(-2,0.5,2,),分布,右边是,N(0, 1),分布,当然,和所有连续变量一样,正态变量落在某个区间的概率就等于在这个区间上,密度曲线下面的面积比如,标准正态分布变量落在区间,(0.51,1.57),中的概率,就是在标准正态密度曲线下面在,0.51,和,1.57,之间的面积很容易得到这个面积等于,0.24682,;也就是说,标准正态变量在区间,(0.51,1.57),中的概率等于,0.24682,。

      如果密度函数为,f,(,x,),,那么这个面积为积分,,4.5.2,正态分布,标准正态变量在区间,(0.51, 1.57),中的概率,对于连续型随机变量,X,,,a,下侧分位数(又称为,a,分位数,,a,-,quantile,)定义为数,x,a,,它满足关系,,这里的,a,又,称为下(左)侧尾概率(,lower/left tail probability,),4.5.2,正态分布,而,a,上侧分位数(又称,a,上,分位数,,a,-upper,quantile,)定义为数,x,a,,它满足关系,,这里的,a,也,称为上(右)侧尾概率(,upper/right tail probability,)4.5.2,正态分布,通常,用,z,a,表示标准正态分布的,a,上侧分位数,即对于标准正态分布变量,Z,,有,P(,Z,>,z,a,)=,a,下图表示了,0.05,上侧分位数,z,a,=,z,0.05,及相应的尾概率(,a=0.05,)有些书用符号,z,1,-,a,而不是,z,a,;因此在看参考文献时要注意符号的定义4.5.2,正态分布,N(0,1),分布右侧尾概率,P(z,>,z,a,)=,a,的示意图,【,例,】,,某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为,1050,小时,标准差为,200,小时。

      试求:,,(,a,)使用寿命在,500,小时以下的灯管占多大比例?,,(,b,)使用寿命在,850,~,1450,小时的灯管占多大比例?,,(,c,)以均值为中心,,95,%的灯管的使用寿命在什么范围内?,解,,,X,=,使用寿命,,X,~,N,(1050,,,200,2,,),=,Ф,(2),-,Ф,(-1),=,0.97725,-,0.15865,=,0.8186,95,%的灯管寿命在均值左右,392,(即,658,~,1442,)小时,=,1,-,Ф,(2.75),=,1,-,0.99702,=,0.00298,正态变量的样本均值也是正态变量,能利用减去其均值再除以其,(,总体,),标准差来得到标准正态变量但用样本标准差来代替未知的总体标准差时,得到的结果分布就不再是标准正态分布了它的密度曲线看上去有些象标准正态分布,但是中间瘦一些,而且尾巴长一些这种分布称为,t-,分布,(t-distribution,,,或,学生分布,,Student’s t),4.5.3 t-,分布,不同的样本量通过标准化所产生的,t,分布也不同,,,这样就形成一族分布t,分布族中的成员是以自由度来区分的。

      这里的自由度等于样本量减去,1,(如果样本量为,n,,刚才定义的,t,分布的自由度为,n,-1,)由于产生,t,分布的方式很多,简单说自由度就是样本量减,1,是不准确的自由度甚至不一定是整数4.5.3 t-,分布,标准正态分布和,t(1),分布的密度图,通常,用,t,a,表示,t,分布相应于右侧尾概率,a,的,t,变量的,a,上侧分位数,即对于,t,分布变量,T,,有,P(,T,>,t,a,)=,a,在突出自由度时,也用,t,n,,,a,,也有用,t,1,-,a,或,t,n,,,1,-,a,表示的下图表示了自由度为,2,的,t(2),分布右边的尾概率(,a=0.05,),4.5.3 t-,分布,t(2),分布右侧尾概率,P(,t,>,t,a,)=,a,的示意图,一个由正态变量导出的分布是,c,2,-,分布,(chi-square distribution,,也翻译为卡方分布,),该分布在一些检验中会用到n,个独立正态变量平方和称为有,n,个自由度的,c,2,-,分布,,,记为,c,2,(,n,),c,2,-,分布为一族分布,,,成员由自由度区分由于,c,2,-,分布变量为正态变量的平方和,它不会取负值。

      4.5.4,c,2,-,分布,自由度为,2,、,3,、,5,的,c,2,-,分布密度曲线图,F-,分布变量为两个,c,2,-,分布变量(在除以它们各自自由度之后)的比;,,而两个,c,2,-,分布的自由度则为,F-,分布的自由度,因此,,F-,分布有两个自由度;第一个自由度等于在分子上的,c,2,-,分布的自由度,第二个自由度等于在分母的,c,2,-,分布的自由度4.5.5 F-,分布,自由度为(,3,,,20,)和(,50,,,20,)的,F-,分布密度曲线图,判明一个事情的真伪,需要用事实说话在统计中事实总是来源于数据假定某药厂声称该厂生产的某种药品有,60,%的疗效但是当实际调查了,100,名使用该药物的患者之后,发现有,40,名患者服后有效这个数据是否支持药厂的说法呢?药厂所支持的模型实际上是一个参数为,0.6,的,Bernoulli,试验模型100,名患者的服药,实际上等于进行了,100,次试验这就是二项分布,B(100,0.6),模型4.6,使用概率来检验假设,由于使用了药厂的,0.6,成功概率这个模型是基于药厂的观点的可以基于这个模型计算,100,名患者中有少于或等于,40,名患者治疗有效的概率。

      通过计算(或查表,后面会详细描述)易得,,在药厂观点正确的假定下,,这个概率为,0.000042,这说明,如果药厂正确,那么只有,40,名患者有效这个事实是个小概率事件,即“少于或等于,40,名患者有效”的可能性只有大约十万分之四4.6,使用概率来检验假设,这样在药厂的观点和事实之间有了矛盾是事实准确还是药厂准确呢?,,显然人们一般不会认为药厂的说法可以接受这样,就利用小概率事件来拒绝了药厂的说法这种用小概率事件对假定的模型进行判断是后面要介绍的假设检验的基础4.6,使用概率来检验假设,练习题,1,、抛掷一枚均匀硬币,120,次,求下列事件发生的概率: (,1,)出现正面次数占,40%,到,60%,(,2,)出现正面次数占,5/8,或更多,2,、有,500,个人,每人抛掷一枚均匀硬币,120,次,预计有多少人能得到,(,1,)出现正面次数占,40%,到,60%,(,2,)出现正面次数占,5/8,或更多,3,、已知某台机器生产的产品中有,2%,是次品,现有,400,个这样的工具,求下列事件发生的概率:,,(,1,)次品不少于,3%,(,2,)次品不多于,2%,4,、某此选举结果表明某一位候选人得到了,46%,的选票,从选民中随机抽取一些人作民意测验,求大多数人支持这位候选人的概率: (,1,)选取,200,个人 (,2,)选取,1000,个人,。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.