好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

第3章概率与抽样分布.ppt

57页
  • 卖家[上传人]:m****
  • 文档编号:592303029
  • 上传时间:2024-09-20
  • 文档格式:PPT
  • 文档大小:522.52KB
  • / 57 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 第3章 概率与抽样分布Probability and Sampling Distributions Section 3.1Random Variables随机变量 事件事件的实际发生率的实际发生率称为称为频率频率设在相同设在相同条件下,独立重复进行条件下,独立重复进行n n次试验,事件次试验,事件A A出现出现f f 次,则事件次,则事件A A出现的频率为出现的频率为f f/ /n n 概率概率::随机事件发生的可能性大小随机事件发生的可能性大小,用,用大写的大写的P P 表示;取值表示;取值[0[0,,1]1] 一、频率与概率frequency and probability 1. 样本频率总是围绕概率上下波动 2. 样本含量n越大,波动幅度越小,频率越接近概率频率与概率的关系:调查株数株数(n)52550100200500100015002000受害株数受害株数(a) 21215 33 72177 351 525 704棉株受害棉株受害频率率(a/n)0.400.480.300.330.360.3540.3510.3500.352表表 在相同条件下盲在相同条件下盲蝽象在某棉田危害程度的象在某棉田危害程度的调查结果果一、频率与概率frequency and probability 一、频率与概率frequency and probability 小概率原理小概率原理 若事件若事件A发生的概率较小,如小于发生的概率较小,如小于0.05或或0.01,则认为,则认为事件事件A在一次试验中不太可能发生,这称为小概率事件实际在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。

      这里的不可能性原理,简称小概率原理这里的0.05或或0.01称为小称为小概率标准,农业试验研究中通常使用这两个小概率标准概率标准,农业试验研究中通常使用这两个小概率标准 二、随机变量Ø用以记录随机试验结果(outcome)的变量,称为随机变量(random variable),用大写英文字母X, Y 等代表Ø随机变量X的概率分布,表达 X 的可能取值和取这些值的概率规则 离散型和连续型随机变量Ø随机变量的可能取值是离散的数字,如计数型或分类型等,称为离散型随机变量(discrete random variable)§{0, 1,…, 9} §20次实验中成功的次数, 二项式分布Ø随机变量的可能取值是某一实数的区间,如“大于0”或“-2~2之间”等,称为连续型随机变量(continuous random variable)§正态随机变量二、随机变量 三、离散型随机变量的概率分布X = xix1 ,,x2 ,,… ,,xnP(X =xi)=pip1 ,,p2 ,,… ,,pnØ列出离散型随机变量X的所有可能取值Ø列出随机变量取这些值的概率Ø通常用下面的表格来表示ØP(X =xi)=pi称为离散型随机变量的概率函数 四、连续型随机变量的概率密度Ø若观察资料数量够大,则直方图(组数适当增加)的整体形态可用一近似的平滑曲线显示。

      Ø直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线(density curve) 概率密度曲线 密度曲线的性质Ø曲线都在水平线上 (密度函数>=0)Ø曲线下所涵盖的全部面积正好为1(所有可能性为1)Ø曲线下任何范围所涵盖的面积,为观察值落在该范围的比例(概率)Ø密度曲线可视为是观察变量的理论分布图形 四、连续型随机变量的概率密度 Ø随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积之和Ø描述随机变量取值的集中程度Ø计算公式为五、随机变量的数学期望 Ø随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X)Ø描述离散型随机变量取值的分散程度Ø计算公式为六、随机变量的方差 Section 3.2The Binomial Distributions二项分布 一、二项分布设定The Binomial SettingØ固定的观察次数 nØn 次的观察都独立,每次的观察都不会对其他观察提供任何信息Ø每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种Ø每次的观察“成功”的概率都一样,设定为 p 二、二项分布Binomial DistributionØ满足二项分布设定的试验,以 X 记录 n次观察中“成功”的次数,则称 X 的分布为参数为 n 与 p 的二项分布(binomial),记为B(n, p)。

      §X 的所有可能取值为{0, 1, …, n}§对应的概率函数为 P(X = x) = P(x) [例例1] 某种昆虫在某地区的死亡率为某种昆虫在某地区的死亡率为40%,即,即p=0.4,,现对这种害虫用一种新药进行治疗试验,每次抽样现对这种害虫用一种新药进行治疗试验,每次抽样10头作头作为一组治疗试问如新药无疗效,则在为一组治疗试问如新药无疗效,则在10头中死头中死3头、头、2头、头、1头,以及全部愈好的概率为多少?头,以及全部愈好的概率为多少?按上述二项分布概率函数式计算按上述二项分布概率函数式计算 7头愈好,头愈好,3头死去概率:头死去概率:8头愈好,头愈好,2头死去概率:头死去概率:9头愈好,头愈好,1头死去概率:头死去概率:10头全部愈好的概率:头全部愈好的概率: 三、示例 若问若问10头中不超过头中不超过2头死去的概率为多少?则应该头死去的概率为多少?则应该应用累积函数,即应用累积函数,即三、示例 四、二项分布的期望值与标准差Ø期望值: E(X) = npØ方差: Var(X) = np(1-p)Ø标准差: Section 3.3Normal Distributions正态分布 一、特点Ø正态曲线§所有正态曲线都有相同的外型•具有对称、单峰及钟形的特性。

      Ø正态曲线所代表的分布即为正态分布(normal distribution)§每一正态分布都有其平均值μ 与标准差σ ms一、特点 正态曲线σ较大ms一、特点 正态曲线的拐点拐点落在一个σ处拐点落在-σ处一、特点 二、为什么这么重要ØGood descriptions for some distributions of real data§身高, 体重, 考试成绩ØGood approximations to the results of many kinds of chance outcomes§Tossing a coin many timesØMany statistical inference procedures are based on normal distributions 三、68-95-99.7规则Ø正态分布有其特定的数据分布规则:§平均值为μ , 标准差为σ 的正态分布§68%的观察资料落在m 的 1σ 之内§95%的观察资料落在m 的 2σ 之内§99.7%的观察资料落在m 的 3σ 之内 0123-1-2-3mm+sm+2sm+3sm-sm-2sm-3s68% 的资料95% 的资料99.7% 的资料三、68-95-99.7规则 四、变量标准化(Standardization)Ø令观察值 x 服从平均值为μ ,标准差为σ 的分布,则 x 的标准化值(standardized value)定义为Ø标准化值又称为 z-值(z-score)。

      Ø标准化变量Ø可以证明•z的平均值为0•z的标准差为1四、变量标准化(Standardization) 五、标准正态分布Ø变量 X 服从平均值为 μ ,标准差为 σ 的正态分布,简记为 X ~ N(μ, σ 2)ØX 经过标准化后为 Z (=(X-μ)/ s ),则 Z 也服从正态分布,并且平均值为 0 ,标准差为 1,即Z ~ N(0, 1)我们称 Z 服从标准正态(standard normal) 六、标准正态表z表列数字是z左边的面积z = - 0.44z左边的面积为0.33- 0.440.33 z表列数字是z左边的面积z = 0.44z左边的面积为0.67六、标准正态表 七、双侧临界值Ø在标准正态曲线图下, 右方与 左方的面积和为 a ,则称 为标准正态分布概率为 a 的双侧临界值m = 0面积为a/2面积为a/2 八、单侧临界值Ø在标准正态曲线图下, 右方的面积为 a ,则称 为标准正态分布概率为 a 的单侧临界值m = 0面积为a [例例2] 假定假定y是一随机变数具有正态分布,平均数是一随机变数具有正态分布,平均数 =30,标准差,标准差 =5,试计算小于,试计算小于26,小于,小于40的概率,的概率,介乎介乎26和和40区间的概率以及大于区间的概率以及大于40的概率。

      的概率首先计算:首先计算:先将先将x转换为转换为u值值 九、计算 同理可得:同理可得: FN(40)=0.9773 所以:所以:P(26<x≤40)=FN(40)--FN(26)=0.9773--0.2119 = 0.7654 P(x>40)=1-P(x≤40)=1-0.9773 =0.0227 查附表,当查附表,当u=-0.8时,时,FN(26)=0.2119,说明这,说明这一分布从一分布从--∞到到26范围内的变量数占全部变量数的范围内的变量数占全部变量数的21.19%,或者说,,或者说,x≤26概率为概率为0.2119.九、计算 [例例3] 在应用正态分布时,经常要讨论随机变数在应用正态分布时,经常要讨论随机变数x离其平均数的差数大于或小于若干个值的概率例如计离其平均数的差数大于或小于若干个值的概率例如计算离均差绝对值等于小于和等于大于算离均差绝对值等于小于和等于大于1 的概率为:的概率为:也可以简写为也可以简写为 九、计算 相应地,离均差绝对值等于小于相应地,离均差绝对值等于小于2 、等于大于、等于大于2 、等、等于小于于小于3 和等于大于和等于大于3 的概率值为:的概率值为:九、计算 [例例4] 计算正态分布曲线的中间概率为计算正态分布曲线的中间概率为0.99时,其时,其y或或u值应等于多少?值应等于多少? 因为正态分布是对称的,故在曲线左边从-因为正态分布是对称的,故在曲线左边从-∞到-到- u的概率和在曲线右边从的概率和在曲线右边从u到到∞的概率都应等于的概率都应等于1/2(1--0.99)=0.005。

      查表,查表,u=--2.58时,时, fN(x) =0.00494≈0.005 于是知,当于是知,当 ±2.58时,在其范围内包括时,在其范围内包括99%的的变量,仅有变量,仅有1%变量在此范围之外上述结果写作:变量在此范围之外上述结果写作:九、计算 同理可求得:同理可求得:九、计算 同理,同理, 亦可写成:亦可写成: 以上以上 乃正态曲线下左边一尾乃正态曲线下左边一尾x从从--∞到到 上的面积和右边一尾上的面积和右边一尾y从从 到到∞上的面积之和,亦可写成:上的面积之和,亦可写成:九、计算 Section 3.4Sampling Distributions抽样分布 一、总体与样本 population and sample总体总体::根据研究目的根据研究目的确定的确定的同质同质研究对象研究对象的的全体全体(集合)分(集合)分有限总体与无限总体有限总体与无限总体样本样本:从总体中随机:从总体中随机抽取的部分研究对象抽取的部分研究对象 二、总体容量与样本容量population size and sample size总体容量(总体容量(N)::总体总体中所包含的个体数目。

      中所包含的个体数目根据根据N大小,总体分大小,总体分有限总体有限总体和和无限总体无限总体样本样本(n)::从总体中随从总体中随机抽取的部分研究对机抽取的部分研究对象象 三、随机抽样 random sampling为了保证样本的为了保证样本的可靠可靠性性和和代表性代表性,需要采,需要采用随机的方法抽取样用随机的方法抽取样本(在总体中每个个本(在总体中每个个体具有体具有相同的机会相同的机会被被抽到) 四、参数与统计量parameter and statistic参数参数::总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为μμ、、σσ固定的常数固定的常数 总体总体样样本本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 推断推断inference统计量统计量::样本样本的统计指标,如样本均数、标准差,采用英的统计指标,如样本均数、标准差,采用英文字母分别记为文字母分别记为 参数附近波动的随机变量参数附近波动的随机变量 五、总体均值、方差与标准差Ø总体均值Ø总体方差Ø总体标准差 六、样本均值、方差与标准差Ø总体均值Ø总体方差Ø总体标准差 七、样本的概率分布Ø统计量(为样本的函数),亦为随机变量,其概率分布称为抽样分布(sampling distribution)。

      Ø一般统计量的抽样分布,则多根据重复抽样(实验)结果来了解其概率分布Ø 的抽样分布§大数法则,中心极限定理 八、大数法则Ø由具有有限(finite)平均数 m 的总体随机抽样,随着样本容量的增加,样本平均数 越接近总体的均数 m Ø样本平均数的这种行为称为大数法则(law of large numbers) Ø以 代表样本容量为 n 的资料平均数,逐渐增加样本容量,将 n 及对应的 图示如后八、大数法则 Number of observations, n前 n个样本的均数22232425262728293031323315 1050100500 1000500010000八、大数法则 九、样本平均数的均数与标准差Ø令 为样本容量为 n 的一组SRS的平均数,其总体平均数为 m 与标准差为 s则 的分布平均数为 m 与标准差为 Ø因为 的分布平均数也是 m,故 又称为 m 的不偏估计Ø样本容量越大,则样本平均数 的变异越小 十、正态的样本平均数的分布Ø若总体服从正态 N(m, s2) ,则SRS的平均数 也服从正态 N(m, )。

      十一、中心极限定理(CLT)Ø若总体平均数为 m 、标准差为 s ,当样本容量够大时,则SRS的平均数 的分布近似正态 N(m, )我们称之为中心极限定理(Central Limit Theorem)§总体与正态分布差越多,则样本容量要越大§样本容量越大, SRS的平均数 的分布越近似正态 [例例5] 在江苏沛县调查在江苏沛县调查336个个m2小地老虎虫危害情况的结小地老虎虫危害情况的结果,果, =4.73头,头, =2.63,试问样本容量,试问样本容量n=30时,由于随机抽时,由于随机抽样得到样本平均数样得到样本平均数 等于或小于等于或小于4.37的概率为多少?的概率为多少?十一、中心极限定理(CLT) 查附表查附表,P(u≤-0.36)=0.2266,即概率为,即概率为22.66% (属属一尾概率一尾概率)因所得概率较大,说明差数-因所得概率较大,说明差数-0.36是随机误差,是随机误差,从而证明这样本平均数从而证明这样本平均数4.37是有代表性的,变异系数为:是有代表性的,变异系数为:十一、中心极限定理(CLT) 。

      点击阅读更多内容
      相关文档
      安徽省安全员《A证(企业负责人)》冲刺试卷三.docx 2026年房地产经纪人《房地产经纪业务操作》预测试卷三.docx 安徽省安全员《A证(企业负责人)》模拟试卷一.docx 2026年房地产经纪人《房地产交易制度政策》模拟试卷四.docx 安徽省安全员《B证(项目负责人)》冲刺试卷二.docx 2026年房地产经纪人《房地产经纪专业基础》预测试卷四.docx 2026年房地产经纪人《房地产经纪业务操作》考前点题卷一.docx 2023年通信工程师《通信专业实务(传输与接入-无线)》试题真题及答案.docx 安徽省安全员《A证(企业负责人)》试题精选.docx 2026年房地产经纪人《房地产经纪专业基础》预测试卷二.docx 2026年房地产经纪人《房地产经纪业务操作》考前点题卷二.docx 2026年房地产经纪人《房地产经纪职业导论》冲刺试卷三.docx 2026年房地产经纪人《房地产交易制度政策》冲刺试卷三.docx 2026年房地产经纪人《房地产经纪专业基础》考前点题卷二.docx 2026年房地产经纪人《房地产经纪职业导论》冲刺试卷五.docx 2026年房地产经纪人《房地产经纪职业导论》冲刺试卷四.docx 2026年房地产经纪人《房地产交易制度政策》冲刺试卷一.docx 2026年房地产经纪人《房地产交易制度政策》冲刺试卷四.docx 安徽省安全员《B证(项目负责人)》冲刺试卷三.docx 2026年房地产经纪人《房地产经纪业务操作》模拟试卷二.docx
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.