好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

多元正态分布新课件.pptx

81页
  • 卖家[上传人]:des****85
  • 文档编号:325448212
  • 上传时间:2022-07-18
  • 文档格式:PPTX
  • 文档大小:1.27MB
  • / 81 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 多元正态分布的重要性:多元正态分布的重要性:(1)多元统计分析中很多重要的理论和方法都是直接或间接)多元统计分析中很多重要的理论和方法都是直接或间接 地建立在正态分布地建立在正态分布 基础上的,许多统计量的极限分布往往和基础上的,许多统计量的极限分布往往和 正态分布有关正态分布有关2)许多实际问题涉及的随机向量服从多元正态分布或近似)许多实际问题涉及的随机向量服从多元正态分布或近似 服从正态分布因此多元正态分布是多元统计分析的基础服从正态分布因此多元正态分布是多元统计分析的基础一、多元正态分布的定义一、多元正态分布的定义定义定义1:若若p维随机向量维随机向量 的密度函数为:的密度函数为:其中,其中,是是p维向量维向量 是是p阶阶正定矩阵,则称正定矩阵,则称X服从服从p维正态分布,记为维正态分布,记为 1多元正态分布的定义及其性质多元正态分布的定义及其性质定义定义2:独立标准正态变量独立标准正态变量 的有限线性组合的有限线性组合 称为称为p维正态随机变量,记为维正态随机变量,记为 其中其中但是但是 的分解一般不是唯一的的分解一般不是唯一的定义定义3:若随机向量:若随机向量X的特征函数为:的特征函数为:其中其中t为实向量,则称为实向量,则称X服从服从p元正态分布。

      特征函数定义的元正态分布特征函数定义的优点在于可以包含优点在于可以包含 的情况特别地,特别地,二元正态分布二元正态分布:二元正态分布曲面()二元正态分布曲面()即即 ,两个随机变量独立,两个随机变量独立而而 可以求得可以求得 的边缘密度函数为:的边缘密度函数为:当当 时时X1与与X2不相关,对于正态分布来说不相关和独立不相关,对于正态分布来说不相关和独立等价因为此时:等价因为此时:为为X1和和X2的相关系数的相关系数二、多元正态分布的性质二、多元正态分布的性质 性质性质1:若:若 ,是对角矩阵,则是对角矩阵,则 相互独立相互独立性质性质2:若:若 则则 性质性质3:若:若 ,将,将 作剖分:作剖分:则则性质4:p 元正态分布的条件分布仍服从正态分布即在某些变量取固定值时,另外一些变量的分布仍然服从多元正态分布三、正态分布数据的变换三、正态分布数据的变换若一批多元数据不满足正态分布时,可以对数据进行正态变换一般来说常采用幂变换,如果想使值变小可以采用变换:如果想使值变大,则采用变换:不管使用哪种幂变换,还应该对变换后的数据的正态性做检验.2多元正态分布的参数估计多元正态分布的参数估计 一、多元样本及其样本数字特征一、多元样本及其样本数字特征多元样本阵多元样本阵记2、多元样本的数字特征、多元样本的数字特征样本均值:样本均值:样本均值向量可以用样本矩阵表示出来,即因为:样本离差阵样本离差阵样本协方差矩阵样本协方差矩阵 或或 样本离差阵用样本资料阵表示为:因为二、多元正态总体的最大似然估计及其性质二、多元正态总体的最大似然估计及其性质利用最大似然法求出利用最大似然法求出 和和 的最大似然估计为:的最大似然估计为:求解过程求解过程似然函数为:似然函数为:对数似然函数为:对数似然函数为:(引理:设A为p阶正定矩阵,则 当A=I等号成立。

      最大似然估计的性质最大似然估计的性质 1.,即,即 是是 的无偏估计的无偏估计即,即 不是不是 的无偏估计的无偏估计即,即 是无偏估计是无偏估计2.分别是分别是 的最小方差无偏估量的最小方差无偏估量3.分别是分别是 的一致估计的一致估计三、维斯特三、维斯特(Wishart)分布分布-一元一元 分布的推广分布的推广定义:定义:设设 个随机向量个随机向量 独立同分布于独立同分布于 ,则随机矩阵则随机矩阵 服从自由度服从自由度为为n的非中心维斯特分布,记为的非中心维斯特分布,记为 随机矩阵的分布:随机矩阵的分布:将该矩阵的列向量(或行向量)连接起来组成的长向量称为拉直将该矩阵的列向量(或行向量)连接起来组成的长向量称为拉直向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则向量,拉直向量的分布定义为该矩阵的分布,如果是对称矩阵则只取其下三角的部分拉直即可只取其下三角的部分拉直即可性质:性质:(1)若)若W1和和W2独立,其分布分别为独立,其分布分别为 和和 ,则,则 分布为分布为 ,即维斯特,即维斯特(Wishart)分布有可加性分布有可加性2),C为为mp阶的矩阵,则阶的矩阵,则 的分布为的分布为 定理:定理:设设 分别是来自正态总体分别是来自正态总体 的样本均值的样本均值和离差阵和离差阵,则,则(1)(2)(3)相互独立。

      相互独立4)S为正定矩阵的充分必要条件是为正定矩阵的充分必要条件是 np11一元正态总体:为来自一元正态总体的一组样本定理:证明:构造正交矩阵做变换第三章多元正态总体参数的假设检验第三章多元正态总体参数的假设检验一、一、Hotelling T2分布分布 一元一元t分布的推广分布的推广定义定义 设设 ,且,且X与与S相互独立,相互独立,则称统计量则称统计量 的分布为非中心的的分布为非中心的Hotelling T分布,记为分布,记为 ,当,当 时称为中心时称为中心的的HotellingT2分布记为分布记为一元一元t分布分布:设总体设总体 是一组样本是一组样本,则统计量则统计量 其中与 类似并且定理:设定理:设 且且X与与S相互独立,相互独立,令令基本性质基本性质:则则二、多元正态总体均值向量的假设检验二、多元正态总体均值向量的假设检验1.单个正态总体单个正态总体(1)协方差矩阵协方差矩阵 已知时均值向量的检验已知时均值向量的检验检验统计量检验统计量设水平为设水平为 ,查表确定,查表确定 ,使得,使得(当(当H0成立时)成立时)拒绝域为:拒绝域为:当原假设成立时(2)协方差矩阵协方差矩阵 未知时均值向量的检验未知时均值向量的检验 检验统计量检验统计量拒绝域为:拒绝域为:例:人的出汗多少于人体内钾和钠的含量有一定的关系。

      测得20名健康成年女性的出汗多少(X1)、钠的含量(X2)和钾的含量(X3)的数据,做如下的假设检验:例:在企业市场结构研究中,起关键作用的指标有市场份额X1,企业规模(资产净值总额的对数)X2,资本收益率X3,总收益增长率X4.为了研究市场结构的变动Shepherd(1972)抽取了美国231个大型企业,调查了这些企业1960-1969年的资料假设以前企业市场结构指标的均值向量为:而该次调查得到的企业市场结构指标的均值向量和协方差矩阵为:试问市场结构是否发生了变化?带入到T2统计量中得到临界值因此拒绝原假设,认为市场结构已经发生了显著的变化2.协方差阵相等时,两个正态总体均值向量的检验设且两组样本相互独立1)有共同已知的协方差矩阵 检验统计量为:拒绝域为:(2)有共同的未知协方差矩阵检验统计量为:用 代替即可得到上述统计量例:为了研究日美企业在华投资企业对中国经营环境的评价是否存在差异,现从两国在华投资企业中各抽出10家,让其对如下 指标进行打分假设两组来自正态总体,有共同的未知协方差矩阵,且两组样本相互独立经计算代入统计量中得:查F分布表得:显然有:故拒绝原假设,认为日、美两国在华投资企业对中国经营环境的评价存在差别。

      3.协方差阵不相等时,两个正态总体均值向量的检验略一元方差分析一、方差分析的概念及有关术语 方差分析是根据实验数据来推断一个或多个因素在其状态变化时是否会对实验指标产生显著影响的一种数理统计方法方差分析可以用来研究分类型自变量(名义测度)对数值型因变量的影响包括它们之间有没有关系、关系的强度如何等,也就是研究一个或多个因素变化时不同总体的某个指标是否有显著差异,所采用的方法就是检验各个总体的均值是否相等方差分析是用于评价实验的最重要的分析方法4.多个正态总体均值向量的检验(多元方差分析)例子:为了对几个行业的服务质量进行评价,消费者协会在零售业、旅游业、航空公司、家电制造业分别抽取了不同的企业作为样本每个行业中所抽取的样本在服务对象、服务内容、企业规模等基本上是相同的,统计出消费者对23家企业的投诉次数,现判断几个行业的服务质量是否有差别投诉次数如下表:返回假定各个行业在服务对象、服务内容、企业规模等基本相同的前提下,要分析4个行业的服务质量是否有显著差,实际上就是判断“行业”对投诉次数是否有显著影响,即“行业”为自变量,投诉次数为因变量做出这种判断最终归结为检验4个行业被投诉次数的均值是否相等。

      如果相等则认为行业因素对投诉次数是没有影响的,如果均值不全相等,则意味着行业因素对服务质量有影响在做假设检验时每个行业看作是一个总体,因此我们可以简单概括为:方差分析主要用来对方差分析主要用来对多个总体均值是否相等多个总体均值是否相等作出假设检验作出假设检验典型的应用实例:1.不同影院节目宣传方式(如海报和报纸广告)对票房有何影响?影院老板为了知道答案,每次仅用一种方式宣传一段时期,就可以获得样本数据进行方差分析2.两种营销手段单独作用或共同作用分别对目标变量有何影响?例如,一位果酱生产商认为,商标名称和销售途径有重要影响,于是他对三个不同的商标名称在两种不同销售途径下进行测试3.对同一个年级的几个班级用不同的教学方法,调查教学效果相关术语因因素素(因因子子):在方差分析中,所要检验的对象称为因素或因子例子中的“行业”水水平平:因素中的不同表现称为水平例子中的零售业、旅游业、航空公司、家电制造业是“行业”因素的具体表现,即水平单因素方差分析单因素方差分析:只针对一个因素进行分析;多因素方差分析多因素方差分析:同时针对多个因素进行分析1 1)每个总体(因素的各个水平)的相应变量服从正态分布。

      也就是说,对于因素的每个水平,其观测值是来自正态总体的简单随机样本,上例中每个行业的投诉次数应服从正态分布2 2)所有总体的方差相等2也就是说,各组观测数据来自相同方差的正态总体上例中4个行业被投诉次数的方差相同3 3)不同观察值相互独立每个样本点的取值不影响其他样本点的取值)上例中,每个企业被投诉的次数与其他企业被投诉的次数是相互独立的方差分析的三个基本假定问题的一般提法设因素有r个水平,每个水平的均值分别为 ,要检验r个水平(即为r个总体)的均值是否相等,提出如下假设:与原来两两总体的假设检验方法相比,方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,因此增加了分析的可靠性上例中如果用一般的假设检验方法,需要两两组合作6次检验我们画出不同行业投诉次数的散点图零售业 旅游业 航空 家电制造业80604020 0投诉次数行业 图中的折线是由投诉次数的均值连接而成的从图中可以看出不同行业投诉次数是有显著 差异的,而且即使在同一个行业,不同企业的投诉次数也明显不同这表明行业与被投诉次数有关系,因为如果行业与被投诉次数之间如果没有关系,不同行业被投诉次数的均值应该差不多相同。

      但是,仅仅从散点图上还不能提供充分的证据证明不同行业被投诉次数之间有显著差异,因为也许这种差异是由于抽样的随机性所造成的因此需要通过对数据误差来源进行分析来判断不同总体的均值是否相等,进而分析某一个因素对实验结果是否有影响因此进行方差分析时,需要考察数据误差的来源首先,我们注意到同一行业(同一总体)下,样本的观测值是不同的因为企业是随机抽取的,因此他们之间的差异可以看成是由随机因素的影响造成的,或者说是由抽样的随机性造成的,我们称之为随机误差其次,在不同的行业(不同的总体)下,各个观测值也是不同的这种差异除了抽样的随机性造成的,也可能是由于行业因素本身造成的,由不同行业所形成的误差称之为系统误差数据的误差用平方和表示衡量因素的同一水平下(同一总体)下样本数据的误差,称为是组内误差例如,零售业所抽取的7家企业被投诉次数之间的误差衡量因素的不同水平(不同总体)下样本之间的误差,称为组间误差例如,零售业、旅游业、航空业、家电制造业之间被投诉次数之间的。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.