好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

模式识别第3章概率密度估计.ppt

29页
  • 卖家[上传人]:夏**
  • 文档编号:590906393
  • 上传时间:2024-09-16
  • 文档格式:PPT
  • 文档大小:200.50KB
  • / 29 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 模式识别:概率密度函数的估计第3章 概率密度函       数的估计 目录•引言引言•参数估计参数估计•非参数估计非参数估计  引言MAXMAXg g1 1...g g2 2g gc c...x1x2xna(x)训练训练样本集样本集1.1.先验概率先验概率2.2.类条件概类条件概 率分布率分布决策规则:决策规则: 判别函数判别函数 决策面方程决策面方程分类器功能结构贝叶斯分类器: 先验概率•先验概率的估计:先验概率的估计:–用训练数据中各类出用训练数据中各类出现的频率估计现的频率估计–经验经验 类条件概率分布估计的方法•离散离散•连续连续基因表达谱列举所有情况的概率概率密度估计 •混杂:离散、连续 类条件概率密度估计的方法•类条件概率密度估计的两种主要方法:类条件概率密度估计的两种主要方法:–参数估计:概率密度函数的形式已知,而参数估计:概率密度函数的形式已知,而参数未知,通过训练数据来估计参数未知,通过训练数据来估计•最大似然估计最大似然估计–非参数估计:密度函数的形式未知,利用非参数估计:密度函数的形式未知,利用训练数据直接对概率密度进行估计训练数据直接对概率密度进行估计•Parzen窗法窗法•kn-近邻法近邻法 目录•引言引言•参数估计参数估计•非参数估计非参数估计 3.2.1 最大似然估计•Maximum Likelihood (ML)–极大似然原理的直观想法是:一个随机试验如极大似然原理的直观想法是:一个随机试验如有若干个可能的结果有若干个可能的结果A,,B,,C,,…。

      若在一次若在一次试验中,结果试验中,结果A 出现,则一般认为试验条件对出现,则一般认为试验条件对A 出现有利,也即出现有利,也即A 出现的概率很大出现的概率很大 –样本集可按类别分开,不同类别的密度函数的样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练参数分别用各类的样本集来训练–概率密度函数的形式已知,参数未知,为了描概率密度函数的形式已知,参数未知,为了描述概率密度函数述概率密度函数p(x|ωi)与参数与参数θθ的依赖关系,的依赖关系,用用p(x|ωi ,θ)表示 最大似然估计•似然函数:似然函数:l对数(loglarized)似然函数:l似然函数(对数似然函数)最大化:估计结果估计结果 计算方法•最大似然估计量使似然函数梯度为最大似然估计量使似然函数梯度为0 :: 一元正态分布均值和方差的估计 一元正态分布均值和方差的估计 多元正态分布参数最大似然估计 例题:•已知四个样本和三个属性构成的数据矩阵已知四个样本和三个属性构成的数据矩阵使用最大似然估计获得均值向量和协方差使用最大似然估计获得均值向量和协方差矩阵     [,1] [,2] [,3][1,]    1    5    9[2,]    2    6   10[3,]    3    7   11[4,]    4    8   12 解:cov函数计算样本协方差已知 y<-matrix(c(1,2,3,4,5,6,7,8,9,10,11,12),4,3)计算均值向量apply(y,2,mean)得到结果为  用cov(y)计算样本协方差矩阵得:        [,1]   [,2]   [,3]  •最大似然估计的协方差矩阵最大似然估计的协方差矩阵(3/4)*cov(y)     [,1] [,2] [,3] 目录•引言引言•参数估计参数估计•非参数估计非参数估计 3.3 非参数估计•非参数估计非参数估计:密度函数的形式未知,:密度函数的形式未知,也不作假设,利用训练数据直接对也不作假设,利用训练数据直接对概率密度进行估计。

      概率密度进行估计•两种主要方法:两种主要方法:•Parzen窗法窗法•kN-近邻法近邻法 基本方法•设样本集为设样本集为D={x1,,x2,,x3},每个样本,每个样本xi对对以它为中心,宽度为以它为中心,宽度为h的范围内分布的贡献的范围内分布的贡献为为a,要想估计,要想估计p(x),可以把每个样本点的,可以把每个样本点的贡献相加贡献相加近似作为这点的密度,对任意点都近似作为这点的密度,对任意点都这样做,则得到分布这样做,则得到分布p(x)当N足够大时,足够大时,将有好的估计效果将有好的估计效果 •我们也可以认为每个样本对自己所在位置我们也可以认为每个样本对自己所在位置的分布的分布贡献贡献最大,而离得越远,则最大,而离得越远,则贡献贡献越越小所以表示为在样本小所以表示为在样本xi处对分布贡献最大,处对分布贡献最大,而往两边越来越小的函数形式而往两边越来越小的函数形式 理论依据•如果有如果有N个样本个样本x1,,…,,xN是从是从p(x)的总体中独立抽取的,则的总体中独立抽取的,则N个样本中个样本中有有k个落入区域个落入区域R中的概率中的概率Pk等于二等于二项分布:项分布: •当当 时,时,Pk的值最大。

      可取的值最大可取 两种主要方法:Parzen窗法和kN-近邻法•Parzen窗法   固定体积(例如:      ),计算落入区域的样本数k•kN-近邻法  固定落入区域样本数k(例如:         ),计算落入k个样本需要的体积V 参数估计和非参数估计的使用范围•非参数估计:非参数估计:((1)样本数量)样本数量非常非常充足2)样本的分布形式未知样本的分布形式未知•参数估计:参数估计:贝叶斯贝叶斯------((1)样本数量非常充足或很充足样本数量非常充足或很充足2)样本的分布形式已知样本的分布形式已知朴素贝叶斯朴素贝叶斯------((1)样本数量非常充足、很充足或充足样本数量非常充足、很充足或充足2)样本的分布形式已知样本的分布形式已知3)属性之间近似独立属性之间近似独立 习题•类条件概率密度估计的两种主要方法类条件概率密度估计的两种主要方法_________和和_________•类条件概率密度估计的非参数估计有两种类条件概率密度估计的非参数估计有两种主要的方法主要的方法_________和和_________它们的基本原理都是基于样本对分布的们的基本原理都是基于样本对分布的_________原则。

      原则•如果有如果有N个样本,可以计算样本邻域的体积个样本,可以计算样本邻域的体积V,然后获得,然后获得V中的样本数中的样本数k,那么,那么P(x)=_________ •假设正常细胞和癌细胞的样本的类条件概率服从多元正态假设正常细胞和癌细胞的样本的类条件概率服从多元正态分布分布 ,使用最大似然估计方,使用最大似然估计方法,对概率密度的参数估计的结果为法,对概率密度的参数估计的结果为__________•证明:使用最大似然估计方法,对一元正态概率密度的参证明:使用最大似然估计方法,对一元正态概率密度的参数估计的结果如下:数估计的结果如下: 例题:•已知已知5个样本和个样本和2个属性构成的数据集中,个属性构成的数据集中,w1类有类有3个样本,个样本,w2类有两个样本如果使用贝叶斯方法设计分类器,需要类有两个样本如果使用贝叶斯方法设计分类器,需要获得各类样本的条件概率分布,现假设样本服从多元正态获得各类样本的条件概率分布,现假设样本服从多元正态分布分布 ,则只需获得分布的参,则只需获得分布的参数均值向量和协方差矩阵即可,那么采用最大似然估计获数均值向量和协方差矩阵即可,那么采用最大似然估计获得的得的w1类的类条件概率密度均值向量为类的类条件概率密度均值向量为_________,以及协以及协方差矩阵为方差矩阵为________。

      属性属性1属性属性2类别类别12W114W143W124W226W2 计算机求解:计算样本均值向量和协方差矩阵已知 y<-matrix(c(1,1,4,2,4,3),3,2)计算均值向量apply(y,2,mean)得到结果为  2 3用cov(y)*2/3计算样本协方差矩阵得:      [,1]      [,2]  。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.