好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

模式识别统计决策理论课件.ppt

64页
  • 卖家[上传人]:F****n
  • 文档编号:88124765
  • 上传时间:2019-04-19
  • 文档格式:PPT
  • 文档大小:968.50KB
  • / 64 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1,第二章 统计决策理论,2,这一章要讨论:,最小错误率贝叶斯决策 最小风险贝叶斯决策 Neyman-Pearson决策(在限定一类错误率的条件下,使另一类错误率最小的两类决策问题) 最小最大决策 序贯决策(Sequential Decision),3,关于统计学的一个笑话:,有一个从没带过小孩的统计学家,因为妻子出门勉强答应照看三个年幼好动的孩子妻子回家时,他交出一张纸条,写的是: “擦眼泪11次;系鞋带15次;给每个孩子吹玩具气球各5次,累计15次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次” 统计学真的这样呆板吗?仅仅收集数据,整理分析,累加平均…,4,,统计学以数据为研究内容,但仅仅收集数据,决不构成统计学研究的全部 统计学是面对不确定情况寻求决策、制定方法的一门科学 人力、财力、时间等的限制,只有部分或少量数据,要推断所有数据的的特征 不同于叙述统计,要推断统计 抽样、试验设计、估计、假设检验、回归分析…等推断方法,5,2.1 引言,统计理论要解决的是从数据中做出一些 推断、它为解决随机观测事件的决策过程 提供了理论基础。

      PR中的分类问题是根据识别对象特征的观测值,将其分到相应的类别中去 而统计决策理论是模式分类的主要理论和工具之一 下面我们介绍几种最常用、也是最基本的统计决策方法这些方法是以后各种模式分类方法的基础6,2.2 几种常用的决策方法,2.2.1 贝叶斯决策,问题:假定要识别的物理对象x有d个特征,x1,x2,…,xd,记作x=[ x1,x2,…,xd]T,所有的特征向量构成了d维特征空间假定这些待识别的对象来自c个类别,ωi,i=1,2,…,c,并且每个类别出现的先验概率P[ωi]和类条件概率密度p(x|ωi) ,i=1,2,…,c已知7,如果观察到一个样本 ,那么把 分到哪一类去才是合理的呢?,,,这是这一章要解决的问题下面先介绍基于 的贝叶斯决策8,一. 最小错误率贝叶斯决策,在模式分类问题中,人们希望尽量减小分类的错误 不可能不犯错误,因为样本是随机的… 我们希望所使用的分类规则,能使错误率达到最小9,以细胞识别为例: 细胞切片的显微图像经过一定的预处理后,抽取出d个特征每一细胞可用一个d维的特征向量x表示希望根据x的值分到正常类ω1或异常类ω2中去 假定可以得到Pr[ω1]、Pr[ω2] (Pr [ω1]+ Pr [ω2]=1) ,和p(x|ω1)、p(x|ω2) 。

      如果只有先验概率,那么合理的选择是把x分到Pr[ω1]、Pr[ω2]大的一类中去一般由于Pr[ω1]Pr[ω2],这样就把所有的细胞分到了正常的一类失去了意义10,如果有细胞的观测信息,那么可以改进决策的方法为了简单起见,假定x是一维的特征(如胞核的总光强度)p(x|ω1)和p(x|ω2)已知:,利用贝叶斯公式:,,11,得到的Pr[ωi|x] 称为状态(正常、异常)的后验概率上述的贝叶斯公式,通过观测到的x,把先验概率转换为后验概率这时,基于错误率最小的贝叶斯决策规则为:,,后面要证明这个决策规则是错误率最小的12,上面的贝叶斯决策规则还可以表示成以下几种形式:,若 ,则,若 ,则,13,似然比 似然函数 阈值 是假设检验,若 ,则,,则 :,4) 取 的负对数,有,14,例1:某一地区的统计资料,Pr[ω1]=0.9(正常),Pr[ω2]=0.1(异常),有一待识别细胞,其观测值为x,从类条件概率密度曲线上查出,p(x|ω1)=0.2,p(x|ω2)=0.4解:利用贝叶斯公式(2),有,∴,∴ 应把x归为ω1类,不是完全正确,但错误率最小。

      15,解:,16,上式两边取对数,再乘以-2,有,似然比检验,∴,, 构成一个判别函数17,下面证明上述基于最小错误率的贝叶斯规则是错误率最小的证明:错误率是对所有x的平均错误率Pr[e],两类时的条件错误概率为:,令t是两类的分界面,当x是一维时,即x轴上的一点18,19,要使Pr[e]是最小的,可从两个思路看:,要使 最小,使对每个x,Pr[e|x]都要最小所以取后验概率最大的假如将分界面移到t’点,∴ t应是错误率最小的分界点,相应的规则也是错误率最小20,对于多类情况,最小错误率决策规则为:,若 ,则,或若 则,21,二. 最小风险贝叶斯决策,地震预报,在实际工作中,有时仅考虑错误率最小是不够的要引入比错误率更广泛的概念—风险、损失细胞识别,22,要考虑行动的后果、行动的风险宁可…一千,也不漏掉一个 下面从决策论的观点来讨论: 采取的决定称为决策或行动,所有可能采取的行动的集合称为行动空间或决策空间A (分到哪一类),23,损失函数 表示真实状态为 ,采取行动为 时的损失这里下标m和c不同是因为除了有c种分类法外,还可能有其它的决策,如“拒绝”等,这时,m=c+1。

      假定:状态空间 决策空间,每个决策或行动都有一定的代价或损失 它是状态和决策的函数状态空间:物体或事物所有状态的集合,,24,对于给定的x,采取决策 时的条件损失或条件风险为:,对所有的x,采取决策 的风险的期望值为:,,称为平均风险或期望风险 如果在采取每一决策时,其条件风险都最小,则对所有的x作决策时,其平均(期望风险)也最小称为最小风险的贝叶斯决策25,最小风险的贝叶斯决策规则:,若 ,则采取 26,对于实际问题,最小风险的贝叶斯决策可按如下步骤进行:,根据Pr[ωj],p(x|ωj),j=1,2,…,c,以及给出的x,计算后验概率,计算条件风险,即 若 ,则采用决策 从得到的m个条件风险中,选最小的27,解:由例1的计算,有,而,例3:仍以例1中的细胞为例 ,Pr[ω1]=0.9,Pr[ω2]=0.1, p(x|ω1)=0.2,p(x|ω2)=0.4 , , , ,,28,和例1正好相反因为考虑到了损失损失函数 的确定要针对具体情况,具体领域,由专家来定∴ x被划分为异常∵,29,三. 最小错误率决策和最小风险决策间的关系,前者是后者的特例。

      如果损失函数 (不考虑“拒绝”),这样定义的损失函数称为0-1损失函数30,这时的条件风险, 即对x采取 决策时的条件错误率 所以使 的最小风险决策等价于最小 即 应最大 ∴ 在0-1损失函数下的最小风险贝叶斯决策就是最小错误率的贝叶斯决策31,四. 两类时的最小风险贝叶斯决策,对于两类问题,记损失函数,,,,,则期望风险:,,,,,,32,,上式可以写为,由于,代入上式,化为只在R1上的积分,期望风险 化为:,33,问题是选择决策规则,即确定R1(R2)从而使R 最小由于前两项不是R1的函数,最小期望风险R等价于使积分项最小即,,记 ,,,,如何使 形式的积分最小呢?,34,,为了使 最小,只要使R1是包括且仅包括使 的点就行了即:,,,即,,35,,这样,最小风险贝叶斯决策(两类时)仍然导致了似然比检验在0-1损失函数时, ,上面的公式和最小错误率贝叶斯决策相同36,2.2.2 Neyman-Pearson决策(在限定一类错误率的条件下使另一类错误率最小的两类决策问题),在两类的问题中,错误率Pr[e]为,,,,,,限定 ( 是一很小的常数),希望 尽可能地小。

      例如把异常判为正常更危险,限定这类的错误率为某一个要求的值,同时使p1(e)尽可能的小这种决策是求条件极值的问题37,采用求条件极值的拉格朗日(Lagrange)乘子法,38,,∵R1+R2=R,代入后,有,(※),39,上式分别对 和 求导,并令,有,对(※)式,为使r最小,则,应最小,被积函数应为负:,这样得出决策规则:,40,和最小错误率贝叶斯决策的形式是一样的,都是以似然比检验为基础的,但阈值不同在高维时,求解决策边界要复杂些,这时可以采用下面的方法似然比 是随机变量x的函数,也是随机变量,可以确定它的密度函数,如 这样,,和 间的一个隐含关系,41,当用解析法求 困难时,由于 是 的单调增函数,可以用试探法找到满足条件的 值用实验的方法,改变 值,可以得出 的一条曲线42,2.2.3 最小最大决策,在前面的最小错误率和最小风险决策中,都是用似然比和一个阈值相比较这个阈值是Pr[ωi]的函数因此要事先知道Pr[ωi]此时可得最小错误率或最小风险决策,当按固定的Pr[ωi]设计好分类器后,若Pr[ωi]有了变化,则可能得不到最小错误率或最小风险决策这节要解决的问题是,考虑在Pr[ωi]变化的情况下,如何使最大可能的风险最小,即在最不利的情况下争取最好的结果。

      43,由期望风险,目标是要分析R 和Pr[ω1]间的关系,利用,44,则风险,上式表明,一旦R1和R2确定,则风险R是Pr[ω1]的线性函数(下式记为(※)):,其中:,45,当Pr[ω1]固定,R1和R2按贝叶斯规则确定时,最小风险和Pr[ω1]间关系如下图:,当Pr[ω1]=0.3时,最小风险R 对应A点R1R2确定后,当Pr[ω1]变化时,风险值按直线方程(※)变化(a,a+b)可能要比预计的大得多为了防止这种情况,我们可以选择R1和R2,使得(※)式中Pr[ω1]的系数为0,使(※)式的直线与曲线在最高点C相切,且平行水平轴46,按使最小贝叶斯风险最大的 设计分类器,即要,在特殊情况下,若有 , ,则上式变为,即决策边界仍由似然比确定,但阈值的选择要满足 = 47,2.2.4 序贯决策(Sequential Decision),问题:前面讲的方法都认为d个特征同时给出,而且没获取特征时的代价但在实际问题中,特征的获取是要花费代价的这时除了错分类要产生的损失外,还要考虑获取特征时所花的代价特征多,花的代价也大另外,有时观测是顺序的,例如,机器的振动波,飞行物体的雷达波。

      有时用k d个特征所花的总代价要小特征少时,虽然错分率可能大些,但获取特征的代价小48,解决上述问题的方法是用序贯决策、序贯假设检验的方法两种情况,序贯检验(决策)的方法有很多研究下面介绍一种Wald序贯检验的方法(讨论当维数变化时,对分类器的影响):,令 表示m维的测量向量,决策规则为:,49,上面的决策规则称为SPRT(Sequential Probability Ratio Test)、或Wald序贯假设检验SPRT有如下几个性质:,以概率1终止;,中,对上面的A、B表达式, 不要求是独立和同分布的;,为了达到规定的错误率 、 ,Wald检验使维数、测量数最少50,下面我们推导A、B和 、 间的关系并分析Wald检验性质由于在SPRT中不断增加特征的维数,所以似然比的计算最好是递推的尽管SPRT不要求每个测量是独立的,但如果独立的话,则会有很大方便假定: ,这样 的计算就是递推的在不独立时,可以考虑采用适当的线性变换,如LU变换,这时不影响SPRT的方式51,两边取对数:,对数似然比假定观测到的测量来自第i类,上式中的每一项也是随机变量记它的均值和方差分别为 和 , 。

      52,由统计独立性的假定,有:,证明:利用不等式 ln x=x-1,53,∴ 的均值和方差都是m的单调增函数54,相应的性质如下图:,对ω2 有相似的性质但此时的对数似然比的均值是m的单调减函数55,下面把A、B和 、 联系起来(。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.