
推荐朴素贝叶斯算法.ppt
14页朴素贝叶斯算法Naive Bayes1算法流程图2朴素贝叶斯算法原理01贝叶斯定理朴素贝叶斯算法流程02购买电脑实例03朴素贝叶斯算法存在的问题及应用04TableofContents内容大纲内容大纲3朴素贝叶斯算法原理• 朴素贝叶斯算法是分类算法中的一种朴素贝叶斯的思想基础是这样的:对于给定的待分类项 , 求解在此项出现的条件下各个类别 出现的概率,哪个 最大就把此待分类项归于哪个类别•通俗来说,就好比你在街上看到一个黑人,我问你你猜这个人哪里来的,你十有八九猜非洲为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础4•条件概率: 表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率其基本求解公式为:•为了得出 ,我们不加证明的给出贝叶斯定理贝叶斯分类的基础——贝叶斯定理5先验概率和后验概率•先验概率:由以往的数据分析得到的概率•后验概率:得到信息之后再重新加以修正的概率。
6朴素贝叶斯算法流程•1.设 为一个待分类项,而每个 为 的一个特征属性且特征属性之间相互独立(此处是朴素贝叶斯的假设)•2.设 为一个类别集合•3.计算 •4.如果 则 7•接下来,由于假设各个特征属性都是条件独立的,那么根据贝叶斯定理有如下推导,因为分母对于所有类别为常数,因此将分子最大化即可•即:8朴素贝叶斯分类例子数据样本用属性age, income, student 和credit rating 描述类别属性buys computer 具有两个不同值(即{yes, no})设 对应于类buys computer = “yes”,而 对应于类buys computer = “no”我们分类的未知样本为:X = (age ="<= 30", income ="medium", student =" yes", credit _ rating =" fair").91.我们需要最大化P(X | )P( ),i = 1,2。
每个类的先验概率P( )可以根据训练样本计算:P(buys_computer = yes) = 9/14 = 0.643P(buys_computer = no) = 5/14 = 0.357102.计算后验概率P(X | ), i = 1,2(假设属性独立)P(age = “<30” | buys_computer = “yes”) =0.222P(age = “<30” | buys_computer = “no”) =0.600P(income =“medium” |buys_computer =“yes”) =0.444P(income = “medium” | buys_computer =“no”) = 0.400P(student = “yes” | buys_computer =“ yes”) =0.667P(student = “yes” | buys_computer =“no”) =0.200P(credit_rating = “fair” |buys_computer = “yes”) = 0.667 P(credit_rating = “fair” |buys_computer = “no”) = 0.400•P(X | buys_computer = “yes”) = 0.222×0.444×0.667×0.667 = 0.044•P(X | buys_computer = “no”) = 0.600×0.400×0.200×0.400 = 0.01911 3. 对每个类 ,计算P(X | )P( ) P(X | buys_computer = “yes”) P(buys_computer = “yes”) = 0.044×0.643 = 0.028P(X | buys_computer = “no”) P(buys_computer = “no”) = 0.019×0.357 = 0.007•因此,对于样本X,朴素贝叶斯分类预测buys_computer =” yes”。
12朴素贝叶斯算法存在的问题及应用•朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单理论上,NBC模型与其他分类方法相比具有最小的误差率但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响•朴素贝叶斯算法目前在过滤垃圾邮件和文字分类方面得到很好的应用13。












