好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

模式识别-贝叶斯统计-iris数据集.docx

16页
  • 卖家[上传人]:工****
  • 文档编号:379318486
  • 上传时间:2023-09-16
  • 文档格式:DOCX
  • 文档大小:110.51KB
  • / 16 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 精选优质文档-----倾情为你奉上IRIS数据集下基于最小错误率和最小 风险的贝叶斯决策的实验与分析贺翔硕51011. 问题描述1.1 Iris数据集Iris数据集包含3类4维样本,分别标为1, 2, 3其中, 每类样本数目为50, 且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度, 萼片宽度, 花瓣长度和花瓣宽度1.2要求假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类2. 原理描述2.1贝叶斯公式已知共有类别,统计分布为正态分布,已知先验概率及条件概率密度函数,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率贝叶斯公式为因此给定一个未知类别的数据样本,贝叶斯分类法将预测属于具有最高后验概率的类故此问题的数学描述为:多元正态概率模型下的贝叶斯分类2.2参数估计其中,条件概率密度函数为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为式中,为n维向量; 为n维均值向量; 为n维协方差矩阵; 是的逆矩阵; 是的行列式。

      大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟为类的均值向量2.3先验概率设数据集样本有个属性,因此可用一个维列向量来表示同时假定有个类如果类的先验概率未知,则可以假定这些类是等概率的,即,且其中,是类中的训练样本数,而是训练样本总数2.4贝叶斯决策2.4.1最小错误判别准则,似然比形式:其中,为似然比,为似然比阈值2.4.2最小风险判别准则:对观测值条件下,各状态后验概率求加权和的方式,表示风险如下:其中,为将第j类判为第i类的损失若判对i=j,则取负值或零值,表示没有损失;若判对ij,则取正值,数值大小表示损失多少对得到的M个类型的风险值进行比较,得到使条件风险最小的类别,判别X属于该类别3. 实验过程实验环境:MATLAB R2014a实验策略:三类数据两两分类,考虑以下几种可能性,A. 取几组数据(数量可变)?B.怎么选组(取法可变)?C.改变先验概率等...3.1最小错误判别准则:以“对第2类、第3类鸢尾花数据分类”为例,(1) 准备第2类、第3类数据集,共100个样本,每个样本包含4维特征,(2) 读入训练样本,d=4;c=3;N=50;D=load('Iris_data_12.txt');data=zeros(100,d);G1=zeros(50,d);G2=zeros(50,d);for i=1:1:4 data(:,i)=D(:,i+1);end%分组数量和取法在这个步骤实现for i=1:1:N G1(i,:)=data(i,:); G2(i,:)=data(i+N,:);enddisp(G1);disp(G2);(3) 读入训计算各组的均值向量和协方差矩阵,即正态分布的两个重要参数均值和方差,miu1=mean(G1,1)miu2=mean(G2,1)sigma1=zeros(d,d);sigma2=zeros(d,d);for i=1:1:N sigma1=sigma1+(G1(i,:)-miu1)'*(G1(i,:)-miu1); sigma2=sigma2+(G2(i,:)-miu2)'*(G2(i,:)-miu2);Endsigma1=sigma1/Nsigma2=sigma2/N(4) 已经估计出三类数据的统计特征。

      首先使用最小错误判别准则进行分类,实验中采用对数形式计算比较三个值的大小,哪个最大,就可判断X属于哪一类最后进行了分类器判据结果的验证要将分类结果写入txt文本R=zeros(100,2);fid=fopen('classifier_result_23.txt','wt');for i=1:1:100 R(i,1)=-1/2*(data(i,:)-miu1)*inv(sigma1)*((data(i,:)-miu1)')-1/2*log(det(sigma1)); R(i,2)=-1/2*(data(i,:)-miu2)*inv(sigma2)*((data(i,:)-miu2)')-1/2*log(det(sigma2)); switch (compare(R(i,1),R(i,2))) case R(i,1) fprintf(fid,'第%-2d个样本属于第1类\n',i); case R(i,2) fprintf(fid,'第%-2d个样本属于第2类\n',i); end endfclose(fid);(5) 其中比较函数为,function max=compare(a,b)max=a;if max

      设计出风险参数矩阵L,该数据可根据实际损失的情况需要进行修改将X代入得到三个数值,哪个最小,即为风险最小,便属于该类型,R=zeros(100,2);fid=fopen('classifier_result_23.txt','wt');%三个类型的先验函数相等hw1=log(1/3);hw2=log(1/3);hw3=log(1/3);%设计风险参数矩阵,可根据损失多少进行改变L=[0,1,1; 1,0,1.3;1.02,1,0];for i=1:1:150 %先计算先验概率% hxw1=-1/2*(data(i,:)-miu1)*inv(sigma1)*((data(i,:)-miu1)')-1/2*log(det(sigma1)); hxw2=-1/2*(data(i,:)-miu2)*inv(sigma2)*((data(i,:)-miu2)')-1/2*log(det(sigma2));%再计算含有风险因子的后验概率% R(i,1)=L(1,1)*(hxw1+hw1)+L(1,2)*(hxw2+hw2)+L(1,3)*(hxw3+hw3); R(i,2)=L(2,1)*(hxw1+hw1)+L(2,2)*(hxw2+hw2)+L(2,3)*(hxw3+hw3); R(i,3)=L(3,1)*(hxw1+hw1)+L(3,2)*(hxw2+hw2)+L(3,3)*(hxw3+hw3); switch (compare3_2(R(i,1),R(i,2),R(i,3))) case R(i,1) fprintf(fid,'第%-2d个样本属于第1类\n',i); case R(i,2) fprintf(fid,'第%-2d个样本属于第2类\n',i); endend fclose(fid);(2)最小风险判别准则有着自己相应的比较函数function max=compare(a,b,)max=a;if max>b max=b;end4. 实验结果与分析4.1最小错误判别准则:专心---专注---专业第1 个样本属于第2类第2 个样本属于第2类第3 个样本属于第2类第4 个样本属于第2类第5 个样本属于第2类第6 个样本属于第2类第7 个样本属于第2类第8 个样本属于第2类第9 个样本属于第2类第10个样本属于第2类第11个样本属于第2类第12个样本属于第2类第13个样本属于第2类第14个样本属于第2类第15个样本属于第2类第16个样本属于第2类第17个样本属于第2类第18个样本属于第2类第19个样本属于第2类第20个样本属于第2类第21个样本属于第3类第22个样本属于第2类第23个样本属于第2类第24个样本属于第2类第25个样本属于第2类第26个样本属于第2类第27个样本属于第2类第28个样本属于第2类第29个样本属于第2类第30个样本属于第2类第31个样本属于第2类第32个样本属于第2类第33个样本属于第2类第34个样本属于第3类第35个样本属于第2类第36个样本属于第2类第37个样本属于第2类第38个样本属于第2类第39个样本属于第2类第40个样本属于第2类第41个样本属于第2类第42个样本属于第2类第43个样本属于第2类第44个样本属于第2类第45个样本属于第2类第46个样本属于第2类第47个样本属于第2类第48个样本属于第2类第49个样本属于第2类第50个样本属于第2类第51个样本属于第3类第52个样本属于第3类第53个样本属于第3类第54个样本属于第3类第55个样本属于第3类第56个样本属于第3类第57个样本属于第3类第58个样本属于第3类第59个样本属于第3类第60个样本属于第3类第61个样本属于第3类第62个样本属于第3类第63个样本属于第3类第64个样本属于第3类第65个样本属于第3类第66个样本属于第3类第67个样本属于第3类第68个样本属于第3类第69个样本属于第3类第70个样本属于第3类第71个样本属于第3类第72个样本属于第3类第73个样本属于第3类第74个样本属于第3类第75个样本属于第3类第76个样本属于第3类第77个样本属于第3类第78个样本属于第3类第79个样本属于第3类第80个样本属于第3类第81个样本属于第3类第82个样本属于第3类第83个样本属于第3类第84个样本属于第2类第85个样本属于第3类第86个样本属于第3类第87个样本属于第3类第88个样本属于第3类第89个样本属于第3类第90个样本属于第3类第91个样本属于第3类第92个样本属于第3类第93个样本属于第3类第94个样本属于第3类第95个样本属于第3类第96个样本属于第3类第97个样本属于第3类第98个样本属于第3类第99个样本属于第3类第100个样本属于第3类第1类中没有出现判决错误,第2、3类中出现了个别的错误,分类正确率较高。

      要想提高正确率,可以选取更多的样本进行训练在实际应用中,先验概率的确定也是比较重要的,会在一定程度上影响结果4.2最小风险判别准则:根据需要改变风险因子矩阵L,当判错第j类为第i类损失较大时,设计取较大的值从4.1最小错误判别准则的实验中可以看出:有2个第2类数据判为第3类,1个第3类数据判为第2类,因此将略增大一点,使损失变大,以减少这样的错误因此设计风险因子矩阵,得到如下结果。

      点击阅读更多内容
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.