电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

判别分析建模

37页
  • 卖家[上传人]:suns****4568
  • 文档编号:88916310
  • 上传时间:2019-05-13
  • 文档格式:PPT
  • 文档大小:590KB
  • / 37 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、统计与应用数学学院,STATISTICS & APPLIED MATHEMATICS,判别分析建模方法,李柏年,目 录,一,二,三,四,五,马氏距离判别分析,BAYES判别分析,贴近度判别分析,DNA序列的处理方法,判别分析的误差估计,六,建模实例分析,一,马氏距离判别分析,1.马氏距离:马氏距离是由印度统计学家马哈拉诺比斯(PC Mahalanobis)提出的,由于马氏距离具有统计意义,在距离判别分析时经常应用马氏距离.,(1) 同一总体的两个向量之间的马氏距离,其中 为总体协方差矩阵.,(2) 一个向量到一个总体的马氏距离,MATLAB中有一个命令: Mahal-计算马氏平方距离 请同学们利用 help 学习这个命令,G=1,2,4;4,5,6; mahal(G,G),(3) 两个总体之间的马氏距离,设有两个总体G1,G2,两个总体的均值向量分别为 1, 2协方差矩阵相等,皆为,则两个总体之间的马氏距离为,通常,在判别分析时不采用欧氏距离的原因在于,该距离与量纲有关.,2. 两个总体的马氏距离判别,(1). 两个总体协方差矩阵相等,由于实际问题中只能得到两个样本的协方差矩阵S1,S

      2、2,因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵S ?,其中n1,n2分别为两个样本的容量.,判别步骤:, 计算A、B两类的均值向量与协方差阵;,ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B), 计算总体的协方差矩阵,其中n1,n2分别为两个样本的容量., 计算未知样本x到A,B两类马氏平方距离之差 d=(x-ma)S-1(x-ma)- (x-mb)S-1(x-mb), 若d0,则x属于B类,例1.现测得6只Apf和9只Af蠓虫的触长,翅长数据 Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) Af:(1.24,1.72), (1.36,1.74), (1.38,1.64), (1.38,1.82), (1.38,1.90), (1.40,1.70), (1.48,1.82),(1.54,1.82), (1.56,2.08),若两类蠓虫协方差矩阵相等,试判别以下的三个蠓虫属于哪一类?,(1.24,1.8),(1.28,1.84),

      3、(1.4,2.04),图1 Apf与Af蠓虫分布的散点图,解:,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;,af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,x= 1.24,1.8;1.28,1.84; 1.4,2.04;,故三个蠓虫均属Apf.,m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);,S=(5*s1+8*s2)/13;,D =-4.3279 -2.7137 -3.9604,输入:Y是要判别的 样本点,通常是矩阵 X是已知总体的样本,通常是矩阵 输出:d是Y的每个行向量到总体X的马氏距离 的平方,是一个列向量(m行),两个总体的协方差矩阵不等时,有如下判别方法,(2) 两个总体协方差矩阵不相等,例2.对例1若两总体协方差矩阵不等,试判别,解:,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1

      4、.26,2.;1.28,2;1.30,1.96;,af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,x= 1.24,1.8;1.28,1.84; 1.4,2.04;,d=mahal(x,Apf)-mahal(x,Af),若d0,则x属于Af;若d0,则x属于Apf.,Ans: d =1.7611 3.8812 3.6468,故三个蠓虫均属Af.,从例1和例2,发现两个总体的协方差矩阵是否相等,得到的结论可能不同,因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等?,对于例1,应用检验程序如下:,n1=6;n2=9;p=2;s=(5*s1+8*s2)/13; Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1), Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2),ans: Q01 = 2.5784, Q02 = 0.7418,对

      5、,查自由度为3的卡方分布,得到临界值为:7.815,(命令为chi2inv(0.95,3),由于 Q017.815,Q027.815,故认为两总体协方差矩阵相同。例1的那种解法更合理?,贝叶斯(Bayes)判别,一,马氏距离判别分析,二,贝叶斯(Bayes)判别,二,贝叶斯公式是一个我们熟知的公式,贝叶斯判别的准则:后验概率最大准则,两个总体的Bayes判别法则为:,两个正态总体的Bayes判别,(1)两个总体协方差矩阵相等的情形,设两总体的协方差矩阵相等为,概率密度函数为:,上式两边取自然对数得,p1f1p2f2 lnp1-0.5d2(x,G1) lnp2-0.5d2(x,G2) ,其中d2(x,Gj)为x到总体Gj(j=1,2) 的马氏距离平方,例3. 用贝叶斯判别蠓虫的步骤,(1) 判别总体的协方差矩阵是否相等,(2) 总体是否服从正态分布,(4) 利用公式编程计算,首先对每个指标进行一元正态分布的检验,若有一个指标不服从正态分布,则总体不服从正态分布;若每个指标都服从一元正态分布,且各指标不相关则总体服从正态分布。,(3) 利用按比例分配方法估计两个总体的先验概率,解:,apf

      6、=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96;,af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,x= 1.24,1.8;1.28,1.84; 1.4,2.04;,p1=6/(6+9)=0.4; p2=9/(6+9)=0.6;,for i=1:3, d(i,:)=log(0.4)-0.5*(x(i,:)-m1)*inv(S)* (x(i,:)-m1)- (log(0.6)-0.5*(x(i,:)-m2)*inv(S)* (x(i,:)-m2); end,m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af);,S=(5*s1+8*s2)/13;,由于d = 1.7585 0.9514 1.5747 全部大于零,即p1f1p2f2,所以待判的三个蠓虫均属于APF,三,贴近度判别分析,三,(1) 建立模糊集合,(2) 计算判别样本对两类总体的贴近

      7、度 T(x,G1),T(x,G2),(3) 若T(x,G1)T(x,G2),则x属于G1,该方法留给同学练习,三,四,1. 回代误判与交叉误判率估计,(1) 回代误判率估计,设G1,G2为两个总体,X1,X2,Xm和Y1,Y2,Yn是分别来自G1,G2的训练样本,以全体训练样本作为m+n个新样品,逐个代入已建立的判别准则中判别其归属,这个过程称为回判。若属于G1的样品被误判为属于G2的个数为N1个,属于G2的样品被误判为属于G1的个数为N2个,则误判率估计为: p=(N1+N2)/(m+n),(2)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其余的m+n1个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率。, 从总体为G1的训练样本开始,剔除其中一个样品,剩余的m1个样品与G2中的全部样品建立判别函数;, 用建立的判别函数对剔除的样品进行判别;, 重复步骤,直到G1中的全部样品依次被删除,又进行判别,其误判的样品个数记为m12, 对G2的样品重复步骤,直到G2中的全部样品依次被删除又进行判别,其误判的样品个数

      8、记为n21,(2)交叉误判率估计,apf=1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96; af=1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08;,for i=1:6 B=apf(1:i-1,:) ;apf(i+1:6,:); %剔除apf的i行后剩余样本 end,for i=1:6 B=apf(1:i-1,:) ;apf(i+1:6,:) %剔除apfi行后剩余样本 end,两者区别是什么?,于是交叉误判率估计为:,通常,马氏距离判别与贴近度判别使用回代误判与交叉误判率进行估计。,2. 平均误判概率估计,通常,贝叶斯判别使用平均误判概率进行判别误差估计。,平均误判概率的计算公式,p*=p1p(2|1)+p2p(1|2),其中 分别表示第1(2)类误判为第二(1)类的概率.最终可得:,作业:对于蠓虫判别分别计算回代误判、交叉误判以及平均误判概率.,五,aggcacggaaaaacgggaat

      9、aacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg,DNA序列就是由四种碱基对a,c,t,g构成的字符串,对DNA序列的处理,就是要将字符串转化为有用的数据,通常有以下方法:,1. 读取每个碱基对所占的百分比,2. 读取各种三联体所占的百分比,在MATLAB生物工具箱中有很多有用的命令:,Bases = basecount(seq),其中seq是一个DNA序列,放在单引号内,输出是各碱基对 的个数,例如seq=aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg; Bases = basecount(seq),Bases = A: 33 C: 19 G: 44 T: 15,Bases.A,Bases.C,Bases.G,Bases.T/sum(Bases.A,Bases.C,Bases.G,Bases.T),ans = 0.2973 0.1712 0.3964 0.1351,对于多个序列读取问题,参见基于MATLAB的数学实验第三章,2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排成的长约30亿的序列,其中没有“断句”也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”是21世纪最重要的任务之一。在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成的看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课

      《判别分析建模》由会员suns****4568分享,可在线阅读,更多相关《判别分析建模》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.