电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

PCA降维度实验报告

10页
  • 卖家[上传人]:汽***
  • 文档编号:485248280
  • 上传时间:2022-07-21
  • 文档格式:DOCX
  • 文档大小:122.26KB
  • / 10 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、PCA降维题 目(22) PCA成 员2014年6月1日摘要为了提高统计模式识别的正确识别率,人们通常需要采集数量巨大的数据特 征,使得原始空间或输入空间的维数可能高达几千维或万维。如果直接在输入空 间上进行分类器训练,就可能带来两个棘手的问题:(1)很多在低维空间具有良 好性能的分类算法在计算上变得不可行;(2)在训练样本容量一定的前提下,特 征维数的增加将使得样本统计特性的估计变得更加困难,从而降低分类器的推广 能力或泛化能力,呈现所谓的“过学习”或“过训练”的现象。要避免出现“过 学习”的情况,用于统计分类器训练的训练样本个数必须随着维数的增长而呈指 数增长,从而造成人们所说的“维数灾难”。这一问题可以通过降维来解决。因 为高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消 除冗余,减少被处理数据的数量,同时还能保持数据的特征完整性,本次实验使 用 26 维度的语音参数 MFCC 验证 PCA 降维算法。关键字:降维、PCA、MFCC1. 算法分析1.1 PCA 简介PCA 的目标是为了发现这种特征之间的线性关系,检测出这些线性关系,并 且去除这线性关系。PCA

      2、称为主成分分析或者主元分析。是一种数据分析的降维 方法,一般常用于图像处理,它可以从多元事物中解析出主要影响因素,揭示事 物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。 一类事物的特征会很多,而每个特征也有很高的维数。但有些维数之间有很大的 相似性,相同的维数难以区分特性,所以 PCA 的目标是为了发现这种特性维度 之间的线性关系,检测出这些线性关系,并且去除这线性关系。1.2 PCA 算法设XI、X2:,Xp为原始变量,Fl、F2,Fm为m个主成分因子F a X + a X +. + a X1 11 1 21 2p 1 p其使方差Var(Fl)越大,表示F1包含的信息越多,故称F1为第一主成分。F a X + a X +. + a X1 11 112 21 ppF a X + a X +. + a X2 2112222 p pF a X + a X +. + a Xmm11m 2 2mp p(1) Fi 与 Fj 互不相关,Cov(Fi, Fj) = 0(2) F1是Xl,X2,,Xp的一切线性组合中方差最大的,,即Fm是与F1, F2,,Fm-1都不相关的

      3、Xl,X2,,XP的所有线性组合中方差最大者。 Fl,F2,,Fm(mWp)为构造的新变量指标,即原变量指标的第一、第二、 第 m 个主成分。1.3 PCA降维步骤(1)计算原变量协方差矩阵、工(s )1 n_ij pxP _i, j = 1,2,ps = y (x - X.)(x - x.)j n 1 ki i j k=1(2)求出工的特征值 及相应的正交化单位特征向量为的前m个较大的特征值12m0,就是前m个主成分对应的方差,对应的单位特征向量 就是原来变量在主成分Fi上的载荷系数(数学上可以证 明),则原变量的第i个主成分Fi为:F = aTXi i i主成分的方差(信息)贡献率用来反映信息量的大小,为:(3)选择主成分最终要选择几个主成分,即F1,F2,Fm中m的确定是通过方差累计贡献区九G (m) = i=1 率G(m)来确定Y九kk=1当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m就 是抽取的前m个主成分。2. 实验过程2.1实验环境MATLAB 2014a+windows 8 操作系统MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的

      4、高级技术计算语言和交互式环境。除了矩阵运算、绘制函数/数据图像等常用功能外, MATLAB还可以用来创建用户界面及与调用其它语言(包括C,C+和FORTRAN) 编写的程序。而2014a是第一个支持中文的MATLAB版本。Windows 8是由微软公司于2012年10月26日正式推出的操作系统。系统 独特的 metro 开始界面和触控式交互系统,旨在让人们的日常电脑操作更加简单 和快捷,为人们提供高效易行的工作环境。其支持来自Intel、AMD的芯片架构, 被应用于个人电脑和平板电脑上。该系统具有更好的续航能力,且启动速度更快、 占用内存更少,并兼容 Windows 7所支持的软件和硬件。2.2 实验步骤1. 打开 MATLAB 2014a,点击_,将MATLAB的工作文件夹定位到mfcc.mat所在目录下,如下图:命令行窗口 *宙込J. C: Users Jackeven De&lctop data当前文件夹窖称bank-data.arff i_jj bank-new.arFf i i mfcc.mat图 2-12. 双击mfcc.mat,将数据加载到工作区。3. 在命令行窗口输入命

      5、令: coeff, score, latent, tsquared = pca(mfcc); 并回车, 得到MATLAB自带的pca算法运行后的数据,如下图:工作区命令仙口j| coeffri latent:二 mfcc二 scorej-| tsquared疽2&x26 double2&)fT double11 1887x26 do.Z1887x26 do.fl 1887x1 dotj load(J mfcc. matJ ) coeffj acorej lai:ent, tsquared = pea1 mfcc.1 ;图 2-24. 在命令行窗口输入命令: rate = cumsum(latent)./sum(latent); 并回车,得到特征值的累计贡献率,如下图:5. 根据贡献率分析,需要保持 95%以上的特征,所以选择前 21 个特征向量。在 命令行窗口输入命令:tranMatrix = coeff(:,l:21);并回车,得到主成分变换矩 阵,则从原来的 26 维空间降到 21 维空间。6. 在命令行窗口输入命令: mfcc_result=bsxfun(minus,mfcc,m

      6、ean(mfcc,l)*tranMatrix;并回车,得至U降维 结果。选中工作区mfcc_result,点击右键,选择“另存为”保存在mfcc.mat 同一文件夹下,命名为mfcc_result.mat,如下图:工柞区 p 变量-容称1mfc: c_resultcoeff26x26 doublelatent26x1 doublemfccU 1887x26 domfcc_r&sult11188Zx21 do,rate26x1 doublescore17 S8Zx26 do.tra n M26x2 / dcmhietsq u a red1 887x 1 dou.FR 11iaS7x2l double12345159.320524.7182-6.40464.22GQ-0.4877256.694733.89863.0973-3.30954.5375361.525533.2386-4.4212-0.517&6.3767458.065336.96382.4012-0.7021-1.0022551.7526.465-5.5334-3.76720.66676&8.706334.8022-10.329

      7、5-123318-0.71417&4.774133.7058-10.1349-1.27352,加鬼C366.733728.1325-9.13471.80646.3870当前文件夹971,87&132,&aa3-8.0790-O.53O11.9211窖称生10&4.703 629.1310-0.8056-3.33S37.7309ujf banlc-data.arff11&6.151818.3875-2.7751-7.&41&2.9612為 banknew.arff H mfcc.matH mfcc_resultmat load (J mfcc. irLat) coeffj score latent tsquared 二 pca(m.fcc); rale 二 cumsuni (latent ) / sum (latent); tranMatris 二 coeff (: j 1:21); mfcc_result = mfcc*tranMatria: A图 2-43. 实验分析3.1 MATLAB 的 PCA 函数分析coeff, score, latent, tsquared = pca(X

      8、) 为 MATLAB 自带的函数,其各个变量代表 的意义如下:X:为要输入的n维原始数据。coeff:是X矩阵所对应的协方差阵V的所有特征向量组成的矩阵,即变换矩 阵或称投影矩阵,每列对应一个特征值的特征向量,列的排列顺序是按特征值 的大小递减排序。score:也就是说原X矩阵在主成分空间的表示。它是对原始数据进行的分析, 进而在新的坐标系下获得的数据,并将这n维数据按贡献率由大到小排列。latent:是一维列向量,是X所对应的协方差矩阵的特征值向量,每一个数据 是对应 score 里相应维的贡献率,因为数据有 n 维所以列向量有 n 个数据,由 大到小排列。tsquared:是表示对每个样本点Hotelling的T方统计量。3.2 实验代码行分析coeff, score, latent, tsquared = pca(mfcc):通过 MATLAB 自带的函数,得到 mfcc 数据的 MATLAB pca 函数分析结 果。rate = cumsum(latent)./sum(latent): 计算特征值的累计贡献率,算出降维后的空间所能表示原空间的程度。tranMatrix = coeff(:,1:21): 根据得到的累计贡献率,分析需要保留的维度数,因为只需要能表示原空间 95%以上的特性,就可以保证数据完整性。通过查看 rate 的结果,前 21 个特征 值就可以表示原空间 95%的特性,同时原空间所有的特征向量组成的矩阵为 coeff,所以保留coeff的前21个列向量。mfcc_result=bsxfun(minus,mfcc,mean(mfcc,1)*tranMatrix: score 为原空间在主成分空间的表示,但是进行了维数据按贡献率,其计算表达式为 score=bsxfun(minus,mfcc,mean(mfcc,l)*coeff。由于 soeff 的特征维度数 也是经过排序的,

      《PCA降维度实验报告》由会员汽***分享,可在线阅读,更多相关《PCA降维度实验报告》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    监控施工 信息化课堂中的合作学习结业作业七年级语文 发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.