电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

声纹识别原理、技术及应用

78页
  • 卖家[上传人]:suns****4568
  • 文档编号:88919814
  • 上传时间:2019-05-13
  • 文档格式:PDF
  • 文档大小:2.91MB
  • / 78 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • 1、声纹识别原理、技术及应用 洪青阳副教授洪青阳副教授 厦门大学信息科学与技术学院厦门大学信息科学与技术学院 E-mail: 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 生物识别技术 当今信息社会中,在国家安全、金融、司法等 社会各个领域均需要个人身份验证。 生物特征识别(Biometrics Authentification) 技术是通过计算机与光学、声学、生物传感器 和生物统计学原理等高科技手段密切结合,利 用人体固有的生理特性(如指纹、人脸、虹膜、 声音等)来进行个人身份的鉴定。 生物特征识别技术比传统的身份鉴定方法更具 安全、保密和方便性,且具有不易遗忘、防伪 性能好、不易伪造或被盗、随身“携带”和随 时随地可用等优点。 生物识别技术 图图1 各类认证技术比较各类认证技术比较 生物识别技术 你是谁 你有什么 你知道什么 生物识别技术生物识别技术 U盾盾/密保卡等密保卡等 文本密码文本密码 生物识别技术市场 机密机密 6 错误接受率错误接受率 错误拒绝率错误拒绝率 容易实用性容

      2、易实用性 处理速度处理速度/ /人人 指纹识别指纹识别 很低 较低 好 2s-5s 掌纹识别掌纹识别 低 5% 使用困难 5s-10s 人脸识别人脸识别 低 接受 宣称说话人模型 对比 是XX的 声音吗? 分类方式二 按说话内容分类 文本无关(Text-Independent) 不限定说什么文本 语种无关(Language-Independent) 语种相关(Language-Dependent) 文本相关(Text-Dependent) 要求说特定的文本(与训练阶段一致,或现场提示) 必定是语种相关的 性能评价标准 对于说话人辨认系统,其性能的评价标准主要是 正确识别率。 对于说话人确认(SV)系统,其最重要的两个指标 是错误拒绝率(FRR)与错误接受率(FAR),前者是 拒绝真实的说话人,又称“拒真率”,后者是接 受冒认者而造成的错误,又称“认假率”,两者 均与阈值的设定相关。 等错率(EER):FRR与FAR相等。 DET曲线图 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 声

      3、纹识别基本原理 特征提取过程 MFCC参数计算过程参数计算过程 分帧预加重加窗FFT MEL滤波器logDCT 语音信号 MFCC 声纹建模方法 类型类型 主要算法主要算法 文本相关文本相关 SCHMM(半连续隐马尔科夫模型) GMM-UBM 文本无关文本无关 GMM-UBM GMM-SVM(支持向量机) GMM-UBM-LFA i-vector/PLDA 文本提示文本提示 HMM(自适应算法MLLR/MAP) GMM-UBM GMM-UBM说话人确认系统 经典方法(GMM-UBM) 说话人需要建立自己的模型时,就可以通过MAP自适应 UBM来得到个性特征,即修正后的参数,从而得到自己的 GMM。 高斯混合模型(GMM) GMM本质上是一种多维概率密度函数本质上是一种多维概率密度函数 M 阶阶GMM的概率密度的概率密度函数如下:函数如下: M 阶阶GMM是用是用M个单高斯分布的线性组合来描述。个单高斯分布的线性组合来描述。 Dim 1 Dim 2 Model ( | )px MM ii ixP i cixPxP 11 ),|()|,()|( M i i c 1 1其中其中 2 )( 1

      4、 )( exp 2/1 2/ )2( 1 ),|( i x i T i x i K ixP Parameters i i Dim 1 Dim 2 ( )p x Nicolas Malyska, Sanjeev Mohindra, Karen Lauro, Douglas Reynolds, and Jeremy Kepner 高斯混合模型(GMM) ci UBM UBM通用背景模型通用背景模型 UBM也是一个也是一个GMM,只是这个,只是这个GMM需要用大量的需要用大量的 不同说话人的语音数据经过训练来表示说话不同说话人的语音数据经过训练来表示说话 人无关的人无关的 特征分布,这种特征是大多数说话人的共性特征。特征分布,这种特征是大多数说话人的共性特征。 UBM采用比较大的高斯混合数采用比较大的高斯混合数(M阶阶) NIST评测:评测:2048 mixtures 实网应用:实网应用:512 mixtures 手机应用:手机应用:64128mixtures GMM优缺点 GMMGMM优点优点: 概率统计模型,通过大量训练语音数据集的统 计分布进行描述,可较好地刻画目标话者不同 情况下的特

      5、点,具有良好的鲁棒性。 同信道效果很好,已可实用。 GMMGMM缺点缺点: 有限的数据不一定能充分代表说话人的真实特 征分布;只考虑某一类的模型参数和本类训练 数据之间的相似程度,而没有考虑与其他类别 之间的区分性。 跨信道性能急剧下降! 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 基于GMM的文本相关声纹识别 基于GMM的文本相关声纹识别 固定口令固定口令(09) 采用采用Znorm得分归一化得分归一化 EER3% 技术已经成熟可商用。技术已经成熟可商用。 文本相关文本相关0909口令口令 文本相关声纹识别的应用 电话银行 账户交易 各类账户 密码重设 司法矫正 智能终端 隐私保护 文本相关 应用设计及案例(1) 声纹识别的应用设计声纹识别的应用设计 数据安全性 前向兼容能力 操作点设置 模型库备份及恢复 交互流程 应用设计及案例(2) 应用实例应用实例 司法社区矫正中的应用 司法社区矫正,是指将社区矫正对象置于社区内,由专门的国家机关负责并组织社会力量对其 采取监督管理、教育、

      6、帮助措施,矫正其犯罪心理和行为恶习,促进其顺利回归社会的非监禁 刑罚执行活动。 声纹识别主要用来解决其“人机分离”的难题。 智能移动终端上的应用 SIVI声纹锁是一款安卓(Android)操作系统上的智能手机应用,用于保护手机的上的应用软 件。 SIVI声纹锁 SIVI声纹锁 文本无关声纹识别及应用 4 生物识别技术 1 声纹识别基本原理 2 文本相关声纹识别及应用 3 文本提示声纹识别及应用 5 总结及展望 6 主要内容 研究热点 技术难题:跨信道、噪声 实验室理想条件实验室理想条件 实际应用场合(跨信道、噪声背景)实际应用场合(跨信道、噪声背景) 训练阶段训练阶段 识别阶段识别阶段 跨信道因素跨信道因素 类型类型 采集设备采集设备 座式麦克风、头戴式麦克风、计算机内置麦克风、 录音笔、手机、固定电话 传输信道传输信道 移动传输信道:GSM、CDMA2000、WCDMA、 TD-SCDMA、LTE等 固定电话传输信道:IP、PSTN等 表表1 1 语音采集设备类型和传输信道类型语音采集设备类型和传输信道类型 跨信道 解决办法 主要方法主要方法 特征域特征域 倒谱均值减(CMS)、倒谱

      7、方差归一化(CMN)、 RASTA滤波、特征弯折(Feature Warping)等 模型域模型域 支持向量机(SVM) 有害因子映射(NAP) 潜在因子分析(LFA),又称本征信道 i-Vector/PLDA 迁移学习(Transfer Learning) 得分域得分域 Znorm用在训练阶段 Tnorm用在测试阶段 SVMSVM的核心思想的核心思想:分类间隔越大,则推广能 力(泛化能力)越好。 SVM(1) 线性可分 SVM(2) 线性可分 凸二次规划:可行域为凸集,且目标函数又 是w的二次函数。(规划=寻找最优解) 定理:凸二次规划有唯一的全局最优解。 SVM(3) 核函数 线性不可分线性不可分 线性可分线性可分(曲线上下曲线上下) 红线在曲线上方红线在曲线上方 黑线在曲线下方黑线在曲线下方 黑线在曲线下方黑线在曲线下方 SVM表达式: SVM(4) 核函数 核函数:使低维空间线性不可分的数据在高维 空间线性可分线性可分或近似线性可分近似线性可分。 常用核函数: SVM(5) 核函数 GSV生成 Gaussian Supervector(GSV)的获取过程的获取过程 提取语音特征

      8、说话人模型 高斯超向量 GSV 通用背景模型 语音 MAP GSV训练过程 特征矢量到超 矢量的映射 信道补偿 特征矢量到超 矢量的映射 信道补偿 特征矢量到超 矢量的映射 信道补偿 . SVM训练 目标说话人目标说话人 超向量超向量 (+1) 背景模型背景模型 超向量超向量 (-1) 特征矢量到超 矢量的映射 信道补偿 . . . 目标说话人目标说话人 训练语音训练语音 背景模型背景模型 训练语音训练语音 超平面超平面 X X XX X X GSV训练训练(包含包含NAP信道补偿信道补偿) GMM-NAP-SVM-Tnorm系统 实验数据 以NIST评测中2006年的男性数据作为测试集,以SRE04的数据作为UBM 的开发集,以SRE08年的数据作为有害因子映射和潜在因子分析的训 练集和T-norm的开发集,同样也作为SVM负例的数据。 测试集来源于SRE06的core-core对,有两种类型,由表2给出:一种 是同信道训练测试对1conv4w-1conv4w,另一种是跨信道测试对 1conv4w-1convmic。跨信道测试对中,训练数据来自电话信道,而测 试数据来自麦克风。 训练

      9、-测试环境 模型数 正例测试次数 负例测试次数 1conv4w-1conv4w 351 1595 24945 1conv4w-1convmic 351 1159 9398 表表2 SRE06训练测试集训练测试集 GMM-SVM的EER 训练测试对/系统 GMM-SVM GMM-SVM-Tnorm GMM-SVM-Tnorm-NAP 1conv4w-1conv4w 8% 7% 6.5% 1conv4w-1convmic 10.2% 9.8% 7.8% SVM优缺点 SVMSVM优点优点: 区分性模型,只着眼于两类数据的边界描述,不 注重某类数据内部的分布,具有良好的区分性。 高斯超向量GSV比较采用点积,运算速度快,适合 于大范围的声纹鉴别(1:N)任务。 SVMSVM缺点缺点: 对于文本无关的说话人确认,采用SVM模型时,需 要较长的语音,因此我们将面临着特征矢量样本 数量大、目标话者和冒认话者训练样本数极不平 衡等一系列问题。 对短语音(10s以内)效果不好! LFA(潜在因子分析) LFA分解式:mspk=mubm+Ux(h)+Vy(s) spk=Vy(s) channel=Ux(h) U为信道空间载荷矩阵,V为话者空间载荷矩阵。均需要大 量的语音来训练得到:V可以由UBM的协方差矩阵来间接求 得;因此训练一个好的训练一个好的U U成为成为LFALFA的关键的关键。 训练U对数据的要求:有大量的不同话者,每个话者尽可 能的覆盖多种信道下的语音,以便更加完整的刻画信道空 间。U的训练过程是计算零阶、一阶和二阶统计量以及EM 迭代过程。 GMM-UBM-LFA系统 实验结果(EER) 训练测试对 UBM-GMM LFA 1conv4w-1conv4w 10.3% 10% 1conv4w-1convmic 15.2% 10% LFA对对1conv4w-1conv4w提升幅度不明显,而对提升幅度不明显,而对 跨信道测试集跨信道测试集1c

      《声纹识别原理、技术及应用》由会员suns****4568分享,可在线阅读,更多相关《声纹识别原理、技术及应用》请在金锄头文库上搜索。

      点击阅读更多内容
    最新标签
    发车时刻表 长途客运 入党志愿书填写模板精品 庆祝建党101周年多体裁诗歌朗诵素材汇编10篇唯一微庆祝 智能家居系统本科论文 心得感悟 雁楠中学 20230513224122 2022 公安主题党日 部编版四年级第三单元综合性学习课件 机关事务中心2022年全面依法治区工作总结及来年工作安排 入党积极分子自我推荐 世界水日ppt 关于构建更高水平的全民健身公共服务体系的意见 空气单元分析 哈里德课件 2022年乡村振兴驻村工作计划 空气教材分析 五年级下册科学教材分析 退役军人事务局季度工作总结 集装箱房合同 2021年财务报表 2022年继续教育公需课 2022年公需课 2022年日历每月一张 名词性从句在写作中的应用 局域网技术与局域网组建 施工网格 薪资体系 运维实施方案 硫酸安全技术 柔韧训练 既有居住建筑节能改造技术规程 建筑工地疫情防控 大型工程技术风险 磷酸二氢钾 2022年小学三年级语文下册教学总结例文 少儿美术-小花 2022年环保倡议书模板六篇 2022年监理辞职报告精选 2022年畅想未来记叙文精品 企业信息化建设与管理课程实验指导书范本 草房子读后感-第1篇 小数乘整数教学PPT课件人教版五年级数学上册 2022年教师个人工作计划范本-工作计划 国学小名士经典诵读电视大赛观后感诵读经典传承美德 医疗质量管理制度 2 2022年小学体育教师学期工作总结 2022年家长会心得体会集合15篇
    关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
    手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
    ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.