好文档就是一把金锄头!
欢迎来到金锄头文库![会员中心]
电子文档交易市场
安卓APP | ios版本
电子文档交易市场
安卓APP | ios版本

6语音信号处理说话人识别.ppt

39页
  • 卖家[上传人]:桔****
  • 文档编号:571068176
  • 上传时间:2024-08-08
  • 文档格式:PPT
  • 文档大小:570KB
  • / 39 举报 版权申诉 马上下载
  • 文本预览
  • 下载提示
  • 常见问题
    • Ⅴ说话人识别 Ⅴ说话人识别(1)说话人识别(说话人识别(Speaker Recognition):): 又称为话者识别,是指通过对说话人语音信又称为话者识别,是指通过对说话人语音信号的分析处理,自动确认说话人是否在所记录号的分析处理,自动确认说话人是否在所记录的话者集合中,以及进一步确认说话人是谁的话者集合中,以及进一步确认说话人是谁 为什么能识别说话人?为什么能识别说话人?人与人间在发音器官上存在着差异,例如在声人与人间在发音器官上存在着差异,例如在声带和声管形状上的差异;带和声管形状上的差异;讲话时发音习惯的差异,包括方言、土语、抑讲话时发音习惯的差异,包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等;扬顿挫、常用词汇及讲话上的怪僻语等;说话人特点以复杂的形式反映在其语音波形中说话人特点以复杂的形式反映在其语音波形中使得每个人的语音都带有强烈的个人色彩使得每个人的语音都带有强烈的个人色彩 Ⅴ说话人识别(2)说话人识别的分类说话人识别的分类 按其识别任务分按其识别任务分:Ø说话人辨认(说话人辨认(Speaker Identification )) 判断某段语音是若干人中的哪一个人所说,是判断某段语音是若干人中的哪一个人所说,是““多选多选一一””问题问题。

      又可分为开集和闭集两种又可分为开集和闭集两种Ø说话人确认(说话人确认(Speaker Verification )) 确定某段语音是否是指定的某个人所说,是确定某段语音是否是指定的某个人所说,是““一对一一对一””的判别问题的判别问题 Ø说话人分割和标注(说话人分割和标注(Speaker Segmentation and Labeling)) 将多个说话人的数据分割标定为独立的部分将多个说话人的数据分割标定为独立的部分 Ⅴ说话人识别(3) Ⅴ说话人识别(4) Ⅴ说话人识别(5) 根据识别对象的不同,还可将说话人识别分为根据识别对象的不同,还可将说话人识别分为三类:三类:Ø与文本有关与文本有关(Text–Dependent)Ø与文本无关与文本无关(Text-Independent) Ø文本提示型文本提示型(Text-Prompted) Ⅴ说话人识别(6)说话人识别技术有着广阔的应用前景说话人识别技术有着广阔的应用前景Ø信道罪犯缉拿、法庭中录音信息的信道罪犯缉拿、法庭中录音信息的身份确认、语音跟踪,为用户提供防盗身份确认、语音跟踪,为用户提供防盗门开启功能等等门开启功能等等。

      Ø通信领域,说话人识别技术可以应用于诸如通信领域,说话人识别技术可以应用于诸如声音拨号、声音拨号、银行、购物、数据库访银行、购物、数据库访问、信息服务、语音问、信息服务、语音e-mail、、安全控制、计安全控制、计算机远程登陆等领域算机远程登陆等领域Ø呼叫中心应用上,说话人识别技术同样可以呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面提供更加个性化的人机交互界面 Ⅴ说话人识别(7)说话人识别的基本原理说话人识别的基本原理 Ⅴ说话人识别(8)几个问题几个问题1))语语音音信信号号的的预预处处理理和和特特征征提提取取即即提提取取能能够够有效表征说话人特征的参数有效表征说话人特征的参数2))说话人模型的建立和模型参数的训练说话人模型的建立和模型参数的训练3))测试语音与测试语音与说话人模型的匹配计算说话人模型的匹配计算4))识识别别与与判判决决策策略略即即根根据据匹匹配配计计算算的的结结果果,,采采用用某某种种判判决决准准则则判判定定说说话话人人是是否否是是所所声声称称的的说说话话人人((说说话话人人确确认认))或或说说话话人人到到底底是是谁谁((说说话人辨认)话人辨认)。

      Ⅴ说话人识别(9)性能的评价性能的评价Ø评价说话人识别系统性能的指标有很多,例如评价说话人识别系统性能的指标有很多,例如系统的识别率,训练时间的长短和训练语料的系统的识别率,训练时间的长短和训练语料的数量、识别响应时间、话者集规模、说话方式数量、识别响应时间、话者集规模、说话方式要求以及价格等要求以及价格等 Ø比如说,声控门锁比如说,声控门锁识别响应时间要求很严格,识别响应时间要求很严格,但可获得充足的训练语料司法鉴定,对识别但可获得充足的训练语料司法鉴定,对识别响应时间的要求可以相对放松,但训练数据的响应时间的要求可以相对放松,但训练数据的充足性无法保证充足性无法保证 Ø说话人辨认系统常用的是识别率,以及错误率说话人辨认系统常用的是识别率,以及错误率(误识率)误识率) Ⅴ说话人识别(10) 说话人确认系统,则常用两个错误率来表示:说话人确认系统,则常用两个错误率来表示:错误拒识率错误拒识率(False rejection,,简称简称FR),,错误错误接收率接收率(False acceptance,,简称简称FA) Ⅴ说话人识别(11) 说话人识别的特征提取说话人识别的特征提取Ø在理想情况下,这些特征应该具有如下特点:在理想情况下,这些特征应该具有如下特点:ü具有很高的区别说话人的能力,能充分体现说话人个体具有很高的区别说话人的能力,能充分体现说话人个体间的差异,而在说话人本身语音发生变化时保持相对稳间的差异,而在说话人本身语音发生变化时保持相对稳定;定;ü在输入语音受到传输通道和噪声的影响时,能够具有较在输入语音受到传输通道和噪声的影响时,能够具有较好的顽健性(好的顽健性(robustness););ü易于提取和计算,且在特征的各维参数之间应有良好的易于提取和计算,且在特征的各维参数之间应有良好的独立性,在保持识别率的情况下,有尽可能少的特征维独立性,在保持识别率的情况下,有尽可能少的特征维数;数;ü不易被模仿。

      不易被模仿 Ⅴ说话人识别(12) 特征参数的评价方法特征参数的评价方法 Ø评价特征对识别的贡献有两种方法:评价特征对识别的贡献有两种方法: ü通过定义通过定义F比和比和D比,来分别表征单个参数和多维特征比,来分别表征单个参数和多维特征矢量在特征空间中的区分能力,以衡量特征参数的有矢量在特征空间中的区分能力,以衡量特征参数的有效性;效性; ü在识别过程中通过增减分量的方法,考察每个特征分在识别过程中通过增减分量的方法,考察每个特征分量的贡献量的贡献 Ⅴ说话人识别(13) ØF比和比和D比比ü如果对同一人的不同次发音,其分布比较集中;而不如果对同一人的不同次发音,其分布比较集中;而不同说话人的发音分布相距较远,则所选择的这组特征同说话人的发音分布相距较远,则所选择的这组特征参数就能够有效地描述说话人的个性特征参数就能够有效地描述说话人的个性特征ü对单个参数而言,可以取两种分布的方差之比(称为对单个参数而言,可以取两种分布的方差之比(称为F比)来作为有效性的度量准则比)来作为有效性的度量准则 ü它反映了不同说话人的分散程度与各说话人自身的分它反映了不同说话人的分散程度与各说话人自身的分散程度之间的对比关系。

      散程度之间的对比关系 Ⅴ说话人识别(14) üF比比设:设:为第为第i个说话人第个说话人第t次发音得到的特征参数;次发音得到的特征参数; 为对不同说话人求平均;为对不同说话人求平均; 为对说话人的不同次语音求平均;为对说话人的不同次语音求平均; 为对第为对第i个说话人的特征均值的估值;个说话人的特征均值的估值; 为对所有说话人均值为对所有说话人均值 总均值的估值总均值的估值 采用采用F比较大的特征一般会得到较好的性能比较大的特征一般会得到较好的性能 Ⅴ说话人识别(15) ØD比比 üF比没有考虑到特征矢量中各维参数之间的相关性比没有考虑到特征矢量中各维参数之间的相关性ü把把F比的概念推广到多维,人们定义了比的概念推广到多维,人们定义了D比,用以衡比,用以衡量多维特征矢量在说话人识别系统中的有效性量多维特征矢量在说话人识别系统中的有效性ü定义两个协方差矩阵,即说话人间的协方差矩阵定义两个协方差矩阵,即说话人间的协方差矩阵 和说话人内协方差矩阵和说话人内协方差矩阵 ,, 定义对多维特征矢量的可分性测度定义对多维特征矢量的可分性测度——散度散度 ,即,即D比为,比为, D比考虑了特征矢量中各维参量之间的相关性。

      比考虑了特征矢量中各维参量之间的相关性 Ⅴ说话人识别(16) Ø增减分量法增减分量法 ü在给定识别方法后,考察特征矢量中各分量对识别率在给定识别方法后,考察特征矢量中各分量对识别率的影响,可通过在特征矢量中增加或去掉它,考核识的影响,可通过在特征矢量中增加或去掉它,考核识别率的变化来确定它的贡献别率的变化来确定它的贡献ü一种使用平均贡献函数来表征特征参数相对重要性的一种使用平均贡献函数来表征特征参数相对重要性的方法:方法: 已知一已知一K维特征矢量维特征矢量 可以用下式来定义其第可以用下式来定义其第i维分量的平均贡献维分量的平均贡献 ,, 其中其中 是以第是以第i到第到第j维特征参数为特征时的识别率维特征参数为特征时的识别率 Ⅴ说话人识别(17) 说话人识别系统中常用的特征说话人识别系统中常用的特征 Ø基于声道的基于声道的LPCC 特征Ø基于临界带的基于临界带的MFCC特征 Ø基音轮廓特征基音轮廓特征Ø考虑语音动态特性的一阶和二阶差分倒谱特征考虑语音动态特性的一阶和二阶差分倒谱特征Ø其它基于听觉模型的特征等其它基于听觉模型的特征等 Ⅴ说话人识别(18) 与文本有关的识别方法与文本有关的识别方法Ø识别时可以同时使用语音信号中的语义特征和识别时可以同时使用语音信号中的语义特征和说话人特征,所以即使利用比较短的语料,也说话人特征,所以即使利用比较短的语料,也能从中提取出较稳定的说话人特征。

      能从中提取出较稳定的说话人特征Ø与文本有关的说话人识别方法与语音识别的方与文本有关的说话人识别方法与语音识别的方法十分相似,最常用的也是基于法十分相似,最常用的也是基于DTW的方法的方法和基于和基于HMM方法 Ⅴ说话人识别(19) 与文本无关的识别方法与文本无关的识别方法 常常用用的的有有::基基于于VQ的的方方法法;;基基于于HMM的的方方法法;;基基于于人人工工神神经经网网络络的的方方法法,,以以及及基基于于语语音音识识别别的方法等的方法等Ø基于基于VQ的方法的方法 把把每每个个待待识识别别说说话话人人的的语语音音看看作作一一个个信信号号源源,,用用一一个个码码本本来来表表征征,,码码本本是是从从该该说说话话人人的的训训练练语音序列中提取的特征矢量聚类而成语音序列中提取的特征矢量聚类而成 对于对于N个人的系统,就需建立个人的系统,就需建立N个码本 Ⅴ说话人识别(20)识别时,先从测试语音中提取一组矢量识别时,先从测试语音中提取一组矢量判断该矢量与特征空间中的哪个码本的分布最吻合判断该矢量与特征空间中的哪个码本的分布最吻合 设设这这NN个个码码本本的的码码字字数数分分别别为为MM。

      可可以以如如下下定定义义第第i个码本的平均量化失真距离个码本的平均量化失真距离 代代表表第第i个个码码本本((对对应应第第i个说话人)中第个说话人)中第l个码字矢量个码字矢量 平平均均量量化化失失真真距距离离最最小小的的那那个个码码本本所所对对应应的的说说话话人人即为识别结果即为识别结果 Ⅴ说话人识别(21)Ø平平均均量量化化失失真真距距离离应应用用在在与与文文本本有有关关的的说说话话人人识识别任务,一般都能取得很好的效果别任务,一般都能取得很好的效果Ø但但是是当当训训练练数数据据不不充充分分,,使使得得识识别别时时出出现现测测试试矢矢量量在在训训练练词词语语中中没没有有出出现现时时,,系系统统就就会会出出现现很很大大的失真 Ø采采用用失失真真—交交叠叠测测度度((Distortion-Intersection Measure,,简简称称DIM))作作为为新新的的距距离离测测度度方方法法,,在一定程度上可克服这一缺点在一定程度上可克服这一缺点 Ⅴ说话人识别(22)ØDIM定义如下:定义如下: 其中其中 是以码字矢量是以码字矢量 为形心的聚类近似超球的半为形心的聚类近似超球的半径。

      径 是测试矢量集与第是测试矢量集与第i个码本计算失真测度时,满个码本计算失真测度时,满足上式第一个条件的测试矢量的个数,并取足上式第一个条件的测试矢量的个数,并取 表示第表示第i个说话人的个说话人的测试矢量序列与测试矢量序列与一组码本矢量在一组码本矢量在交叠空间的量化交叠空间的量化失真 对在交叠空间之对在交叠空间之外的测试矢量外的测试矢量集所占空间大集所占空间大小的惩罚项小的惩罚项 ,, Ⅴ说话人识别(23)Ø近近年年来来,,高高斯斯混混合合模模型型((Gaussian Mixture Model,,简简称称GMM))的的方方法法受受到到了了研研究究者者的的普普遍重视Ø它它的的数数学学模模型型实实质质上上对对应应于于一一个个状状态态的的连连续续HMMØ但但它它不不像像HMM那那样样通通过过状状态态转转移移概概率率约约束束声声学学特特征征类类的的时时序序变变化化,,所所以以GMM比比HMM的的计计算算量要小得多量要小得多 Ⅴ说话人识别(24)GMM本质上是一种多维概率密度函数本质上是一种多维概率密度函数M 阶阶GMM的概率密度的概率密度函数如下:函数如下: 有有M 阶阶GMM是用是用M个单高斯分布的线性组合来描述。

      个单高斯分布的线性组合来描述 Ⅴ说话人识别(25)GMM参数集参数集 协方差矩阵常取对角阵协方差矩阵常取对角阵 则则 Ⅴ说话人识别(26)为为说说话话人人建建立立GMM模模型型,,实实际际上上就就是是通通过过训训练练,,估估计计GMM模模型型的的参参数数,,常常用用的的方方法法是是最最大大似似然然的的估估计计方法方法 给定训练矢量集给定训练矢量集 ,优化的对象是:,优化的对象是: 由由于于似似然然函函数数和和参参数数集集是是很很复复杂杂的的非非线线性性函函数数关关系系,,不不易易用用通通常常办办法法找找到到极极大大值值点点,,必必须须引引入入隐隐状状态态来来参参与与计计算算,,因因此此这这也也是是一一个个对对““不不完完全全数数据据””进进行行最大似然估计的问题可采用最大似然估计的问题可采用EM算法来估计算法来估计 Ⅴ说话人识别(27)训练数据落在假定的隐状态训练数据落在假定的隐状态 的概率的概率 则重估公式:则重估公式: Ⅴ说话人识别(28) Ⅴ说话人识别(29) Ⅴ说话人识别(30)Ø 识别问题识别问题 对于有对于有N个人的说话人识别系统,其中每个个人的说话人识别系统,其中每个说话人用一个说话人用一个GMM模型来代表,记为模型来代表,记为 若若观测特征矢量序列为观测特征矢量序列为 Ⅴ说话人识别(31)有时简化为有时简化为 Ⅴ说话人识别(32) 文本提示型的识别方法文本提示型的识别方法 Ⅴ说话人识别(33) 说话人识别模型的训练方法说话人识别模型的训练方法Ø 常用的方法是高斯混合模型常用的方法是高斯混合模型-通用背景模型通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)。

      ü 通用背景模型为使用来自多名说话人的大量语音训练的高斯通用背景模型为使用来自多名说话人的大量语音训练的高斯混合模型,用来描述人类语音的共性特征混合模型,用来描述人类语音的共性特征ü 其作用在为说话人模型的训练提供人类语音共性特征的先验其作用在为说话人模型的训练提供人类语音共性特征的先验信息,同时也在说话人识别的打分过程中用于识别打分的归一信息,同时也在说话人识别的打分过程中用于识别打分的归一化处理ü 通用背景模型通常采用通用背景模型通常采用EM 算法进行训练算法进行训练 Ⅴ说话人识别(34)Ø 说话人模型说话人模型ü 采用目标说话人的训练语音从通用背景模型中利用最大后验采用目标说话人的训练语音从通用背景模型中利用最大后验概率(概率(Maximum a Postieri,,MAP)算法自适应得到算法自适应得到ü 这种训练方式的优点在于利用通用背景模型作为先验知识,这种训练方式的优点在于利用通用背景模型作为先验知识,可以在说话人训练数据较少的情况下取得比较好的训练效果可以在说话人训练数据较少的情况下取得比较好的训练效果 Ⅴ说话人识别(35)Ø 最大后验概率(最大后验概率(Maximum a Postieri,,MAP)算法自适应)算法自适应ü 它假定带估计的参数它假定带估计的参数 是有先验分布是有先验分布 的随机变量的随机变量 。

      O表示自适应数据表示自适应数据 ,根据贝叶斯准则,可以得到关于,根据贝叶斯准则,可以得到关于u的后验概的后验概率密度函数如下:率密度函数如下: ü先验概率密度函数先验概率密度函数 表示观测随机变量表示观测随机变量O之前的似然度,之前的似然度,后验概率密度后验概率密度 表示观测随机变量表示观测随机变量O之后的似然度之后的似然度 为给定参数产生的条件概率为给定参数产生的条件概率 üMAP估计通过最大化后验概率得到估计量估计通过最大化后验概率得到估计量 先验知识先验知识从自适应数据中从自适应数据中得到的知识得到的知识 Ⅴ说话人识别(36)ü在在HMM框架中,假设每个状态的观察输出概率是服从高斯框架中,假设每个状态的观察输出概率是服从高斯分布的,并对均值做相应的自适应操作,则待估参数为状分布的,并对均值做相应的自适应操作,则待估参数为状态态 i 上的均值上的均值 ,它的先验分布为,它的先验分布为 ü一般情况下,上述先验分布可以假设为如下形式:一般情况下,上述先验分布可以假设为如下形式: 其中,其中, 和和 是先验分布的均值和一个调整参数,而是先验分布的均值和一个调整参数,而 和和 为自适应前模型的均值和方差。

      为自适应前模型的均值和方差 ü这样可使用这样可使用EM算法进行参数估计,其中的算法进行参数估计,其中的Q函数定义如下:函数定义如下: 其中其中 为所有可能的状态序列的集合,为所有可能的状态序列的集合, 为为HMM的模型参数的模型参数 Ⅴ说话人识别(37)ü上述方程和正常上述方程和正常Q函数的不同点在于引入了函数的不同点在于引入了 的先验知识的先验知识 ü将该将该Q函数对函数对 求偏导,并令其为零,可以得到关于求偏导,并令其为零,可以得到关于 的估的估计公式 其中其中 , 实质是在初实质是在初始值和自始值和自适应数据适应数据的均值间的均值间线性插值线性插值 Ⅴ说话人识别(38)ü自适应数据量越大,自适应数据量越大, 值越大,自适应后的均值越值越大,自适应后的均值越接近自适应数据样本均值;接近自适应数据样本均值;ü自适应数据量越少,自适应后的均值越依赖于初始自适应数据量越少,自适应后的均值越依赖于初始均值 ü如果自适应数据无限多,那么这时的如果自适应数据无限多,那么这时的MAP估计等价估计等价于最大似然估计于最大似然估计ü在没有自适应数据的情况下,上式的结果等于初始在没有自适应数据的情况下,上式的结果等于初始值,相当于没有任何自适应操作。

      值,相当于没有任何自适应操作。

      点击阅读更多内容
      关于金锄头网 - 版权申诉 - 免责声明 - 诚邀英才 - 联系我们
      手机版 | 川公网安备 51140202000112号 | 经营许可证(蜀ICP备13022795号)
      ©2008-2016 by Sichuan Goldhoe Inc. All Rights Reserved.