
机群系统openmp研究.doc
63页分类号 TP3 密级UDC 编号中国科学院研究生院中国科学院研究生院硕士学位论文硕士学位论文新闻广播自动标注技术研究李梅茵指导教师指导教师 钱跃良钱跃良 正研级高工正研级高工 中国科学院计算技术研究所中国科学院计算技术研究所 申请学位级别申请学位级别 工学硕士工学硕士 学科专业名称学科专业名称 计算机应用技术计算机应用技术 论文提交日期论文提交日期 20072007 年年 4 4 月月 论文答辩日期论文答辩日期 20072007 年年 6 6 月月 培养单位培养单位 中国科学院计算技术研究所中国科学院计算技术研究所 学位授予单位学位授予单位 中国科学院研究生院中国科学院研究生院 答辩委员会主席答辩委员会主席 声声 明明我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意作者签名: 日期:论文版权使用授权书论文版权使用授权书本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本论文保密论文在解密后适用本授权书 )作者签名: 导师签名: 日期:I摘摘 要要新闻广播自动标注技术的研究对于建立大规模语音语料库、语音识别技术、音频检索技术的发展都有重要意义新闻广播的自动标注包括音频属性标注和文本标注两个方面在音频属性标注部分,区别于传统方法将此任务分为分段、聚类、分类三个阶段的做法,本文改变标注流程,采用音频分类、语音段切分、语音段聚类依次进行的框架,使得标注准确率大大提高音频分类步骤首先将音频流划分成非语音/男声语音/女声语音三类,非语音段直接丢弃;随后的语音段切分步骤采用一个二阶段的方法,将男声语音段和女声语音段继续切分到每段只含一个说话人;最后的语音段聚类步骤将同种声学条件的语音段(即同一个说话人的语音段)全都聚合到一起。
将分类步骤提前,不仅避免了对非语音段进行后续的无意义操作,更为分段和聚类步骤提供了良好的指导作用,使得分段步骤不会漏掉男/女声、语音/非语音切换点,也可以防止聚类步骤错误地把男声语音和女声语音聚在一起在音频属性标注部分结束后,得到若干个说话人的语音在文本标注部分,需要利用语音识别技术标注出文本为提高语音识别的准确率,先将声学模型对每个说话人进行自适应变换,然后进行语句端点检测和语音识别关键词关键词:语音标注;音频分类;语音段切分;跳变点检测;说话人聚类;说话人自适应;语音识别IIIAutomatic Annotation of Broadcast News Li Meiyin (Computer Application Technology) Directed By Qian Yueliang Keywords: Annotation of Broadcast News, Audio Classification, Speech Segmentation, Change Point Detection, Speaker Clustering, Speaker Adaptation, Speech RecognitionV目目 录录VII图目录图目录IX表目录表目录1第一章第一章 引言引言语音识别一直是非常受人关注的一个课题。
目前的语音识别技术对于实验室条件下的大词汇量连续语音识别已经能够达到很高水平,也有了一些实用化的语音识别系统,如航空订票、电信自动寻呼、语音拨号等这些主要都是语法简单、词汇量小的特定领域服务对于更广泛的实际应用,目前的语音识别技术还无法达到在更广泛的真实应用中,说话人的口音、韵律、流利度、话音传输通道、噪音大小、说话内容等情况错综复杂,严重影响识别系统性能现阶段的语音识别技术对于这些影响因素的鲁棒性和应变能力都还没有达到广泛实用化的水平新闻广播语音识别技术是近十年来国际上出现的大词汇量连续语音识别系统研究的新热点,是语音识别技术进一步走向实用化的重要过渡形式[1]本文主要探讨新闻广播的自动标注技术,其包括对新闻广播音频进行属性标注(也称声学条件标注)以及对广播语音进行语音识别1.1 研究意义研究意义研究新闻广播自动标注技术有非常重要的理论和实用价值广播新闻节目的音频中包含着各种不同声学条件和语言学特征的信号段[1]这些信号段中包含语音段和非语音段(一般是音乐) 不同说话人的口音和发音方式也都不同比如播音员是用标准普通话朗读发音,而接受采访的群众则可能是带有浓重地方口音的口语式发音就声道而言,音频流中既有播音室的高保真声道,也有采访或其他有限带宽声道。
对于语音识别系统来说,如果对于声学条件如此复杂的音频流,只采用统一的声学模型进行识别,效果可想而知是非常糟糕的加上纯音乐段等的干扰,识别率将会很低但是如果能够区分出不同的声学条件,就可以有针对性地对每一种声学条件建立一种声学模型,或者同一类声学条件共享同一套自适应变换这样可以大大提高语音识别的准确率语音识别系统的性能在现阶段在很大程度上依赖于所采用的训练语料库的好坏这是因为目前国际上主流的语音识别技术仍然是基于统计模式识别的基本理论我们知道,良好的统计模型依赖于高质量的训练语料库然而,大规模的语料标注(要标注的信息可能包括说话人信息、声道条件、文本、背景等等)是一件非常费时费力的工作如果标注的工作部分可由计算机自动完成,则可以大大节省人力物力,提高建库效率新闻广播自动标注技术在音频检索领域也有其用武之地音频检索领域也涉及到音频的分割问题而在音频检索领域,也涉及到音频分割问题,在处理比较复杂的长段中国科学院硕士学位论文──新闻广播自动标注技术研究2音频时,需要先进行长段音频的分割,然后再利用适合单体声音的方法进行检索[16]音频检索对标注的细致程度要求可能更高比如:非语音段对于语音识别完全是无用的段落,可以直接丢弃;但在音频检索领域,可能需要将非语音段细分成是小猫的叫声还是小狗的叫声。
由上可知,这项工作对于建立大规模语音语料库、语音识别技术以及音频检索技术的发展都是非常有用的基于以上的动机,开展对新闻广播自动标注技术的研究1.2 研究现状研究现状在国际上新闻广播识别技术的研究起源于美国国防部高级研究计划局 DARPA 所资助的人类语言系统 HLS 项目中的语音技术部分早在 1995 年,NIST 就组织了第一次广播电视新闻的语音识别评测在测试研讨会上,与会者都认为,对于广播这种混合类型的语料进行语音识别必然需要先把语音段按照声学条件进行分类而这个任务本身比较独立,与语音识别技术并无太大关系这种共识后来演变成两种形式的评测:未分类评测 UE( Unpartitioned Evaluation )和分类评测 PE( Partitioned Evaluation )未分类评测的发展促进了对声学条件标注技术的研究和推广[15]在分类测试协议中,声学条件的分类按照口音、发声方式、保真度和背景等情况划分为 7 类如表 1 所示表 1 声学条件分类( F-Condition[9] )类别口音发声方式保真度背景基本播音 F0母语朗读式高纯净口语播音 F1母语口语式高纯净有限带宽 F2母语任意方式中/低纯净含背景音乐 F3母语任意方式高音乐退化声学环境 F4母语任意方式高语音或其它噪声非母语说话人 F5非母语朗读式高纯净所有上述类别的组合FX————在目前的研究工作中,一般都将区分各种不同声学条件的任务分为分段和聚类两个步骤,而为了标注出到底是哪种声学条件,则会在聚类步骤之后再加上分类步骤。
也就是说,一般将标注声学条件的工作分为分段、聚类和分类三个步骤通过对音频进行声学分析并检测声音的转变点可以实现音频的分割,也就是分段声第一章 引言3学条件跳变点是声学特征突然跳变的地方为了检测这些跳变点,比较主流的做法是提取合适的特征后,采用基于距离的方法或者贝叶斯信息准则( Bayesian Information Criterion, 简称 BIC ) 等方法这两种方法比较普遍,但二者各有优劣基于距离的方法对改变比较敏感,容易产生误报点,且需要阈值,算法不够鲁棒;贝叶斯信息准则方法则正好相反,其不需阈值,但时间复杂度非常高,而且对短段的处理效果不够理想很多人对这两种方法提出了改进算法针对基于距离的方法不够鲁棒的弱点,有人提出了阈值自适应方法,也有人致力于寻找更好的距离测度针对 BIC 方法时间复杂度高的弱点,很多人提出了降低时间复杂度的方法,如文献[10]中就提出了一种用霍特林的概率分布来代替计算公式的方法将本来需要求三个全矩阵协方差的2TBIC公式修改为只需要求一个,大大提高了算法的速度分段之后得到的音频段每一段都是同质的,即每一段都只含一种声学条件,很可能有某两段或者某几段的声学条件是相同的。
将这些同质的音频段聚合在一起有助于后续步骤对同质的语音段进行相同的处理常用的聚类方法包括高斯混合模型( Gaussian Mixture Model,简称 GMM ),基于距离的方法,BIC 等等聚类基本上可以看作分段的逆过程,将分段方法反其道而行之即可进行聚类GMM 和 BIC 方法都有速度慢的弊端,基于距离的方法则不够鲁棒得到若干类同质的音频段之后,还需要标注出这类音频是语音还是音乐,是语音的话是男性还是女性,甚至进一步,这段语音的说话人是谁呢?这就要求对这些音频段进行分类音频分类的方法很多,高斯混合模型( Gaussian Mixture Model,简称 GMM )、人工神经网络( Artificial Neural Network,简称 ANN)、支持向量机(Support Vector Machine,简称 SVM)等都是很好的分类方法在声学条件标注结束之后,需要进行文本标注如果直接采用统一的声学模型进行语音识别,可想而知,对于如此复杂条件的语音,识别效果将会非常糟糕一般采取的方法是:对得到的若干类不同声学条件的语音段分别采用不同的声学模型,或者同一类语音段采用同一套自适应变换。
这样,可以使得语音识别的效果大大提高自适应技术是语音识别技术中非常重要的一个技术,它是通过少量数据对模型参数进行调整,从而更好的应对差异,提高系统性能自适应技术可以分为两大家族:基于变换的自适应算法和贝叶斯方法[6]基于变换的自适应算法的优点在于它的简单和有效,常用的最大似然线性回归MLLR(Maximum Likelihood Linear Regression)就属于这一类然而这类方法对于数据稀疏的情况性能很差在[6]中,作者采用了一种 Markov Rondom Field Linear Regression(MRFLR)算法,与 MLLR 相比在数据稀疏时具有更好的性能,在有充足数据时性能也几乎相当另一种常用的方法最大后验概率 MAP(Maximum a Posterior)则是贝叶斯方法MAP 相对 MLLR 需要更多。
