
3D可视化言语表达和情感模拟研究——开题报告 -.doc
7页兰州大学硕士研究生论文开题报告 所在院系 信息科学与工程学院 专 业 电子与通信工程 学生姓名 入学时间 导 师 课题名称 兰州大学研究生院制 一、 立论依据(以下各项均可加页)(包括课题的研究意义,国内外研究现状分析,附主要的参考文献语音的产生是一个极其复杂的过程,从大脑形成要表达的信息开始,经过词汇、语法等选择和组织过程,再将所形成的连续语音及其包含的发音序列传导到发音器官,而多个发音器官按照大脑的指令对发音序列中的每个发音协同运动,配合不同的速度、音调以及重音等韵律特征产生出语音,以表达大脑中要表达的信息。
这样一个复杂过程需要多个神经生理、心理、物理变化,却可以在几十个毫秒就完成,从而使人类可以自由地表达、沟通和交流同样,对语音的认知也是一个复杂而神奇的过程,从声音经过听觉系统传入大脑,到大脑对这些信号的理解至今仍有很多步骤有待深入发现和研究目前,语音识别,同样汉语中文的普通话识别,作为语音研究领域的一大比较成熟的课题,并且取得了比较可观的效果!与语音识别相对应的,语音合成是语音领域一个积极研究的课题语音包含听觉语音和视觉语音,前者指的是声音形式的语音,后者指语言表达过程中,人面部的可视的动作,主要是嘴部、舌头、牙齿以及面部表情等动作视觉语音的合成是复杂的,尤其是合成与听觉语音对应性良好的视觉语音,用来模拟出说话人表达过程中的真实状态,达到逼真的效果,就比较困难,这其中要牵涉到信号处理,模式识别,计算进图像学等人工智能等多方面的学科,是一个比较复杂的研究课题!复杂性就在于这种对应关系的映射过于复杂虚拟现实中的虚拟人物、动漫制作和游戏娱乐等领域中,都要求这些虚拟角色可以有丰富的表情至少需要表达出喜怒哀乐的情感,尤其是最近几年虚拟现实技术和人机交互的发展,迫切需要一个会说话的虚拟的人物但是由于人脸生理结构十分复杂,而人的表情,情感又变化多端,所以建立和计算人脸的物理模型十分困难,而且由于人们对人脸的外观十分敏感,要真实地模拟人脸上细微的表情变化也十分困难[1]。
逼真且实时的动画显示是计算机图形领域一个重要的研究课题[2]通过将静态的数据以一定的速率读入并显示出来,由于人眼睛的视觉暂留,来达到以静变动的目的为了满足实时显示,就需要多线程的并行工作,为了达到逼真程度,就要多人脸的生理结构进行有效的控制和显示,为此计算机图形学的研究人员做了很多这方面的研究,旨在寻找一种稳定、实时且逼真的流体模型[3-4]人类语言是非常复杂的,有听觉语音和视觉语音,并且它的产生是交互式的,通常上从一个方面进行判别和研究往往是不够的,就拿语音识别来说,以往的研究就是单独的从听觉方面进行的声学的研究早已不适合现代生活的需要,因为在复杂噪声环境下和听力有问题的人群来说,配备一些视觉上的信息,从口型,眼睛,眉毛,面部动作等信息上可以辅助人们进行更好的判断!怎样来进行更进一步的语音识别,并且建立一个视觉上的语音信息,是视觉语音是一个很值得研究的课题,一个比较有创意的想法就是在这些研究的基础上建立一个3D的说话人,来达到视听并用的效果目前世界上存在很多言语语言障碍人群,言语语言障碍也是脑卒中的一个并发症状[5],据最新数据统计,仅脑卒中一项,我国每年脑卒中新发病例约为250万患病人群的叠加效应和快速增长给社会、家庭造成巨大的经济负担和精神压力,已成为严重影响国计民生的重要公共卫生问题。
言语语言障碍的康复训练是康复医学的重要研究内容,一般需要医生、家属的协助治疗临床研究发现,视听结合的语音教学方式比单独的视觉或听觉教学效果更好,这是由于发音的动态模拟过程可刺激聋儿对内部发音器官运动轨迹的理解,并使聋儿形成发音时对发音器官位置的控制发音动作精准、面部表情丰富和带面部表情的的虚拟3D说话人头像可以作为患者康复治疗的一个非常好的辅助工具[6-9]可大大减少言语语言障碍康复训练所投入的人力物力,且提升康复效果而传统的语言康复训练一般通过教师人为产生发音动作的示例让受训者模仿这样的训练方法难以使听障儿童观察到内部发音器官(如舌头等)的准确运动针对传统训练方法的缺陷,近年来,视听结合的聋儿言语康复系统已成为国际儿童言语康复训练的发展方向随着社会经济的发展,人们对于生活质量,尤其是通信行业的提高有越来越高的要求,而言语沟通功能是人类生活的必备功能所以,虚拟现实技术的发展对于,远程会议,虚拟主持,迫切需要一个实时动态逼真的3D图像技术,这也成为当前人们生活的一大热门话题本文研究的课题提供了一个带表情、韵律和嘴部动作的连续语音的合成模型,逼真度和友好度良好,可以供患者练习使用在语音识别和语音合成方面也是一个很好的应用系统。
另外本文使用的技术和最后的成果,可以应用到电影游戏娱乐和动画的的虚拟人物上,传统的虚拟角色,通常都比较生硬,面部表情匮乏,说话口型与声音没有对应,只有简单嘴部张合动作相比较而言增加一些情感的模拟进一步达到逼真的效果视觉语音合成研究现状早期的视觉语音合成器是对主要的面部发音器官(唇、舌头、牙齿和下颚等)的轮廓做一个简单的向量图动画显示舌头和牙齿携带了重要的语音信息,但舌头和牙齿是部分可见的,这就需要有效的隐藏线移动算法,即便如此,舌头的软组织结构使得舌头的轮廓和形状非常难以描述后来提出了数据驱动的合成方法,主要是基于数字图像处理理论然而合成电视质量的全色彩动画通常需要每秒产生数百万比特的信息,因此原始的基于数字图像处理的数据驱动的方法计算成本太高需要对数据进行预处理,即特征提取过程,20世纪80年代以后就采用了统计数据处理方法:(1)MLP(多层感知),这种方法的缺陷是不够稳定,图像较小的变化会引起MLP内部表示较大的变化;(2)PCA(主成分分析),这种方法是将原始的模式空间转化到了维数更低的新空间,减少了数据量,将该方法进行延伸,可以得到多阶段PCA方法;(3)DCT(离散余弦变换),这是图像和视频处理的常用方法,只保留高能量的DCT系数,减少数据量;(4)HMM(隐马尔科夫方法),这种方法用在语音识别方法较多,将该方法进行拓展,有基于GVP-HMM(广义可变参数-隐马尔科夫)的声音到发音器官运动的逆转模型[10-11]。
视觉语音合成中一个关键的问题是头模型的建模方式早期在计算机性能低下,相关理论不大成熟的情况,采用的是基于向量图的二维面部拓扑结构再后来提出了三维线帧模型,这是一种基于光栅图的方法,用复杂多边形组成人的头结构,这种方法的难点在于时变运动控制参数的推导还有从解剖学上对头进行建模,定义好皮肤、肌肉和骨骼的描述,是时变的肌肉控制参数来改变形状模拟运动方式,然而困难的是肌肉参数推导机制很不直接,测量也非常复杂,而且肌肉特征的控制参数只有部分可见动画其实就是一帧帧的静态图片快速切换过程,也有基于强大的计算机系统,在一系列面部图片之间切换来模拟头部运动另外就是基于变形算法,通过捕捉少数的面部控制点,通过变形算法来计算整个人脸的变形点[12]三维动画技术研究现状三维动画是计算机图形领域的主要内容,是一种虚拟现实技术通常三维动画具有虚拟性、模仿性、综合性和直观性的特点[13]三维动画的应用很广泛,可以辅助教学,可以作为类人计算机代理,可以用在动画卡通电影中,还可以应用在游戏娱乐中在我国的一些动画电影制作当中,通常只考虑动画人物和场景等满足剧本要求即可,很少考虑人物的环境内在特点,在虚拟人物设计和渲染方面也远远落后于日本等一些发达国家,这样的动画难以引起观看者的兴趣。
现在我们国家也在控制人物运动和人物造型设计上做研究,这也加快了动画企业和游戏企业的发展[14-15]从三维动画角色的设计上来说,目前国内外都是以3DSMAX和Maya为主,这两款软件提供了多种建模方法,但主要还是多边形建模尽管如此,3DSMAX和Maya建模是一个很费时费力的过程无论是国内还是国外的动画电影,观者可以感受强烈的夸张效果,这是一种喜剧色彩然而需要应用在类人计算机代理和虚拟播音员的场景中,我们需要其尽量的真实性,无论是从人物构型方面还是从人物运动,言语表达时的表情和口型等与表达内容和声音的一致性,都需要与真实人物有很高的类似性[16],目前国内外还不能在这方面达到很好的效果综上所述,一种结合音视觉的带表情的连续语音3D人头像系统就可以很好的达到以上效果,不但可以用于相关研究人员系统研究,也可以应用在辅助教学和类人计算机代理中,并且对虚拟现实和3D动画行业也是一个很好的促进作用因此,本文的研究课题具有很好的应用前景和商业价值2.主要参考文献(列出作者、论文名称、期刊名称、出版年月)[1] 张青山, 陈国良. 具有真实感的三维人脸动画[J]. 软件学报, 2003, 14(3):643-650.[2] J Stam. Real-time fluid dynamics for games.[3] Stam J. Stable fluids[J]. Acm Transactions on Graphics, 2001, 1999:121--128.[4] Mcnamara A, Treuille A, Popović Z, et al. Fluid Control Using the Adjoint Method[J]. Acm Transactions on Graphics, 2004, 23(3):447-454.[5] 李泽兵, 楼惠军, 陈益铭, 孙玉春.脑卒中后言语和语言障碍问题[J]. 现代康复. 2000(05).[6] 徐玲丽, 沈志祥. 失语症的康复治疗[J]. 中国组织研究与临床康复,2007,11(17).[8] 夏芝兰. 脑损害所致语言障碍的康复治疗[J]. 中国康复, 1997,12(2):72~73.[8] Xie X, Liu X, Wang L, et al. Generalized Variable Parameter HMMs Based Acoustic-to-articulatory Inversion[C]// ISCA Interspeech2015. 2015.[9] Zhang L, Renals S. Acoustic-Articulatory Modeling With the Trajectory HMM[J]. IEEE Signal Processing Letters, 2008, 15:245-248.[10] 崔明, 许志闻. 基于加权DFFD算法和渐变动画思想的人脸动画系统[J]. Journal of Jilin University:science Edition, 2012, 50(2):288-292.[11] 郝强. 三维动画技术教育发展现状及应对策略研究[J]. 文艺生活·文艺理论, 2013(5):246-246.[12] 王敬浩. 游戏动画中三维人物模型制作的研究[J]. 科技致富向导, 2013(9):50-50.[13] W. T. Reeves. Particle Systems. A Technique for Modeling a。
