发音的3D可视化研究
第一章绪论
本研究的目的是构建一个可以产生同步语音动画的发音可视化三维虚拟发音人系统。所谓发音可视化即指可将发音过程中更多发音器官的运动展示在听者面前。这种可视化发音人系统不仅能产生发音过程中同步的面部表观变化,而且可以将发音过程中口腔内发声器官的运动同步展现出来,三维发音可视化合成在很多方面有着重要的应用价值。例如,由于在人机交互与影视娱乐领域里,口腔内部发音器官在说话时的运动通常不可见,且用于合成其运动的数量难以通过摄像头的拍摄采集到,因此虚拟人的口腔内部发音器官运动合成在许多可视娱乐中被忽略,或是以似是而非的发音器官形状及运动代替?但是忽略口腔内发音器官的运动模拟会大大降低虚拟人的真实度。在声学与语音学研究领域,完整且遇真的发音器官模型及运动将有助于语音学研究者了解声道中每个发音器官如何产生与声音同步的形变和运动?在听觉辅助与发音教学领域,视觉信息可以提高后天患上听觉障碍的人对语音的判断和识别的能力。因此可视化发音模拟能够为他们提供进行语音识别训练的视觉辅助。用于发声教学的可视化发音系统同时也可为第二语言学习者提供了语言学习辅助。
......
第二章发音可视化研究综述
2.1发音器官与发音可视化
在X光扫描中,组织结构间的密度和厚度的差异造成了成像过程中被吸收的X射线不同,同时造成了X光射线存在量的差异。如骨头或是其他密度大的组织会吸收大SX光射线,因此这些结构在图像中呈白色;而X光射线会轻松穿过密度较小的软组织,因此在图像中这些组织区域呈深色或黑色。由于一些组织在X光中的成像效果不好,所根据观察的区域特征的需要,可以有选择的让实验者在对应部位涂上领液。X光扫描的最大缺点在于长时间暴露于X光射线下会对被测者的健忘造成伤害,这个缺点造成X光实验在使用非常谨慎,一非检査病情概要,大多数实验中不建议使用X光作为数据采集手段。较之X光扫描,超声波技术更为安全。超声波采策实验时,需在对应皮肤表面涂上超声耦合剂,通过超声波探头产生超声波进入人体内,由传感器检测追踪来自于不同区域返回的超声波中进行成像。由于超声波实验不会像X光扫描一样对人体有害的辐射,因此对于实验者而言较为安全?同时超声波成像技术可以用于实时采集发音器官的运动过程?其块点在于超声波成A会受到骨质部分,例如在采集舌头运动时,超声波探头下并产生超声波进入口腔,此时舌尖运动由于受到下额骨的阻挡而无法在图像中显示出来,,从而超声波实验数据通常会减少舌尖部分的运动信息?
2.2发音器官建模与运动模拟
语音的产生是发音器官运动的结果,发音器官的运动可以改变声带音经过的五个共振腔(喉腔、咽腔、日腔、唇腔和?腔)的形状和大小,从而最终影响发音。实际上发音器官的运动是由许多复杂的肌肉控制实现的。通过对相应肌肉施加一定的力使之拉伸或收缩。对于微小的肌肉形变而言.通常肌肉运动发生的长度变化与力呈线性关系。然而对于整个发音器官的运动而言,其与肌肉运动之间是一种复杂的非线性映射关系,除此之外发音系统的模拟会涉及大量的状态变量,如何确定这些状态变量及定义并实现发音器官的运动是发音器官运动模拟所关注的。前为止研究人员所使用的方法主要为:通过统计分析对发音数据进行分析获得与一些基本动作相关的变里,这些基本动作相关变量通常被称为自由度。整个系统最终的运动实际上是由这些自由度控制得到,具体来说每个自由度控制了相应的基本动作,这些基本动作的线性组合近似实现了整个发音器官的相应运动。发音器官的具体建模及运动模拟方法可以分为以下三种:基于参数模型的运动模拟方法、基于统计模型的运动模拟方法以及基于生理模型的运动模拟方法。
第三章口腔内发音器官建模与运动模拟方法....33
3.1引言...333.2发音器官数据的获取与处理...34
3.3舌头的建模与运动模拟...37
第四章发音器官运动合成准确性评估方法...53
4.1引言...53
4.2基于轮廓比较的发音器官运动准确性评估...54
4.3实验数据采集与整理...57
第五章头部的表观建模与发音可视化...67
5.1引言...67
5.2三维头部建模...69
5.3唇部建模与运动...70
第六章可视化发音系统设计与实验
6.1引言
同时视觉信息同样对语音的表达起到重要作用。2007年,Liu等人通过研充视觉信息对于101位母语为英语的人进行英语学习过程中所化的贡献进行观察证明了通过在兰维虚拟发音人发音过程中加入可见的发音器官运动对于发音人的语意表达有着积极作用。该实验分三种情况对发音教学效果进行分析:只有音频的情况,真人的视听语音教学以及包括了可视的发音器官运动的虚拟发音人教学。最终结果表明,三种方法对于学生的语言学习都有促进作用。然而,视听语音教学和教学的效果明显优于只有音频的发音教学。由此可以证明将发音运动信息加入到三维虚拟发音人中可以促进该虚拟发音人的语音表达能为。6.2NDIwave设备与数据采集
除上述结果之外,图6.9给出了三种发音过程中口腔内的碰挂结果?为了更好的观察碰挂,结果中将上额的右半部分忽略,并显示出舌头右半部分与被忽略的上预间的碰挂结果。其中被绿色点覆盖的区域即为碰挂发生的区域。由于在EMA采集实验中采用相应音节与元音/a/组成的发音片段作为语料进行发音录制,例如/bi-a-bi-bi-b/,/la-a-la-la-1/,/位-a-fa-位-C。因此在图6.9的结果中会出现舌向后收缩伴随/a/音的运动,如图6.9(a)的第三张。结果中绿色点的数量会随着舌头与上额或下额的接触面积増加而増加。例如图6.9(b)中第二、三两图的结果所示,为了准确发出音,舌头前部会贴住上额,此时绿点集中在舌头的前半部分。而当舌头伴随下额向下运动且自身后移时,舌头前部的碰挂消失并且在舌背靠后处出现碰撞,如图6.9(C)中第三、四两图所示。....
第七章总结与展望
可视化发音合成研究作为可视化语音处理的一部分逐渐成为人机交互领域的研究热点。其目的育在为有发音陣碍的人提供发音学习辅助,同时发音器官可视化模型可帮助医疗人员进行可视化的发音障碍诊断和术后效果预測等。本文研究目的是建立一个可以产生准确声音以及同步动画的二维可视化虚拟发音人。本文主要工作及贡献总结如下;在发音器官建模方面,本文根据发音器官是否可形变的特征采用了非可形变发音器官建模和可形变发音器官建模两种方法。非可形变发音器官包括牙齿、下额、硬膀等,这些发音器官在发音过程中几乎不产生局部形变。根据核磁共振数据分别构建出这堅非可形成发音器官的二维表面网格摸型。不同于非可形变发音器官建模方法,可形变发音器官的建模陈了通过研究共振数据构建出表面网格形状之外,还包括对该表面网格进行四面体化以及网建模操作。该网膜型根据质点、弹力及外为的特性及相互间的物理关系完成形状变化。
...
参考文献(略)
本文编号:198711
本文链接:https://www.wllwen.com/wenshubaike/caipu/198711.html