当前位置:主页 > 科技论文 > 软件论文 >

三维几何发音模型的构建与控制

发布时间:2019-05-22 08:32
【摘要】:基于发音机理的语音合成模型模拟语音生成的发音运动和空气动力学过程。我们尝试构建一个更加精确的发音运动模型来逼近发音器官的形态学特性,从而得到一个更好的发音合成系统。目前有两个主流的建模策略:生理模型和几何模型。本文基于中文数据库构建三维几何发音模型,与神经生理模型相比较,这一几何模型忽略复杂肌肉力的影响。因此,几何发音模型的实时性随着运算量的减少而得到提高,这使得几何发音模型适用于实时性要求比较高的应用。本文提出了一种基于MRI(磁共振成像)和CBCT(锥形束C T)构建三维几何发音模型的新方法,由于磁共振成像技术能够比较清晰地成像出声道发音器官轮廓的形状,并且磁共振成像技术对人体造成的伤害较小,因此越来越多的应用于语音合成研究。由于骨质结构不能在MRI中直接清晰地采集成像,我们采集了CBCT的数据来补充骨质结构的信息,进行上下颚的填补。通过磁共振成像技术采集得到的发音器官的数据库,对于构建出声道模型进而分析不同发音带来的声道发音器官形状的变化规律具有很大的优势。并且以其建立精确的三维声道模型,进一步对发音过程的声道可视化,对于语音教学应用和语音生成机理分析等都具有重要的意义。本文对中文磁共振数据库中一个受试者的104组发音数据进行研究,研究方法具体步骤如下:数据库及其预处理,数据标注以及三维网格建模,数据分析以及验证评价,碰撞检测以及响应。线性成分分析方法结果显示,每个发音器官可以用三个以内参数来很好地进行描述,并且参数控制集的累积贡献率高于80%。用此分析结果对各个发音器官进行重构而得到的均方根误差均小于1.0 mm。本文创新点在于提出了一种新颖的三维声道发音器官建模方法,其中我们考虑了发音器官的生理边界点,建模过程有两个主要的改进,融合不同切片的数据来提升发音器官轮廓的标注精确性以及根据发音器官的解刨结构来建立发音器官的三维网格。这样既保证了发音器官的完整性,又保留了发音器官上生理特征点的对应性。最后,本文构建了基于汉语发音数据的三维几何发音模型,这对于汉语的语音语言教学,汉语普通话的广泛推广,语音的病理纠正等应用提供了理论基础。
[Abstract]:The speech synthesis model based on pronunciation mechanism simulates the pronunciation motion and aerodynamics process of speech generation. We try to construct a more accurate pronunciation motion model to approximate the morphological characteristics of pronunciation organs, so as to obtain a better pronunciation synthesis system. At present, there are two mainstream modeling strategies: physiological model and geometric model. In this paper, a three-dimensional geometric pronunciation model is constructed based on Chinese database. Compared with the neurophysiological model, this geometric model ignores the influence of complex muscle strength. Therefore, the real-time performance of geometric pronunciation model is improved with the decrease of computation, which makes the geometric pronunciation model suitable for applications with high real-time requirements. In this paper, a new method of constructing 3D geometric pronunciation model based on MRI (magnetic resonance imaging) and CBCT (conical beam CT) is proposed. Because magnetic resonance imaging (MRI) technology can clearly image the shape of vocal organ outline, And magnetic resonance imaging (MRI) is less harmful to human body, so it is more and more used in speech synthesis research. Because the bone structure can not be collected directly and clearly in MRI, we collect the data of CBCT to supplement the information of bone structure and fill the upper and lower jaws. The database of vocal organs collected by magnetic resonance imaging (MRI) has great advantages in building a channel model and analyzing the shape of vocal organs caused by different sounds. It is of great significance for the application of pronunciation teaching and the analysis of phonetic generation mechanism to establish an accurate three-dimensional channel model to further visualization of the pronunciation process. In this paper, 104 groups of pronunciation data of a subject in Chinese magnetic resonance database are studied. The specific steps of the research method are as follows: database and its preprocessing, data tagging and 3D grid modeling, data analysis and verification and evaluation. Collision detection and response. The results of linear component analysis show that each pronunciation organ can be well described by less than three parameters, and the cumulative contribution rate of the parameter control set is more than 80%. The root mean square errors obtained from the reconstruction of each pronunciation organ are less than 1.0 mm.. The innovation of this paper is to propose a novel modeling method of three-dimensional vocal organs, in which we consider the physiological boundary points of vocal organs, and there are two main improvements in the modeling process. The data of different slices are combined to improve the accuracy of phonetic organ outline marking and to establish the three-dimensional grid of pronunciation organ according to the unplaning structure of pronunciation organ. This not only ensures the integrity of the pronunciation organ, but also preserves the correspondence of the physiological characteristic points on the pronunciation organ. Finally, a three-dimensional geometric pronunciation model based on Chinese pronunciation data is constructed, which provides a theoretical basis for the application of Chinese phonetic language teaching, the extensive promotion of Chinese Putonghua, and the pathological correction of pronunciation.
【学位授予单位】:天津大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.41;TN912.3

【相似文献】

相关期刊论文 前10条

1 张栋梁;于来行;;基于三维几何的信息隐藏和检测研究[J];周口师范学院学报;2013年05期

2 袁苗龙,周济,张新访;三维几何布局的一类启发式求解算法[J];计算机学报;1999年09期

3 孙立镌;金钊;;用于三维几何约束求解的分组重写方法[J];计算机工程与应用;2010年27期

4 唐仁奎;廖丽;;机械CAD三维几何绘图原理与技巧探析[J];科学咨询(科技·管理);2013年06期

5 吴湘,赵万生,魏莉;三维几何表示法[J];航天制造技术;2002年04期

6 黄学良;王波兴;陈立平;黄正东;;三维几何约束系统的等价性分析[J];软件学报;2011年05期

7 宋春玉,孙立镌;三维几何约束模型中的一种几何推理求解机制[J];哈尔滨理工大学学报;2004年02期

8 吴涛,高福运,白跃伟,陈卓宁;用三维几何约束构建概念化设计阶段的三维布局[J];计算机辅助设计与图形学学报;2003年07期

9 仰之;一种用于三维几何量的计算机辅助测试系统[J];数据采集与处理;1992年04期

10 乔雨,王波兴,向文;基于自由度分析的三维几何约束推理求解[J];计算机辅助设计与图形学学报;2002年06期

相关会议论文 前10条

1 纪庆革;李敏君;;三维几何数据压缩与简化综述[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年

2 汪荣贵;张佑生;高隽;彭青松;;房屋的三维几何特征在航空影象中的投影性质[A];全国第13届计算机辅助设计与图形学(CAD/CG)学术会议论文集[C];2004年

3 钱林晓;王一涛;;对应试教育条件下学生学习行为的模型分析[A];2005年中国教育经济学年会会议论文集[C];2005年

4 高林;刘喜梅;;多模型中权值确定的新方法及其应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

5 朱萍;刘伟泽;万立滨;;基于实证研究的知识管理路线、方法和模型分析[A];航空工业档案学会七届四次理事会暨2013年度优秀论文交流会论文集[C];2013年

6 潘洁;周宗放;;全流通下KMV模型中的违约点修正及实证研究[A];中国企业运筹学[C];2009年

7 肖田元;;仿真是基于模型的活动[A];新观点新学说学术沙龙文集37:仿真是基于模型的实验吗[C];2009年

8 毛曹珏;曹锐;;两种缺陷接地结构的模型分析[A];2007年全国微波毫米波会议论文集(下册)[C];2007年

9 吴义忠;陈立平;张昌杰;;基于多领域模型分析的参数优化研究[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年

10 董维中;;气体模型对钝体高超声速流动数值计算影响的分析[A];第十届全国计算流体力学会议论文集[C];2000年

相关重要报纸文章 前10条

1 记者 邓筠然 通讯员 叶雨露;国内首家高科技服务型企业落户佛山[N];广东科技报;2010年

2 山西省专用通信局 林妍;三维几何数据压缩[N];山西科技报;2012年

3 王若愚;惜言如金能护嗓[N];保健时报;2006年

4 齐建荣;儿童口吃与心理有关[N];大众卫生报;2007年

5 衣晓峰 本报记者 姚艳春;别让嗓子“超负荷”[N];黑龙江日报;2004年

6 红 火;人到年老应护嗓[N];中国中医药报;2006年

7 范超;浅谈如何备战统计建模大赛[N];中国信息报;2011年

8 媛萍;用模型分析企业战略要素[N];中国高新技术产业导报;2002年

9 记者 谢苗枫 通讯员 卢健民 彭梅蕾;暨大明年新增播音专业[N];南方日报;2008年

10 柳军;帮助孩子正确发音[N];大众卫生报;2000年

相关博士学位论文 前10条

1 周森;基于自动激光扫描技术的三维几何在线测量系统研究[D];重庆大学;2015年

2 李睿;发音的3D可视化研究[D];中国科学技术大学;2016年

3 李瑜;多选题认知诊断测验编制及多策略的多选题认知诊断模型的开发[D];江西师范大学;2014年

4 康慧燕;复杂网络上带有潜伏期的传染病动力学模型研究[D];上海大学;2015年

5 郭玮;基于多因素集成的疏散场模型研究[D];北京化工大学;2015年

6 张天蛟;产漂流性卵小型鱼类的生态位建模及分析[D];中国农业大学;2016年

7 张会敏;基于小域估计的贫困指标测度方法与模型研究[D];天津财经大学;2015年

8 宋泽芳;基于投资者情绪效应的均值—方差关系模型研究[D];广州大学;2016年

9 徐帆;笼养食蟹猴自发抑郁模型的创建与验证[D];重庆医科大学;2015年

10 毕仁贵;考虑相关性的不确定凸集模型与非概率可靠性分析方法[D];湖南大学;2015年

相关硕士学位论文 前10条

1 刘杰;三维几何发音模型的构建与控制[D];天津大学;2016年

2 张旭;一种基于函数映射的内蕴对称性方法[D];大连理工大学;2015年

3 刘志强;复杂场景真三维几何表达方法研究[D];首都师范大学;2005年

4 田艳花;基于度驱动的渐进式三维几何压缩技术[D];国防科学技术大学;2006年

5 张福全;一种渐进式三维几何压缩算法的研究[D];国防科学技术大学;2006年

6 郑锌源;发音器官的运动与声学信号之间映射关系的研究[D];天津大学;2016年

7 左昕;人体面部软组织的三维几何有限元建模方法研究[D];上海交通大学;2009年

8 杨凡;三维几何网格模型压缩算法的研究[D];南京理工大学;2006年

9 朱嘉蕊;基于科技接受模型的云出版服务模式研究[D];武汉理工大学;2014年

10 李昂;BIM技术在工程建设项目中模型创建和碰撞检测的应用研究[D];东北林业大学;2015年



本文编号:2482809

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2482809.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户03cb2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com