面向情感语音合成的言语情感建模研究

发布时间:2018-05-01 15:14

  本文选题:情感语音合成 + 情感生成 ; 参考:《北京交通大学》2016年博士论文


【摘要】:语音作为人类重要的交际工具之一,除传递字面信息,还通过语气的变化传递情感。当前情感语音研究,主要集中于某些特定情感状态与语音信号关联关系的探寻,虽然观察到一些情感与声学参数变化相关联的指向性线索,但由于情感表现的多样性和复杂性,导致情感声学参数的数值分布多呈现较大的离散特性。情感语音合成时,情感信息来源于人工指定或特定数据库分析,结合文本内容与场景因素的情感预测研究仍处于起步阶段。论文研究重点是基于文本分析实现言语情感预测,解决情感语音合成中文本-情感信息分析问题。研究主要涉及以下问题:1)相关的理论需要有所升华,尤其是要解决情感的准确刻画和动态衍化过程的描述;2)建模技术需要有所突破,考虑到影响情感因素及情感生成过程的复杂性,所需处理的特征参数可能会来自多个层面,模型应能支持多尺度特征处理及动态衍化过程刻画。针对第一个问题,论文在心理学、朗读学、播音学与语音学等相关理论和实践指导下,采用心理语言学、感知语音学实验和数据分析相结合的方法,探索汉语朗读或播音等创作型有声语言活动中情感表达与言语特征间的关联关系,进而对言语情感生成及衍化机制进行归纳。以此为基础,提出多视角情感描述方案,分别从认知评价、心理感受、生理反应和发音描述四种视角描述言语情感的不同侧面,各视角互为补充,共同构成言语情感的分布式表达。各视角之间依据言语情感生成过程形成直接或间接的衍化关系。发音描述作为言语情感生成过程的最终输出结果,形成连接情感描述与声学参数的接口,有助于发现二者之间更为显性的映射关系。基于该描述方案,构建了一个新闻言语情感数据库,通过言语情感标注的实施以及后续预测模型的建立验证了言语情感生成过程及描述方案的合理性。针对第二个问题,采用深度神经网络构建文本-情感预测模型;一方面由于深度网络的多层非线性映射结构与多视角描述模型的多层分布式结构一致,另一方面便于模型实现对情感动态衍化过程以及多尺度特征关联关系的建模。具体来说,暂不考虑文本内容之外的影响因素,利用主题模型提取文本的语义空间向量表示,依次预测篇章级、段落级和句子级不同尺度的情感信息。各尺度内部,形成由认知到心理、生理再到发音的衍化关系,发音描述作为最终目标,其他成分作为其子目标,子目标依次作为后续预测目标的部分已知信息参与到后续模块的训练;不同尺度之间,构成由上至下的层级结构,大尺度单元的预测结果作为小尺度单元的部分已知信息参与到小尺度单元的预测,为其提供更为全局的上下文参考。最后通过实验验证了所提方法的有效性,加入情感衍化关系以及多尺度特征间关联关系的影响,使模型最终预测结果的召回率、精准率和F1值分别相对提升了31.8%、10.3%和22.8%。本文工作的主要创新点在于:(1)基于言语情感生成过程的分析归纳,提出多视角情感描述模型:模型细致刻画了言语情感生成过程中各成分的变化及之间的衍化关系,并以发音描述作为连接情感与语音的接口,用于指导后续合成语音时声学参数的调整;(2)基于深度神经网络,构建文本-情感计算模型:模型综合考虑了言语情感生成过程中来自不同尺度特征的影响以及不同情感成分间的衍化关系,支持多尺度特征融合以及动态衍化关系刻画;(3)将先验知识引入深度神经网络,实现网络中间结构的部分可见化:通过网络结构的直接显性设定,有效利用了言语情感生成的先验知识,降低了训练数据与网络规模的开销,预测性能亦有所提升。
[Abstract]:As one of the most important communication tools of human beings, phonetics is not only conveys literal information, but also transfers emotion through the change of mood. The current study of emotional voice mainly focuses on the exploration of the relationship between certain emotional states and speech signals, although some of the directivity clues associated with the changes of the acoustic parameters are observed, but the emotion is due to emotion. The diversity and complexity of performance results in more discrete characteristics of the numerical distribution of emotional acoustic parameters. Emotional information is derived from artificial or specific database analysis, and the research on emotional prediction of text content and scene factors is still in the stage of emotion speech synthesis. The focus of this paper is based on text analysis. The current speech emotion prediction solves the problem of text emotional information analysis in emotional speech synthesis. The research mainly involves the following questions: 1) the related theories need to be sublimated, especially to solve the accurate depiction of emotion and the description of the dynamic evolution process; 2) the modeling technology needs a breakthrough, considering the influence of emotional factors and emotion generation. The complexity of the process, the characteristic parameters needed to be processed may come from a number of layers. The model should be able to support multiscale feature processing and dynamic characterization. In the first question, the thesis adopts psycholinguistics, perceptual phonetics experiments and data under the guidance of related theories and practices, such as psychology, reading, broadcasting and phonetics. The combined method of analyzing the relationship between emotional expression and speech characteristics in the creative sound language activities, such as Chinese reading or broadcasting, and then the induction of speech emotion generation and evolution mechanism. On the basis of this, a multi perspective emotional description scheme is proposed, from cognitive evaluation, psychological feeling, physiological response and pronunciation description, respectively. The four perspectives describe the different aspects of speech emotion. Each angle of view complement each other and forms a distributed expression of speech emotion. Each angle of view forms a direct or indirect derivative relationship based on the process of speech emotion generation. The pronunciation description is the final output result of the process of speech emotion generation, forming a connection of emotional description and acoustic parameters. The interface helps to find a more explicit mapping relationship between the two. Based on this description, a news speech emotion database is constructed. The process of speech emotion generation and the rationality of the description scheme are verified by the implementation of the speech emotion tagging and the establishment of the follow-up prediction model. The deep neural network is adopted for the second problems. On the one hand, the multi layer nonlinear mapping structure of the depth network is consistent with the multi-layer distributed structure of the multi view description model. On the other hand, the model is convenient for modeling the dynamic evolution process and the multi-scale feature correlation. The theme model extracts the semantic space vector representation of text by using the theme model to predict the emotional information of the text level, the paragraph level and the sentence level in turn. Within each scale, the relationship between the cognitive to the psychology, the physiology and the pronunciation is formed. The pronunciation description is the final target, the other components are its sub targets and the sub goals are in turn in turn. The part known information of the subsequent prediction target is involved in the training of the follow-up module; between the different scales, the hierarchical structure is formed from top to bottom. The prediction results of the large scale unit are involved in the prediction of the small scale units as part of the small scale unit, which provides a more global context reference. Finally, the experimental verification is carried out. The effectiveness of the proposed method, the relationship of emotional evolution and the influence of multi-scale features, the recall rate, precision and F1 value of the final prediction results of the model are increased by 31.8%, 10.3% and 22.8%., respectively. The main innovations of this paper are as follows: (1) based on the analysis and induction of the process of speech emotion generation, the multiple perspectives are put forward. The model of emotion description: the model depicts the changes of all components in the process of speech emotion generation and the relationship between them, and uses the pronunciation description as the interface to connect emotion and speech. It is used to guide the adjustment of acoustic parameters in the subsequent synthetic speech. (2) a text emotion calculation model based on the depth neural network is constructed: model synthesis Considering the influence of different scale features in the process of speech emotion generation and the derivative relationships among different emotional components, it supports multi-scale feature fusion and dynamic characterization. (3) introducing prior knowledge into the deep neural network to realize the visible division of the network intermediate structure: through direct explicit setting of network structure It effectively utilizes the priori knowledge generated by speech emotion, reduces the overhead of training data and network scale, and improves the prediction performance.

【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2016
【分类号】:TN912.33

【相似文献】

相关期刊论文 前10条

1 周海涛;;语音合成中多音字识别的实现[J];科技资讯;2008年11期

2 彭腾;孙萍;;基于C#语音合成的实现[J];电脑编程技巧与维护;2010年12期

3 张世平;;会说四种话的语音合成卡——声威一号[J];今日电子;1993年01期

4 赵建洋;;一种高效语音合成方法[J];电子技术;1993年08期

5 马义德,,张新国,罗长印;语音合成电路在我国的应用前景[J];电子技术;1994年12期

6 郝杰;语音合成:引领“耳朵经济”[J];中国电子商务;2001年Z2期

7 罗三定,贾建华,沙莎;基于波形音频段处理的中文语音合成研究[J];电脑与信息技术;2002年01期

8 ;国内语音合成领域专利技术发展趋势[J];电子知识产权;2003年10期

9 周洁,赵力,邹采荣;情感语音合成的研究[J];电声技术;2005年10期

10 王永生;柴佩琪;曾令平;;英语语音合成中基于约束树的音节切分算法[J];微型电脑应用;2005年11期

相关会议论文 前10条

1 杨静;孙金城;;关于录制语音合成数据库的几个问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

2 徐俊;蔡莲红;吴志勇;;多语种语音合成平台的设计与实现[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年

3 陈益强;高文;王兆其;杨长水;姜大龙;;多模式语音合成[A];第六届全国人机语音通讯学术会议论文集[C];2001年

4 陶建华;董宏辉;许晓颖;;情感语音合成的关键技术分析[A];第六届全国现代语音学学术会议论文集(下)[C];2003年

5 刘东华;冯静;力梅;;深圳市新一代“12121”语音合成业务系统[A];中国气象学会2007年年会气象软科学论坛分会场论文集[C];2007年

6 黄小明;熊子瑜;;基于古音系统的汉语方言语音合成研究[A];第十二届全国人机语音通讯学术会议(NCMMSC'2013)论文集[C];2013年

7 邹煜;何伟;侯敏;滕永林;朱维彬;;面向语音合成的新闻播报语音库构建及其特殊韵律结构[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年

8 贺琳;张蕊;俞舸;;大规模语音合成语料库的录制及常见问题[A];中国声学学会2002年全国声学学术会议论文集[C];2002年

9 陶建华;康永国;;基于多元激励的高质量语音合成声学模型[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

10 吴志勇;蔡莲红;蒙美玲;;可视语音合成中基于音视频关联模型的视位参数优化[A];第八届全国人机语音通讯学术会议论文集[C];2005年

相关重要报纸文章 前10条

1 记者 桂运安;中科大11项语音合成指标世界第一[N];安徽日报;2014年

2 本报记者 何进伟;语音合成露峥嵘[N];网络世界;2001年

3 李羚;多语种语音合成助力数字奥运[N];中国计算机报;2003年

4 清华大学计算机系人机交互与媒体集成研究所 陶建华 蔡莲红;语音合成的应用系统设计[N];计算机世界;2001年

5 ;嵌入式语音合成平台[N];计算机世界;2002年

6 孙晓闻;语音合成 让机器“像人一样说话”[N];中国劳动保障报;2005年

7 ;新型语音合成软件面世[N];人民邮电;2008年

8 炎黄新星公司供稿;炎黄之声SinoSonic[N];计算机世界;2002年

9 刘权;语音合成融入证券客服[N];中国计算机报;2003年

10 ;语音产品走向开放式架构[N];中国计算机报;2004年

相关博士学位论文 前10条

1 高莹莹;面向情感语音合成的言语情感建模研究[D];北京交通大学;2016年

2 高裴裴;人眼驱动语音合成的若干关键技术研究[D];南开大学;2012年

3 赵晖;真实感汉语可视语音合成关键技术研究[D];国防科学技术大学;2010年

4 苏庄銮;情感语音合成[D];中国科学技术大学;2006年

5 卢恒;基于统计模型与发音错误检测的语音合成方法研究[D];中国科学技术大学;2011年

6 雷鸣;统计参数语音合成中的声学模型建模方法研究[D];中国科学技术大学;2012年

7 蔡明琦;融合发音机理的统计参数语音合成方法研究[D];中国科学技术大学;2015年

8 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年

9 杨辰雨;语音合成音库自动标注方法研究[D];中国科学技术大学;2014年

10 尉洪;汉语基元音素独立分量谱分析对比及语音合成研究[D];云南大学;2011年

相关硕士学位论文 前10条

1 王泽勋;多层次韵律和短时谱同步变换的情感语音合成[D];苏州大学;2015年

2 熊林云;基于ARM Cortex-M3的语音合成软件系统设计与实现[D];电子科技大学;2014年

3 章琴;基于HMM的中文情感语音合成的研究[D];合肥工业大学;2014年

4 李冰洁;基于声韵母的嵌入式语音合成[D];北京交通大学;2016年

5 李焕君;个性化语音合成在船舶导航系统中应用研究[D];大连海事大学;2016年

6 聂军;基于HMM可训练的汉语语音合成系统[D];吉林大学;2010年

7 曾一鸣;情感语音合成的研究和系统实现[D];上海交通大学;2010年

8 刘航;基于隐马尔可夫模型的跨语种语音合成方法研究[D];中国科学技术大学;2011年

9 张桂香;个性化语音合成的研究与实现[D];哈尔滨工程大学;2007年

10 胡琼;基于隐马尔科夫模型的天津方言语音合成[D];上海交通大学;2011年



本文编号:1829913

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/1829913.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户369e5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com