当前位置:主页 > 科技论文 > 网络通信论文 >

汉藏双语跨语言语音转换方法的研究

发布时间:2019-06-22 09:00
【摘要】:近年来,随着人机语音交互技术的迅速发展,语音转换技术已经得到众多研究学者的重视,将被应用到教育、通信等诸多领域。在国内,对汉语普通话、广东话等主流语言的语音转换方法的研究已经取得很大的进步。但目前还缺少民族语言与方言的跨语言语音转换系统。藏族是我国古老的少数民族之一,藏语的使用人数众多,分布区域广泛。本文将藏语拉萨话作为研究对象,建立了2800句藏语拉萨话的语料库,切分及标注声韵母信息并建立了藏语的声韵母库。在进行汉藏双语跨语言语音转换时,首先是把待转换的藏语文本翻译得到对应的汉语文本,将汉语文本进行文本分析获得所有的声韵母,再查找已建立好目录索引的声韵母库;以藏语的声韵母为基元,同时利用边界信息,根据语境有关的问题集与候选基元的频谱距离进行决策树的建立。对于目标汉语语句,利用决策树算法选择最符合语境信息的声韵母,选取发该音位置和音质最符合的声韵母,然后分别利用波形拼接合成法和STRAIGHT算法得到对应的汉语语音语句,从而完成汉藏双语跨语言语音转换方法的研究。论文的主要工作和创新如下:1、建立了2800句藏语拉萨话的语料库,提取并建立了藏语的声韵母库。首先进行藏语文本语料的设计,然后进行语音语料的录制,再进行切分及标注得到所有声韵母的信息,最后按照藏语的声韵母进行归类,建立目录索引。从而完成藏语声韵母库的建立,为汉藏双语跨语言语音转换奠定了基础。2、汉藏双语跨语言语音转换中采用了STRAIGHT算法。它可以很灵活地修改语音信号的基频、非周期索引和平滑时频谱等相关参数,从而提高转换目标语音的音质。3、实现了汉藏双语跨语言语音转换。对于待转换成的目标汉语语句,利用决策树算法选择最符合语境信息的声韵母,选取发该音位置和音质最合适的声韵母,然后分别利用波形拼接合成法和STRAIGHT算法得到对应的汉语语音语句,并对转换后语音进行了MOS评测、DMOS评测和ABX测试。实验结果表明,使用STRAIGHT算法转换得到语音的音质要优于使用波形拼接合成法。
[Abstract]:In recent years, with the rapid development of human-computer voice interaction technology, speech conversion technology has been paid attention to by many researchers, and will be applied to many fields such as education, communication and so on. In China, great progress has been made in the study of phonetic conversion methods in Mandarin, Cantonese and other mainstream languages. However, there is still a lack of cross-language phonetic conversion system between national languages and dialects. Tibetan is one of the ancient ethnic minorities in China, the number of Tibetan speakers is large and the distribution area is wide. In this paper, Tibetan Lhasa dialect is taken as the research object, the corpus of 2800 Tibetan Lhasa dialect is established, the consonant information is segmented and marked, and the phonological vowel database of Tibetan language is established. In the process of bilingual phonetics conversion between Chinese and Tibetan, first of all, the Tibetan text to be converted is translated into the corresponding Chinese text, the Chinese text is analyzed to obtain all the consonants, and then the consonant database of the catalogue index is found. Taking the consonant of Tibetan as the primitive, and using the boundary information, the decision tree is established according to the spectral distance between the context-related problem set and the candidate primitive. For the target Chinese sentence, the decision tree algorithm is used to select the consonant which is most in accordance with the contextual information, and the phonological position and quality of the phoneme are selected, and then the corresponding Chinese phonetic statements are obtained by using waveform splicing synthesis method and STRAIGHT algorithm respectively, so as to complete the research of Chinese-Tibetan bilingual cross-language speech conversion method. The main work and innovations of this paper are as follows: 1. The corpus of 2800 Tibetan Lhasa dialect is established, and the phonological alphabet database of Tibetan language is extracted and established. Firstly, the Tibetan text corpus is designed, then the phonetic corpus is recorded, and then all the information of consonant is obtained by segmentation and tagging. Finally, according to the consonant of Tibetan language, the catalogue index is established. In order to complete the establishment of Tibetan phonological alphabet database, it lays a foundation for Chinese-Tibetan bilingual cross-language speech conversion. 2, STRAIGHT algorithm is used in Chinese-Tibetan bilingual cross-language speech conversion. It can flexibly modify the fundamental frequency, aperiodic index and smooth time spectrum of speech signal, so as to improve the sound quality of the converted target speech. 3, the bilingual speech conversion between Chinese and Tibetan is realized. For the target Chinese sentence to be converted, the decision tree algorithm is used to select the consonant which is most in line with the contextual information, and the most suitable vowel position and quality are selected. Then the corresponding Chinese speech sentences are obtained by using waveform stitching synthesis method and STRAIGHT algorithm, respectively, and the converted speech is evaluated by MOS, DMOS evaluation and ABX test. The experimental results show that the sound quality of speech converted by STRAIGHT algorithm is better than that of waveform stitching synthesis method.
【学位授予单位】:西北师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3

【相似文献】

相关期刊论文 前10条

1 谢贵武;杨继红;肖勇;闵刚;;基于语音分段的自适应时长调整算法[J];军事通信技术;2008年02期

2 樊建中;孙晴;杨永杰;;一种智能盲文学习机设计[J];现代电子技术;2010年05期

3 温洪昌;黄应强;傅贵兴;;单片机的多段语音组合录放系统设计[J];单片机与嵌入式系统应用;2011年10期

4 张剑;袁华强;;Rhetorical-State SVM在抽取式语音摘要中的应用[J];科学技术与工程;2013年21期

5 卢坚 ,毛兵 ,孙正兴 ,张福炎;一种改进的基于说话者的语音分割算法[J];软件学报;2002年02期

6 章文义,朱杰;几种无语音检测噪音估计方法的比较研究[J];计算机工程与设计;2003年10期

7 林鑫;陈桦;王开志;王继成;;语音驱动唇形自动合成算法[J];计算机工程;2007年17期

8 蔡铁;;基于在线单类支持向量机的自适应语音活动检测[J];深圳信息职业技术学院学报;2008年02期

9 章钊;郭武;;话者识别中结合模型和能量的语音激活检测算法[J];小型微型计算机系统;2010年09期

10 朱淑琴,裘雪红;一种精确检测语音端点的方法[J];计算机仿真;2005年03期

相关会议论文 前9条

1 田野;王作英;陆大金;;基于韵律结构信息的非语音拒识[A];第六届全国人机语音通讯学术会议论文集[C];2001年

2 徐明;胡瑞敏;黄云森;;基于音素识别的语音评价方法[A];第二届和谐人机环境联合学术会议(HHME2006)——第15届中国多媒体学术会议(NCMT'06)论文集[C];2006年

3 王欢良;韩纪庆;李海峰;王承发;;面向嵌入式应用的小词汇量语音串识别系统[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年

4 那斯尔江·吐尔逊;吾守尔·斯拉木;麦麦提艾力;;维吾尔语大词汇量连续语音识别研究——语音语料库的建立[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年

5 简志华;王向文;;考虑帧间信息的语音转换算法[A];浙江省信号处理学会2012学术年会论文集[C];2012年

6 魏维;马海燕;;一种丢失语音信包重建的新算法[A];通信理论与信号处理新进展——2005年通信理论与信号处理年会论文集[C];2005年

7 陈凡;罗四维;;一个实用语音开发应用系统的设计与实现[A];第二届全国人机语音通讯学术会议论文集[C];1992年

8 刘红星;戴蓓劏;陆伟;;基于图像增强方法的共振峰谐波能量参数的语音和端点检测[A];第九届全国人机语音通讯学术会议论文集[C];2007年

9 林爱华;张文俊;王毅敏;;基于肌肉模型的语音驱动唇形动画[A];第十三届全国图象图形学学术会议论文集[C];2006年

相关重要报纸文章 前5条

1 atvoc;数码语音电路产品概述[N];电子资讯时报;2008年

2 记者 李山;德用双音素改进人工语音表达[N];科技日报;2012年

3 中国科学院自动化研究所模式识别国家重点实验室 于剑邋陶建华;个性化语音生成技术面面观[N];计算机世界;2007年

4 江西 林慧勇;语音合成芯片MSM6295及其应用[N];电子报;2006年

5 ;与“小超人”对话[N];中国计算机报;2001年

相关博士学位论文 前10条

1 高伟勋;智能家居环境中个性化语音生成关键技术研究[D];东华大学;2015年

2 陈丽萍;说话人确认中语音段差异建模相关问题的研究[D];中国科学技术大学;2016年

3 陶冶;文本语音匹配的研究和应用[D];山东大学;2009年

4 何俊;声纹身份识别中非常态语音应对方法研究[D];华南理工大学;2012年

5 李冬冬;基于拓展和聚类的情感鲁棒说话人识别研究[D];浙江大学;2008年

6 双志伟;个性化语音生成研究[D];中国科学技术大学;2011年

7 古今;语音感知认证的关键技术研究[D];中国科学技术大学;2009年

8 彭波;Internet上语音的鲁棒性传输研究[D];华南理工大学;2001年

9 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年

10 应娜;基于正弦语音模型的低比特率宽带语音编码算法的研究[D];吉林大学;2006年

相关硕士学位论文 前10条

1 王明明;基于GMM和码本映射相结合的语音转换方法研究[D];西安建筑科技大学;2015年

2 印雪晨;宋词朗读呼吸信号和韵律时长研究[D];西北民族大学;2015年

3 邱一良;噪声环境下的语音检测方法研究[D];电子科技大学;2015年

4 朱俊梅;基于性别预分类的年龄自动估计研究[D];江苏师范大学;2014年

5 张占松;基于DSP的语音干扰方法研究与实现[D];北京交通大学;2016年

6 李鹏;基于系统融合的语音查询项检索技术研究[D];解放军信息工程大学;2015年

7 赵蓉蓉;基于计算听觉场景分析的单通道语音盲分离技术[D];太原理工大学;2016年

8 崔瑞莲;语种识别中的语音段表示方法研究[D];中国科学技术大学;2016年

9 刘学;基于语音样例查询的关键词识别方法研究[D];中国科学技术大学;2016年

10 王振文;汉藏双语跨语言语音转换方法的研究[D];西北师范大学;2015年



本文编号:2504430

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/2504430.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d4705***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com