当前位置:主页 > 科技论文 > 信息工程论文 >

基于多示例学习的汉语口语语音中不流利事件检测研究

发布时间:2021-02-24 18:17
  随着互联网的发展,人工智能越来越融入人们的工作生活中,人与机器的智能语音交互应用更加广泛,机器需要更好的理解人们各种情境环境下的语音,现阶段主要包括流利的朗读式语音、较短的命令式语音等,而在较长的自然口语语音方面,智能语音识别还面临很大的挑战。本文主要是对汉语自然口语语音数据中不流利事件的检测研究,可以看作语音识别任务的一个前端工作。不流利事件即自然口语中犹豫、填充停顿、重复等现象。它是语音中非正常语义的行为,对不流利事件的检测研究属于语音副语言研究范畴。在本文中,提取了能够很好地表征不流利语音的特点的韵律学特征和谱相关特征,并且提出了多示例学习的模型以解决在不流利语音中,不流利事件持续时间短而噪声信息过多的问题,通过训练多示例学习模型对不流利事件进行识别。论文的主要内容有:(1)汉语自然口语不流利事件语料库的构建。本文从已有标注的哈工大流媒体数据语料库中提取我们需要的流利语音和不流利语音。本文依据该原始语料库中的标注文件,分析了不流利事件的标注特点,找到不流利事件的标注规则,然后依据此规则找到了自动检测不流利事件的有效方法,自动切割不流利语音,然后通过人工复检自动切割的语料,完成了汉... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:64 页

【学位级别】:硕士

【部分图文】:

基于多示例学习的汉语口语语音中不流利事件检测研究


图1-1分子形状的射线表示

波形,方框,语料,波形图


哈尔滨工业大学工学硕士学位论文整的一句话,不含有话与话之间的静音片段。这样的切割虽然在训练分类时高了处理难度,但是会提高语料的精确度,提高识别结果的准确度。对于不同类型的语音具体的标注特点如下:1、填充停顿类型的语料:对于大多数含有犹豫现象的不流利语料都有填充词的存在,填充词指的“嗯”“呃”等语气词。我们需要从原有语料的标注中找到这样的句子,然找到对应的音频进行切割。

波形,语料,波形图,方框


哈尔滨工业大学工学硕士学位论文(4) 判断句子是否符合长度(在 4s-15s 之间,一般为 10s 左右);(5) 若符合上述规则,找到音频文件进行切割。2、对于重复的语料的切割:重复类型,顾名思义就是在语音中出现一些字或词语的多余的重复,他与正常语句中的叠词类型是不一样的,需要区分开。重复类型语料波形图如图 22 所示。

【参考文献】:
期刊论文
[1]多示例学习问题研究进展综述[J]. 田英杰,胥栋宽,张春华.  运筹学学报. 2018(02)
[2]大规模语音语料库的采集、处理和研究[J]. 袁家宏.  语言学研究. 2017(01)
[3]图像语义分析的多示例学习算法综述[J]. 李大湘,赵小强,李娜.  控制与决策. 2013(04)
[4]基于免疫RBF神经网络的语音情感识别[J]. 邓广慧,荆东星,叶吉祥.  计算机工程与科学. 2009(09)
[5]一种基于脉冲耦合神经网络的语音情感识别新方法[J]. 梁泽,马义德,张恩溯,朱望飞,汤书森.  计算机应用. 2008(03)
[6]基于神经网络的多示例回归算法[J]. 张敏灵,周志华.  软件学报. 2003(07)
[7]自然口语语音识别研究概况[J]. 冯俊兰,杜利民.  电子科技导报. 1999(09)
[8]汉语口语语料库研究的若干问题[J]. 王显芳,杜利民.  电子科技导报. 1999(09)

硕士论文
[1]基于多示例学习的异常行为检测方法研究[D]. 崔永艳.南京大学 2011



本文编号:3049764

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3049764.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户cdfcc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com