蒙古语长音频语音文本自动对齐方法研究
发布时间:2022-12-05 03:17
基于深度学习的语音识别系统已经被广泛应用于各个领域,而声学模型都是以大规模的语音库资源为基础进行训练的。然而,目前蒙古语语音库资源相对较少,无法满足蒙古语大词汇量连续语音识别系统的需求,因此急需进一步扩充蒙古语语音资源库。人工录制语音库不仅花费大量的人力和物力,并且与实际使用场景会有所差别。在大数据时代背景下,从互联网和相关单位可以获得大规模的蒙古语长语音和对应文本数据,这些数据可以用来扩充蒙古语语音资源库。本文针对蒙古语电视剧音频,以语音识别技术为基础研究了蒙古语语音文本对齐任务。具体研究内容和创新点如下:首先,本文针对电视剧长音频语音文本对齐任务,实现了电视剧音频自动分割,并改进了对话切分算法。利用双门限端点检测方法将音频中的静音切除;并使用隐马尔可夫模型检测和删除在蒙古语口语对话中常出现的功能性副语言信息;使用基于贝叶斯距离矩阵进行了对话切分。实验结果表明,本文改进的基于贝叶斯信息距离矩阵对话切分方法比传统的基于贝叶斯信息对话切分方法误检率下降了4.22%。其次,本文提出了一种基于中间码循环神经网络模型(Recurrent Neural Network,RNN)语言模型自适应的语...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意义
1.2 语音文本自动对齐的研究现状
1.3 论文的研究内容和创新点
1.4 论文的组织结构
第二章 蒙古语长音频语音文本对齐的相关技术
2.1 蒙古文和蒙古语相关介绍
2.2 语音文本对齐的基本框架
2.3 蒙古语语音识别技术
2.3.1 蒙古语语音识别技术概述
2.3.2 蒙古语声学模型
2.3.3 N-gram语言模型
2.3.4 RNN语言模型
2.4 基于动态规划的语音文本对齐算法
2.4.1 Levenshtein距离算法
2.4.2 Needleman-Wunsch算法
2.5 本章小节
第三章 蒙古语电视剧长音频的切分
3.1 数据的采集
3.1.1 数据集介绍
3.1.2 文本数据预处理
3.2 电视剧长音频切分的介绍
3.3 双门限端点检测
3.4 基于隐马尔可夫模型的功能性副语言信息片段检测
3.5 基于贝叶斯距离矩阵语音对话分割
3.5.1 基于贝叶斯信息准则的语音对话分割
3.5.2 基于BIC距离矩阵的变化点识别
3.6 实验结果
3.6.1 实验评价标准和实验数据
3.6.2 功能性副语言信息检测实验结果
3.6.3 语音对话分割实验结果
3.7 本章小结
第四章 基于中间码RNN语言模型自适应的语音文本对齐
4.1 半监督语音文本对齐
4.2 蒙古语n-gram语言模型线性插值自适应
4.3 融合LDA主题向量的蒙古语RNN语言模型自适应
4.3.1 RNN语言模型自适应
4.3.2 LDA主题模型
4.4 基于中间码RNN语言模型自适应的蒙古语语音文本对齐
4.5 实验结果与分析
4.5.1 文语对齐的相关评价标准
4.5.2 基于中间码n-gram自适应的语音文本对齐实验
4.5.3 基于中间码RNNLM自适应的语音文本对齐实验
4.6 本章小结
第五章 基于蒙古语音素混淆矩阵的语音文本对齐
5.1 音素序列对齐技术
5.2 基于混淆矩阵的音素对齐
5.2.1 基于音素混淆矩阵的对齐算法
5.2.2 基于混淆矩阵的相似度函数的改进
5.3 实验结果与分析
5.3.1 基于音素混淆矩阵的对齐算法实验
5.3.2 基于中间码RNNLM自适应对齐算法与基于音素混淆矩阵的对齐算法比较.
5.4 本章小结
第六章 总结与展望
6.1 文本工作总结
6.2 后续工作展望
参考文献
致谢
攻读硕士期间发表的学术论文
本文编号:3709561
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 引言
1.1 研究背景及意义
1.2 语音文本自动对齐的研究现状
1.3 论文的研究内容和创新点
1.4 论文的组织结构
第二章 蒙古语长音频语音文本对齐的相关技术
2.1 蒙古文和蒙古语相关介绍
2.2 语音文本对齐的基本框架
2.3 蒙古语语音识别技术
2.3.1 蒙古语语音识别技术概述
2.3.2 蒙古语声学模型
2.3.3 N-gram语言模型
2.3.4 RNN语言模型
2.4 基于动态规划的语音文本对齐算法
2.4.1 Levenshtein距离算法
2.4.2 Needleman-Wunsch算法
2.5 本章小节
第三章 蒙古语电视剧长音频的切分
3.1 数据的采集
3.1.1 数据集介绍
3.1.2 文本数据预处理
3.2 电视剧长音频切分的介绍
3.3 双门限端点检测
3.4 基于隐马尔可夫模型的功能性副语言信息片段检测
3.5 基于贝叶斯距离矩阵语音对话分割
3.5.1 基于贝叶斯信息准则的语音对话分割
3.5.2 基于BIC距离矩阵的变化点识别
3.6 实验结果
3.6.1 实验评价标准和实验数据
3.6.2 功能性副语言信息检测实验结果
3.6.3 语音对话分割实验结果
3.7 本章小结
第四章 基于中间码RNN语言模型自适应的语音文本对齐
4.1 半监督语音文本对齐
4.2 蒙古语n-gram语言模型线性插值自适应
4.3 融合LDA主题向量的蒙古语RNN语言模型自适应
4.3.1 RNN语言模型自适应
4.3.2 LDA主题模型
4.4 基于中间码RNN语言模型自适应的蒙古语语音文本对齐
4.5 实验结果与分析
4.5.1 文语对齐的相关评价标准
4.5.2 基于中间码n-gram自适应的语音文本对齐实验
4.5.3 基于中间码RNNLM自适应的语音文本对齐实验
4.6 本章小结
第五章 基于蒙古语音素混淆矩阵的语音文本对齐
5.1 音素序列对齐技术
5.2 基于混淆矩阵的音素对齐
5.2.1 基于音素混淆矩阵的对齐算法
5.2.2 基于混淆矩阵的相似度函数的改进
5.3 实验结果与分析
5.3.1 基于音素混淆矩阵的对齐算法实验
5.3.2 基于中间码RNNLM自适应对齐算法与基于音素混淆矩阵的对齐算法比较.
5.4 本章小结
第六章 总结与展望
6.1 文本工作总结
6.2 后续工作展望
参考文献
致谢
攻读硕士期间发表的学术论文
本文编号:3709561
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3709561.html