基于深度学习的语音质量评价方法研究
发布时间:2017-10-23 04:11
本文关键词:基于深度学习的语音质量评价方法研究
更多相关文章: 语音质量评价 Gammatone频率倒谱系数 感知线性预测倒谱系数 深度学习 模糊支持向量机
【摘要】:多种多样的语音传输和通信系统在人们日常的信息交流中扮演了极其重要的角色,而语音系统的输出语音质量优劣是评估其性能的决定性因素。主观语音质量评价方法虽然可靠,但实施过程耗时耗力,灵活性差。基于输入-输出方式的客观评价方法和主观评价相关度可达到很高,但其需要实际中较难获得的原始输入信号作参考,所以寻求高性能的基于输出方式的客观语音质量评价方法是十分迫切的。本文通过研究基于输出方式的客观评价方法,提出一种基于深度学习的新方法,即首先对预处理后的语音提取特征,然后利用已训练好模型参数的深度信念网络将特征映射到对应的语音质量等级区间,以获得客观预测的语音质量结果。本文的主要内容如下:(1)对语音预处理后,进行语音活动检测,对检测得到的语音帧特征提取,排除静音帧,有助于提高语音质量评价的准确性;(2)将改进的Gammatone频率倒谱系数与感知线性预测倒谱系数作为语音的特征,对人耳听觉感知的模拟效果更佳,改善了客观评价结果与主观评价的相关性;(3)引入深度学习来进行语音特征的学习,并将特征映射到非均匀粒度法划分的质量等级区间,以得到预测结果,同时与浅层学习模糊支持向量机作对比,实验结果分析表明将深度学习应用于语音质量评价系统要优越于浅层学习。通过对多个语音样本进行测试,可证明所提出的基于输出方式的语音质量评价方法是有效的,并且具有很好的灵活性和鲁棒性,预测所得结果和主观评价有较高的相关性,最高可至0.91。
【关键词】:语音质量评价 Gammatone频率倒谱系数 感知线性预测倒谱系数 深度学习 模糊支持向量机
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TN912.3
【目录】:
- 摘要4-5
- Abstract5-8
- 1 绪论8-14
- 1.1 研究背景与意义8
- 1.2 语音质量评价研究现状8-13
- 1.2.1 主观评价方法8-10
- 1.2.2 客观评价方法10-13
- 1.3 本文的主要工作与内容安排13-14
- 2 语音质量评价基本知识14-24
- 2.1 语音信号产生的数学模型14-18
- 2.2 语音质量映射方法18-23
- 2.2.1 贝叶斯分类器18-19
- 2.2.2 高斯混合模型19-20
- 2.2.3 隐马尔科夫模型20
- 2.2.4 支持向量机20-21
- 2.2.5 神经网络21-23
- 2.3 语音质量评价系统性能指标23-24
- 3 语音质量评价系统特征提取24-36
- 3.1 预处理与语音活动检测24-26
- 3.2 改进的Gammatone频率倒谱系数特征26-31
- 3.3 感知线性预测倒谱系数特征31-36
- 4 基于深度学习的语音质量评价36-48
- 4.1 深度学习概述36-40
- 4.1.1 深度学习的提出与发展36-37
- 4.1.2 选择深度学习的必要性37-38
- 4.1.3 深度学习的数据表示与典型结构38-40
- 4.2 深度信念网络DBN40-48
- 4.2.1 受限玻尔兹曼机RBM模型40-42
- 4.2.2 对比散度学习法42-45
- 4.2.3 基于DBN的语音质量评价45-48
- 5 系统实现与分析48-57
- 5.1 系统组成框架48-49
- 5.2 语音库与实验环境49
- 5.3 系统评价结果49-57
- 5.3.1 深度信念网络DBN参数设置50-52
- 5.3.2 基于深度信念网的系统性能52-53
- 5.3.3 模糊支持向量机53-55
- 5.3.4 基于模糊支持向量机的系统性能55-56
- 5.3.5 两种系统性能对比56-57
- 结论57-58
- 参考文献58-62
- 攻读硕士学位期间发表学术论文情况62-63
- 致谢63-64
【参考文献】
中国期刊全文数据库 前1条
1 陈明义;孙冬梅;何孝月;;基于改进MFCC语音特征参数的语音质量评估的研究[J];电路与系统学报;2009年03期
,本文编号:1081524
本文链接:https://www.wllwen.com/kejilunwen/wltx/1081524.html