四通道甚低码率语音动态编解码方法研究
发布时间:2023-02-14 17:56
数字音频讯号因其高质量与便利性被广泛应用于日常生活中。随着互联网与智能手机的普及,数字语音信号广泛应用于即时语音通话,语音留言,语音翻译,听书,语音遥控等应用中。为减轻其传输和存储带来的带宽和磁盘空间压力,语音压缩是一种有效可行的手段。自九十年代起,随着计算机计算能力的提升,众多低码率的音频编码算法被提出,但这些算法多为通用算法,未单独针对语音特性进行压缩。因此,本文提出一个完整的语音编解码器,针对各时刻只存在单一人声的语音信号进行压缩,力求在保持语音质量的前提下将码率压缩至最低。本论文研究并对比了国内外现有音频算法研究。首先,本文首次提出了使用基频、共振峰包络、相位和彩噪声四个通道的信号进行语音压缩的方法;其次,本文提出并使用了基于希尔伯特变换的快速频移匹配在线字典学习方法,对共振峰包络、相位和彩噪声通道,进行压缩,使较小容量的字典即可对带有轻微频移的未知频谱进行非线性拟合,同时令拟合效果更加自然。再次,本文提出了多趟扫描字典增量训练方法,以短时延迟为代价,优化了字典中的原子的选择,并在保持拟合质量不变的前提下,进一步减少字典容量,从而降低了比特率。字典还采用了最少最近使用(LRU)...
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 本课题研究的意义和目的
1.2 国内外研究现状
1.2.1 现有通用音频压缩算法的研究现状
1.2.2 现有针对语音的压缩算法研究现状
1.2.3 稀疏字典学习算法的研究现状与问题
1.2.4 熵编码算法的研究现状与问题
1.3 论文研究内容及结构安排
1.3.1 课题来源及研究内容
1.3.2 论文结构安排
1.4 本章小结
第二章 语音信号的频域特性及四通道分解方法
2.1 语音信号特性
2.1.1 共振峰特性
2.1.2 基频特性
2.1.3 相位特性
2.2 语音信号四通道分解法
2.2.1 基频通道
2.2.2 共振峰幅值包络通道
2.2.3 泛音差分初相通道
2.2.4 彩噪声通道
第三章 三通道非线性在线字典学习方法
3.1 线性原子匹配与字典学习
3.2 针对共振峰包络的在线字典学习方法
3.2.1 共振峰包络特点
3.2.2 希尔伯特变换
3.2.3 近似平移模型
3.2.4 严格平移模型
3.2.5 平移模型与字典学习的结合
3.2.6 多趟扫描法
3.3 用于彩噪声和通道的在线字典学习
3.4 用于差分初相通道的在线字典学习
第四章 隐式非等距差分曲线记录方法
4.1 关键点选择方法
4.2 分段线性拟合
4.3 分段贝塞尔拟合
4.4 差分拟合以及整数量化方法
4.5 本文中可以差分表示的元素
4.5.1 差分表示基频曲线
4.5.2 差分表示共振峰包络和彩噪声原子
4.5.3 差分表示共振峰/彩噪声/相位混合权值和位移参数
4.6 多轨道记录方法
第五章 动态霍夫曼熵编码
5.1 基本霍夫曼树约定
5.2 增加频数后霍夫曼树的调整方法
5.3 减少频数后霍夫曼树的调整方法
5.4 树的初始化
5.5 增量统计法
5.6 滑动窗口法
5.7 随机软边界下降法
5.8 混合霍夫曼编码
第六章 实验结果
6.1 小样本效果验证
6.1.1 四通道分解
6.1.2 字典学习结果
6.1.3 原语音与还原结果对比
6.2 大样本测试结果
6.2.1 字典学习压缩比测试
6.2.2 各步骤后码率
总结与展望
参考文献
攻读学位期间发表论文
致谢
本文编号:3742743
【文章页数】:77 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 本课题研究的意义和目的
1.2 国内外研究现状
1.2.1 现有通用音频压缩算法的研究现状
1.2.2 现有针对语音的压缩算法研究现状
1.2.3 稀疏字典学习算法的研究现状与问题
1.2.4 熵编码算法的研究现状与问题
1.3 论文研究内容及结构安排
1.3.1 课题来源及研究内容
1.3.2 论文结构安排
1.4 本章小结
第二章 语音信号的频域特性及四通道分解方法
2.1 语音信号特性
2.1.1 共振峰特性
2.1.2 基频特性
2.1.3 相位特性
2.2 语音信号四通道分解法
2.2.1 基频通道
2.2.2 共振峰幅值包络通道
2.2.3 泛音差分初相通道
2.2.4 彩噪声通道
第三章 三通道非线性在线字典学习方法
3.1 线性原子匹配与字典学习
3.2 针对共振峰包络的在线字典学习方法
3.2.1 共振峰包络特点
3.2.2 希尔伯特变换
3.2.3 近似平移模型
3.2.4 严格平移模型
3.2.5 平移模型与字典学习的结合
3.2.6 多趟扫描法
3.3 用于彩噪声和通道的在线字典学习
3.4 用于差分初相通道的在线字典学习
第四章 隐式非等距差分曲线记录方法
4.1 关键点选择方法
4.2 分段线性拟合
4.3 分段贝塞尔拟合
4.4 差分拟合以及整数量化方法
4.5 本文中可以差分表示的元素
4.5.1 差分表示基频曲线
4.5.2 差分表示共振峰包络和彩噪声原子
4.5.3 差分表示共振峰/彩噪声/相位混合权值和位移参数
4.6 多轨道记录方法
第五章 动态霍夫曼熵编码
5.1 基本霍夫曼树约定
5.2 增加频数后霍夫曼树的调整方法
5.3 减少频数后霍夫曼树的调整方法
5.4 树的初始化
5.5 增量统计法
5.6 滑动窗口法
5.7 随机软边界下降法
5.8 混合霍夫曼编码
第六章 实验结果
6.1 小样本效果验证
6.1.1 四通道分解
6.1.2 字典学习结果
6.1.3 原语音与还原结果对比
6.2 大样本测试结果
6.2.1 字典学习压缩比测试
6.2.2 各步骤后码率
总结与展望
参考文献
攻读学位期间发表论文
致谢
本文编号:3742743
本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/3742743.html