当前位置:主页 > 科技论文 > 网络通信论文 >

不同语音特征对声音分类的有效性研究

发布时间:2024-11-02 08:26
   声音信号分类是准确进行语音预测、解码和识别的基础工作。深度神经网络是目前音频分类的主流方法。选用19种不同语音特征,以3种噪声作为分类对象,采用深度长短时记忆神经网络作为分类算法,比较了不同语音特征及特征融合对噪声信号分类准确度的影响,总结了不同特征对信号分类的有效程度,并对实验结果进行了说话人识别验证。该研究对公安领域说话人身份识别具有一定的参考价值。

【文章页数】:7 页

【部分图文】:

不同语音特征对声音分类的有效性研究



通过构建上述LSTM神经网络模型,提取多个特征对40个说话人进行识别,从表5的实验结果可知:特征融合的维度越高对说话人识别的效果越好(准确度>90%);若是简单的将1维的声谱图特征进行融合,其对说话人识别的表现差(准确度<50%),尤其是将spectralFlatness特征进行....


不同语音特征对声音分类的有效性研究



LSTM神经网络包含输入层、输出层和若干递归隐层,递归隐层是由记忆单元组成,每个记忆单元含有一个或多个自连接记忆细胞来进行线性的反馈传递,从而加强神经元内部之间的联系[13]。图1表示LSTM记忆单元的结构图。LSTM神经网络引入门的机制控制信息的累积速度,提供对记忆单元的写、读....


不同语音特征对声音分类的有效性研究



倒谱系数特征在音频信号处理和分类中时常用到,提取该种特征的一般流程为:先对语音信号进行分帧、加窗等预处理,接着对每一帧信号进行快速傅里叶变换,计算谱线能量,然后通过滤波器滤波后得到一组系数,最后再进行离散余弦变换和倒谱变换得到倒谱系数特征。提取的流程图见图2。本文采用Mel频率倒....


不同语音特征对声音分类的有效性研究



通过构建上述LSTM神经网络模型,提取单个特征对40个说话人进行识别,从表4的实验结果可知:13维的mfcc、gtcc特征及其一阶、二阶特征对说话人识别表现好(准确度达80%~100%),而剩下仅有1维的声谱图特征对说话人识别表现差(准确度<30%),其中单一的spectralF....



本文编号:4009304

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/wltx/4009304.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户19356***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com