当前位置:主页 > 科技论文 > 自动化论文 >

基于高层语义特征提取和数据集间不匹配补偿的语种识别方法

发布时间:2021-05-11 06:19
  随着当代人工智能研究的蓬勃发展,自动语音识别及其相关技术的应用也越来越广泛。语种识别作为自动语音识别技术的重要组成部分,在包括自动语音转接等多个领域都有着重要的作用。近年来,关于语种识别技术的研究成果层出不穷,性能相比于上世纪已经取得了显著的提升,然而其目前仍面临着高层语义信息利用较少、短时语音处理效果差、易受不同数据集间差异影响等问题。随着语种识别技术重要性的日益凸显,该领域急需研究更为合适的处理方法。为了提升语种识别模型的性能,本文将对基于时序信息的长短时网络与高层语义嵌入向量的语种识别方法进行深入探索。在基于时序信息的长短时神经网络的识别方法中,首先阐述了这类网络对语种时序性信息的提取能力和对语种高层语义信息的概括能力,进而通过结合如瓶颈层特征等包含语音段高层语义信息的特征表达来构建新的网络结构,并以所提取出的反映高层语义信息的嵌入向量代替传统语种识别模型中的语种身份向量来构建新的语种识别模型,以提升语种识别的性能。实验表明,上述两种模型的性能与使用余弦距离分类的i-vector基线系统相比分别有30.07%和20.60%的提高。为了解决语种识别过程中遇到的数据不匹配问题,本文提... 

【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题背景及研究的目的和意义
    1.2 国内外在该方向的研究现状及分析
        1.2.1 基于GMM-UBM的语种识别研究现状
        1.2.2 基于深度学习的语种识别研究现状
        1.2.3 国内外文献综述简析
    1.3 本文的主要研究内容
    1.4 本文组织结构
第2章 基于i-vector的语种识别基线系统
    2.1 引言
    2.2 特征提取
        2.2.1 梅尔频率倒谱系数特征
        2.2.2 感知线性预测特征
        2.2.3 语种识别中GMM模型的构建
        2.2.4 i-vector的提取
    2.3 基于i-vector的语种识别分类模型
        2.3.1 余弦距离打分模型
        2.3.2 支持向量机分类模型
        2.3.3 概率线性判别分析打分模型
    2.4 实验及结果分析
        2.4.1 实验数据
        2.4.2 实验评价指标
        2.4.3 实验参数设置
        2.4.4 实验结果及分析
    2.5 本章小结
第3章 基于时序信息网络结构与高层语义嵌入向量的语种识别
    3.1 引言
    3.2 瓶颈层特征
    3.3 基于长短时神经网络高层嵌入特征提取的语种识别
        3.3.1 基于瓶颈层特征的长短时神经网络结构
        3.3.2 网络参数及训练过程
        3.3.3 基于高层嵌入特征提取的语种识别
    3.4 实验及结果分析
        3.4.1 实验数据及超参数设置
        3.4.2 实验结果及分析
    3.5 本章小结
第4章 语种识别中训练集和测试集间不匹配的补偿方法
    4.1 引言
    4.2 基于FHVS的数据集间不匹配的补偿方法
        4.2.1 基于FHVS数据集间不匹配影响分析
        4.2.2 基于FHVS改进LSTM网络的不匹配补偿
        4.2.3 基于FHVS改进LSTM网络的训练及参数估计
    4.3 实验及结果分析
        4.3.1 实验数据及超参数设置
        4.3.2 实验结果对比及分析
    4.4 本章小结
结论
参考文献
攻读硕士学位期间发表的论文及其它成果
致谢


【参考文献】:
期刊论文
[1]基于深度神经网络的语种识别[J]. 崔瑞莲,宋彦,蒋兵,戴礼荣.  模式识别与人工智能. 2015(12)



本文编号:3180893

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3180893.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户66ea6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com