面向民航陆空通话的语音识别技术研究
发布时间:2020-08-05 15:11
【摘要】:陆空通话是管制员与飞行员之间的通话,是飞行指导过程的核心部分。空中交通管制员由于工作强度大,通话坏境嘈杂,很容易误解听到的语音,从而导致指挥错误,威胁飞行安全。语音自动识别技术可以处理管制语音通话,监测管制员的行为,对由错误指令造成的危险进行早期告警,是保障陆空通话指令的正确理解、减少事故发生的一个重要手段。然而,由于民航陆空通话在发音、语调等方面具有其特殊性,目前通用的语音自动识别技术不能直接使用。另一方面,民航陆空通话的数据具有难以采集和难以标注等特点,识别难度很大。为此,本文在语音自动识别技术面向民航领域里的应用以及提高识别准确率两方面做深入研究。本文首先深入分析民航陆空通话的特点,然后对常用的一些语音识别技术进行改进,使之适用于民航陆空通话的识别,在此基础上,采用深度神经网络、迁移学习和语种识别等技术来解决民航陆空通话语音识别中的关键问题,降低识别的错误率。本文工作具体如下:1.中英文民航路空通话的语种识别研究。首先分析了语种识别的必要性,然后介绍语料库构建的方法,接着在分析比较语种识别相关的模型与方法的基础上,选取适当的模型和方法,提出适用于中英文民航陆空通话的语种识别方法,最后使用中英文民航陆空通话数据构建了语种识别系统并进行了测试和评估。2.基于GMM-HMM的中英文民航陆空通话语音识别研究。首先对民航陆空通话的数据进行分析,然后在卡内基梅隆大学CMUDICT字典和CE-DICT字典基础上,半自动地构建了中文、英文民航陆空通话字典,接着采用GMM-HMM模型分别对民航陆空通话数据训练了声学模型,最后构建了中英文民航陆空通话语音识别系统,并使用测试数据测试了中英文模型的识别率。3.基于深度学习的中英文民航陆空通话的语音识别研究。为了进一步提高语音识别系统的识别率,以深度学习为基础,研究了DNN-HMM的声学建模方法,提出了一种适用于中英文民航陆空通话的DNN网络结构并构建了中英文民航陆空通话语音识别系统,并进行了实验和结果分析。4.基于迁移学习的跨语言深度神经网络声学模型的构建,以及基于深度学习的中英文民航陆空通话语音识别系统的搭建。针对中英文民航陆空通话语料数据量小的缺点,分析比较常用的迁移学习方法,提出了一种新的迁移学习方法,将领域外知识迁移至语料资源少的民航陆空通话语音识别系统中,并在中英文民航陆空通话语音识别系统中进行了实验和识别率的对比分析。
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;V355.1
【图文】:
L( ) = ( ) 阵为: L( ) = ( ) oid 函数的参数向量 w,通常使用的最优化算法有:梯度GS 等。由于 L-BFGS 算法不需要选择梯度步长,而且具的优点,本文选用使用 L-BFGS算法进行参数估计。析是 Kaldi。Kaldi 是一个自由、开源的语音识别工具库[42],别系统、文档和用于构建整个识别系统的脚本和代码,其持 GMM、HMM、DNN、Bottleneck、Tandem、RNN、要用于语音识别的研究,此外,它还被用于其他方面的关键词搜索等。Kaldi的框架如图 3.4所示。
在进行声学模型训练之前,先要选择合适的声学建模单元,常用的建模单元有:单词、和音素。其中,单词的粒度最大,但其不能解决一词多音的问题;而音素的粒度最小,适词汇量较大的连续语音识别系统,因此,文本针对民航陆空通话语料库的特点,选用音素声学模型的建模单元。在进行单音素模型的训练之前,首先要定义 HMM 的拓扑结构。经过比较常用的拓扑结文针对民航陆空通话数据集的特点,对静音音素 HMM 和非静音音素 HMM 如使用了不同构,如图 4.1 和图 4.2 所示,其中非静音音素包含 3 个发射状态和一个哑状态,静音音素 5个状态和哑状态,哑状态又称为引出状态,不产生观测矢量,只用于连接到下一个音素图 4.1 非静音音素的拓扑结构
南京航空航天大学全日制专业学位硕士学位论文2 单音素模型训练进行声学模型训练之前,先要选择合适的声学建模单元,常用的建模单元有:单素。其中,单词的粒度最大,但其不能解决一词多音的问题;而音素的粒度最小量较大的连续语音识别系统,因此,文本针对民航陆空通话语料库的特点,选用模型的建模单元。进行单音素模型的训练之前,首先要定义 HMM 的拓扑结构。经过比较常用的拓对民航陆空通话数据集的特点,对静音音素 HMM 和非静音音素 HMM 如使用了如图 4.1 和图 4.2 所示,其中非静音音素包含 3 个发射状态和一个哑状态,静音状态和哑状态,哑状态又称为引出状态,不产生观测矢量,只用于连接到下一个
本文编号:2781661
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TN912.34;V355.1
【图文】:
L( ) = ( ) 阵为: L( ) = ( ) oid 函数的参数向量 w,通常使用的最优化算法有:梯度GS 等。由于 L-BFGS 算法不需要选择梯度步长,而且具的优点,本文选用使用 L-BFGS算法进行参数估计。析是 Kaldi。Kaldi 是一个自由、开源的语音识别工具库[42],别系统、文档和用于构建整个识别系统的脚本和代码,其持 GMM、HMM、DNN、Bottleneck、Tandem、RNN、要用于语音识别的研究,此外,它还被用于其他方面的关键词搜索等。Kaldi的框架如图 3.4所示。
在进行声学模型训练之前,先要选择合适的声学建模单元,常用的建模单元有:单词、和音素。其中,单词的粒度最大,但其不能解决一词多音的问题;而音素的粒度最小,适词汇量较大的连续语音识别系统,因此,文本针对民航陆空通话语料库的特点,选用音素声学模型的建模单元。在进行单音素模型的训练之前,首先要定义 HMM 的拓扑结构。经过比较常用的拓扑结文针对民航陆空通话数据集的特点,对静音音素 HMM 和非静音音素 HMM 如使用了不同构,如图 4.1 和图 4.2 所示,其中非静音音素包含 3 个发射状态和一个哑状态,静音音素 5个状态和哑状态,哑状态又称为引出状态,不产生观测矢量,只用于连接到下一个音素图 4.1 非静音音素的拓扑结构
南京航空航天大学全日制专业学位硕士学位论文2 单音素模型训练进行声学模型训练之前,先要选择合适的声学建模单元,常用的建模单元有:单素。其中,单词的粒度最大,但其不能解决一词多音的问题;而音素的粒度最小量较大的连续语音识别系统,因此,文本针对民航陆空通话语料库的特点,选用模型的建模单元。进行单音素模型的训练之前,首先要定义 HMM 的拓扑结构。经过比较常用的拓对民航陆空通话数据集的特点,对静音音素 HMM 和非静音音素 HMM 如使用了如图 4.1 和图 4.2 所示,其中非静音音素包含 3 个发射状态和一个哑状态,静音状态和哑状态,哑状态又称为引出状态,不产生观测矢量,只用于连接到下一个
【参考文献】
相关期刊论文 前7条
1 袁伟伟;胡军;刘万凤;;空管模拟训练中指令的语音识别与合成技术研究[J];电子设计工程;2013年06期
2 王光艳;赵晓群;王霞;;基于MATLAB GUI的语音信号特征提取系统设计[J];河北工业大学学报;2010年04期
3 王安娜;王勤万;刘俊芳;袁文静;;改进的语音特征提取方法及其应用[J];计算机工程;2008年05期
4 刘敬伟;肖熙;;实用环境语音识别鲁棒性技术研究与展望[J];计算机工程与应用;2006年24期
5 彭志勇;王丹霞;;语音识别技术在DRS雷达模拟机系统中的实现[J];中国民航飞行学院学报;2006年02期
6 揭克坚,张建伟,游志胜;DRS航管雷达模拟机自动机长语音技术研究[J];计算机应用;2001年06期
7 吴土星;;飞行安全与空中交通管制指令[J];民航经济与技术;1994年04期
相关硕士学位论文 前5条
1 张志辉;基于民航陆空对话的语音识别关键技术研究[D];中国民航大学;2017年
2 刘万凤;语音指令识别在陆空通话(英语)中的应用技术研究[D];南京航空航天大学;2012年
3 夏拓;基于HTK的嵌入式语音识别系统设计与优化[D];华南理工大学;2012年
4 彭志勇;语音识别功能在DRS2000雷达模拟机系统中的设计与实现[D];四川大学;2006年
5 邹荣;大词汇量连续语音识别系统中统计语言模型的研究[D];北京邮电大学;2006年
本文编号:2781661
本文链接:https://www.wllwen.com/kejilunwen/wltx/2781661.html