面向转录文本的语音识别错误检测和纠正方法研究
发布时间:2021-06-29 04:18
语音识别技术已经随着深度学习的发展取得了很多进步,识别结果的准确性得到了极大的提升。尽管如此,受说话人发音、录制环境、主题领域等不匹配的影响,识别错误仍在所难免。语音识别得到的转录文本会成为许多自然语言处理任务的待分析输入,如自然语言理解,机器翻译等。语音识别的正确率将直接影响以转录文本为输入的下游任务的性能。考虑到语音识别模型复杂度高,是语言学和语音学知识的高度耦合,性能提升难度大,因而对语音识别结果进行错误检测和纠正从而提高转录文本正确率是近年来兴起的一种有效技术手段。鉴于下游文本处理任务可能采用第三方的语音识别器,或采用端到端模型的,因而无法获得中间解码信。所以,仅基于转录文本的检错纠错技术,是一种更具普适性的错误处理方式。针对以上问题,本文采用深度学习对转录文本中的语音识别错误进行检测和纠正。针对转录文本中错误模式的特点,如标签不均衡、序列到序列的映射、以及检错和纠错结果相互依赖等,提出端到端的检错和纠错深度模型。论文的主要内容如下:(1)数据不均衡条件下的语音识别错误检测方法检错可以看作是一个分类问题,对转录文本中的每一个词进行正确或错识的分类判决。随着语音识别性能的不断提升...
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
LAS模型
哈尔滨工业大学工学硕士学位论文20:Tag[][]=′′[][]=[1][1]+:[]为空格:Tag[][]=′′:Tag[][]=′′6)对数组Tag的行进行遍历,将每两个Tag为′′的中间标签若全为′C′,则合并成一个标签0,若不是则合并为一个标签1,完成对输入序列的词级标注。在下一节中我们通过设计模型,使用有标签的数据作为训练数据对进行有监督的语音识别错误检测训练,使得检错模型能够对测试集中未标注的转录文本进行基于词级的错误检测和标注。3.3Bi-LSTM错误检测模型3.3.1LSTM模型长短时记忆网络是循环神经网络的一种,其产生是为了解决RNN的长期依赖问题,通过一种门机制能够有效的保存之前学习到的信息,对信息进行筛选往下传递,从而使得模型能够具有记忆力。LSTM模型也是采用了链式结构,从左到右对输入的序列数据进行处理,通过对网络中的神经元状态信息进行删除或增加,来进行不同神经元之间的交互。图3-1LSTM模型
哈尔滨工业大学工学硕士学位论文21如图3-1所示,模型的输入为序列={1,2,…,},输出为序列={1,2,…,}。LSTM模型采用了函数和点乘器,设计了一种门机制。因为函数的值域在[0,1]之间,可以用来描述一个神经元有多少信息能够被通过,进行选择性遗忘无用的信息。若函数为0则表示没有信息通过,1则表示信息可以全部通过。具体LSTM计算过程如下:(1)遗忘门。从上一时间步传来的信息先通过一个“遗忘门”,来决定什么信息应该被神经元遗忘。“遗忘门”是由函数构成的。对于时刻的输入,同上一时刻的隐藏状态1一起通过函数得到,再将1时刻的细胞状态1与进行点乘计算,得到一个主线遗忘向量。细胞状态1的数值位于0到1之间,1表示信息全部被保留,0则表示信息全部被丢弃。如图3-2所示:图3-2LSTM遗忘门遗忘门获得的遗忘权重的计算公式为:=1+(3-1)(2)输入门。这一步主要是决定神经元细胞中保留什么信息,这一模块主要包括两个部分:第一个部分是同遗忘门,也是一个函数,将时刻的输入,同上一时刻的隐藏状态1,一起通过函数得到。第二部分则是一个函数,生成一个新的候选数值为细胞状态更新值,随后和进行点乘,用来选取中的哪一部分信息将被用来更新的细胞状态。=([1,]+)(3-2)=tanh([1,]+)(3-3)
本文编号:3255717
【文章来源】:哈尔滨工业大学黑龙江省 211工程院校 985工程院校
【文章页数】:65 页
【学位级别】:硕士
【部分图文】:
LAS模型
哈尔滨工业大学工学硕士学位论文20:Tag[][]=′′[][]=[1][1]+:[]为空格:Tag[][]=′′:Tag[][]=′′6)对数组Tag的行进行遍历,将每两个Tag为′′的中间标签若全为′C′,则合并成一个标签0,若不是则合并为一个标签1,完成对输入序列的词级标注。在下一节中我们通过设计模型,使用有标签的数据作为训练数据对进行有监督的语音识别错误检测训练,使得检错模型能够对测试集中未标注的转录文本进行基于词级的错误检测和标注。3.3Bi-LSTM错误检测模型3.3.1LSTM模型长短时记忆网络是循环神经网络的一种,其产生是为了解决RNN的长期依赖问题,通过一种门机制能够有效的保存之前学习到的信息,对信息进行筛选往下传递,从而使得模型能够具有记忆力。LSTM模型也是采用了链式结构,从左到右对输入的序列数据进行处理,通过对网络中的神经元状态信息进行删除或增加,来进行不同神经元之间的交互。图3-1LSTM模型
哈尔滨工业大学工学硕士学位论文21如图3-1所示,模型的输入为序列={1,2,…,},输出为序列={1,2,…,}。LSTM模型采用了函数和点乘器,设计了一种门机制。因为函数的值域在[0,1]之间,可以用来描述一个神经元有多少信息能够被通过,进行选择性遗忘无用的信息。若函数为0则表示没有信息通过,1则表示信息可以全部通过。具体LSTM计算过程如下:(1)遗忘门。从上一时间步传来的信息先通过一个“遗忘门”,来决定什么信息应该被神经元遗忘。“遗忘门”是由函数构成的。对于时刻的输入,同上一时刻的隐藏状态1一起通过函数得到,再将1时刻的细胞状态1与进行点乘计算,得到一个主线遗忘向量。细胞状态1的数值位于0到1之间,1表示信息全部被保留,0则表示信息全部被丢弃。如图3-2所示:图3-2LSTM遗忘门遗忘门获得的遗忘权重的计算公式为:=1+(3-1)(2)输入门。这一步主要是决定神经元细胞中保留什么信息,这一模块主要包括两个部分:第一个部分是同遗忘门,也是一个函数,将时刻的输入,同上一时刻的隐藏状态1,一起通过函数得到。第二部分则是一个函数,生成一个新的候选数值为细胞状态更新值,随后和进行点乘,用来选取中的哪一部分信息将被用来更新的细胞状态。=([1,]+)(3-2)=tanh([1,]+)(3-3)
本文编号:3255717
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/3255717.html