当前位置:主页 > 科技论文 > 信息工程论文 >

面向领域的语音转换后文本纠错研究

发布时间:2020-09-22 18:20
   随着信息时代的发展,人们每天产生的信息都呈指数爆炸式地增长。这些信息都蕴含着有价值的数据有待人们去挖掘。比如,银行,保险等传统行业公司,每天都会收到大量客服来电,而公司亟待从这些海量对话数据里面,进行对话质量分析,挖掘用户意图等。但在对这些数据分析之前,首先遇到的困难是,这些对话数据大多数是通过语音识别后转为文本,在语音转换过程中,由于受到噪声,用户口音等干扰,导致语音识别后的文本存在错误,从而降低了文本的可分析性。因此,运用自然语言处理的方法,结合对话自身的特性,对这些文本进行纠错,一方面能提高对话语音转换的正确率,另一方面也有利于文本数据进行进一步的分析,最大化地挖掘数据中的价值。虽然文本纠错一直以来有人研究,但大多是面向开放领域的规范文本(报纸,书刊类文本),而面对口语化程度高、特定领域文本的纠错,则鲜有研究,而且是一大挑战。在查错方面,本文提出利用组合N-gram模型,融合双向长短期记忆神经网络Bi-LSTM语言模型,对句子进行评估,提高查错的精确率。定位到错误点后,则需要进行纠错。在纠错方面,本文提出多策略产生候选集的方法,针对不同的错误类型,采取不同的方法产生候选集。首先是基于领域本体知识库与拼音串前缀树来产生候选集。因为专有名词的识别通常出错较多,使用拼音串前缀树能快速找出相应的候选词汇。在得到由本体知识库产生的候选集后,需要结合本体知识库和对话的上下文,计算出候选词汇的支持度,最终排序得到TOP-1作为纠错方案。第二策略是结合领域的语言知识库,查询词语的搭配、并结合拼音相似度等信息得出候选集,尝试对文本错误进行纠正,若领域的语言知识库没能产生有效候选集,则查询通用领域语言知识库来产生候选集合。最后,分别用候选词替换原有词语,然后用Bi-LSTM语言模型计算整个句子的概率,并以这个指标对候选集进行排序,取TOP-1作为纠正方案。在纠错知识库的构建上,本文提出结合依存句法自适应地构建领域语言知识库,使到算法能自学习到新领域中的领域词语及搭配。最终,本文以金融领域为例,设计并实现出一套面向金融领域对话文本的纠错框架,能够对金融领域内带有错误的对话进行修正,并具有良好的领域迁移能力。
【学位单位】:华南理工大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:TP391.1;TN912.3
【部分图文】:

单元结构,输入门,信息选择


图 2-3 LSTM 单元结构,一个 LSTM 单元的输入是at,输出值是ht,LSTM 内部的it= σ(Waiat+ Whiht 1+ Wcict 1+ bi) ft= σ(Wafat+ Whfht 1+ Wcfct 1+ bf) ot= σ(Waoat+ Whoht 1+ Wcoct+ bo) ct= ftct 1+ ittanh(Wacat+ Whcht 1+ bc) ht= ottanh(ct) gmoid 激活函数,it,ft,ot,ct分别代表输入门,遗忘门i,bf,bo,bc分别代表输入门,遗忘门,输出门,cell 单权值参数。的过程中,输入门使新的信息选择性地通过,进入到 Cel储的信息选择性地输出。遗忘门则是控制 Cell 单元内部的

理财产品,网站,金融产品


构建银行金融产品的本体知识库究的客服文本中,比较常见的错误是语音引擎对银行的金融产品行的金融产品建立知识库是必要的,其将用于计算纠错候选集第五章将会介绍。本文采取基于本体的知识库构建方法。本体(,知识工程借用了这个概念,用于计算机知识系统领域知识的获术语的集合,其结构是层次化的,可作为知识库的骨架和基础构建本体。本体需要包括概念,关系,函数,公理和实例这五种银行官方网站介绍金融产品的页面,发现网站上已经对金融产品述的方式已经是结构化的信息。因此,本体的概念构建可以复用相关属性,对应的实例则是具体的金融产品,其信息可以通过爬进行获取。其官方网站的部分截图如:

流程图,查错,流程图,文本


图 4-1 查错流程图gram 模型组合查错方法介绍了 N-gram 模型的相关理论。N-gram 是一个基,如果仅采用通用语料的的 N-gram 模型,一些领或出现频次较低,导致在领域文本中一些本是正确是错误点。因此,要减少查错的误报,需要用到多文本,本文用到 3 个模型:公开的新闻语料训练的 N-gram 模型。行官网的业务说明、产品介绍等文本的训练的 N服文本中整理过的 200 个对话文本训练的 N-gram

【参考文献】

相关期刊论文 前10条

1 王璐;张仰森;;基于典型句型的词语搭配定量分析及提取算法[J];计算机科学;2012年S1期

2 王惠仙;龙华;;基于改进的正向最大匹配中文分词算法研究[J];贵州大学学报(自然科学版);2011年05期

3 玛依热·依布拉音;米吉提·阿不里米提;艾斯卡尔·艾木都拉;;基于最小编辑距离的维语词语检错与纠错研究[J];中文信息学报;2008年03期

4 顾金睿;王芳;;关于本体论的研究综述[J];情报科学;2007年06期

5 韦向峰;张全;熊亮;;一种基于语义分析的汉语语音识别纠错方法[J];计算机科学;2006年10期

6 张仰森;曹元大;俞士汶;;基于规则与统计相结合的中文文本自动查错模型与算法[J];中文信息学报;2006年04期

7 张仰森;俞士汶;;文本自动校对技术研究综述[J];计算机应用研究;2006年06期

8 张仰森;中文校对系统中纠错知识库的构造及纠错建议的产生算法[J];中文信息学报;2001年05期

9 李建华,王晓龙,王平,王淑清;多特征的中文文本校对算法的研究[J];计算机工程与科学;2001年03期

10 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期

相关硕士学位论文 前8条

1 卓利艳;字词级中文文本自动校对的方法研究[D];郑州大学;2018年

2 石宏磊;通信业客服热线文本主题识别与演化研究[D];北京邮电大学;2017年

3 石敏;中文文本自动校对系统[D];江苏科技大学;2015年

4 季俊;客户投诉电话语音的情感分析技术研究[D];复旦大学;2014年

5 龙丽霞;基于实例语境的语音识别后文本检错与纠错研究[D];北京邮电大学;2010年

6 王兴建;语音识别后文本处理系统中文本语音信息评价算法研究[D];北京邮电大学;2010年

7 王永景;面向文本识别流的自动校对算法研究[D];上海交通大学;2008年

8 王朔;基于Chart算法的句法分析系统的设计与实现[D];湖南大学;2005年



本文编号:2824753

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/xinxigongchenglunwen/2824753.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户a59a1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com