当前位置:主页 > 科技论文 > 自动化论文 >

基于神经网络的复述生成方法研究

发布时间:2020-05-19 23:44
【摘要】:复述是指同一语言内语义相同的不同表达形式,同一意思不同的人会有不同的表达,这反映了自然语言的灵活多样性,但却成为自然语言处理的瓶颈。为解决这一瓶颈问题,复述生成关注同一语义下不同表达形式之间的转换,旨在将给定的句子转换成多个语义相同的不同句子,可提高自然语言生成模型的鲁棒性,被广泛应用于机器翻译、自动问答、文本文摘等自然语言处理任务。目前复述生成研究面临以下三个问题:(1)基于编码-解码神经网络框架的复述生成方法存在未登录词无法生成、低频词生成不准确以及词汇重复生成等问题;(2)复述平行语料的有限规模限制了编码器的语义表示学习能力,成为性能提升的阻碍;(3)汉语复述语料十分匮乏,导致难以开展汉语复述生成的研究。本文针对现有基于神经网络复述生成方法存在的问题,借鉴多种典型神经网络模型的优势,引入注意力机制、复制机制、覆盖机制和多任务学习框架;利用自然语言处理技术构建汉语复述平行语料,并在构建的语料上开展汉语复述生成研究。本文的主要研究内容和贡献包括以下三个方面。(1)设计实现多机制融合的神经网络复述生成模型。已有复述生成模型中低频词和未登录词生成不准确,导致信息严重缺失;在解码时未能考虑历史决策信息,导致相同词汇反复出现。对此,我们在已有模型中引入复制机制和覆盖机制,实现多机制融合的神经网络复述生成模型。本文分别在公开数据集Quora和MSCOCO上训练模型,进行各机制贡献度的评测。实验结果显示,与基线模型相比,本文的模型在Quora上ROUGE-1、ROUGE-2、BLEU和METEOR指标分别提高4.18%、4.25%、4.08%和3.19%,在解决未登录词、低频词以及词汇重复问题上效果显著,验证了多机制融合的复述生成模型的有效性。(2)提出联合自编码任务的神经网络复述生成模型。复述平行语料的有限规模限制了已有模型的语义表示学习能力,导致复述句的生成质量不高。对此,我们在多任务学习框架中联合复述生成任务和自编码任务,两个任务共享一个编码器学习语义表示,从而增强编码器的语义表示学习能力。本文分别利用Quora和MSCOCO训练模型,将上述多机制融合模型作为基线模型,进行对比评测。实验结果显示,与基线模型相比,联合自编码任务的模型在Quora数据集上ROUGE-1、ROUGE-2、BLEU和METEOR指标分别提高1.32%、2.04%、1.12%和0.82%,验证了该模型的有效性。(3)提出基于多翻译引擎的汉语复述平行语料构建方法。汉语复述语料十分匮乏,阻碍了汉语复述研究的开展。考虑到英语具有丰富的复述资源,我们利用成熟的机器翻译技术提出基于多翻译引擎的汉语复述语料构建方法,首次构建得到260k的汉语复述平行语料。在此基础上,我们开展汉语复述现象的研究,总结出13种汉语复述现象,其中有3种属于汉语独有,说明汉语复述研究的特殊意义。随后我们利用构建的汉语复述语料以及上述神经网络模型,得到汉语复述生成模型;评测结果显示在多参考复述评测集上ROUGE-1、ROUGE-2、BLEU和METEOR指标分别达到53.59%、27.03%、62.23%和37.18%,表明本文提出的复述语料构建方法对汉语复述生成研究的推进具有一定意义,同时再一次证明了本文提出的复述生成神经网络模型的有效性。针对已有复述生成模型的缺陷,本文设计实现多机制融合的神经网络复述生成模型解决了未登录词、低频词和词汇重复的问题;提出联合自编码任务的复述生成模型提高了模型语义表示学习能力;构建大规模汉语复述平行语料,开展汉语复述现象和汉语复述生成研究;并在国际公开数据集上开展对比评测,验证了本文所提模型和方法的有效性。
【图文】:

结构图,神经元结构


逦x3逦X,逡逑图2-1邋RNN结构图逡逑Figure邋2-1邋Structure邋of邋RNN逡逑在理论上,RNN可以捕获到自然语言的长期依赖信息(Long-Term逡逑Dependencies),允许信息的持久化。但在实际运用中,标准的RNN结构却难以传逡逑递时刻相差较远的信息,出现无法有效捕获长期依赖问题。1997年Hochreiter和逡逑Schmidhuber等人[48]为了解决长期依赖问题,提出了一种特殊的循环神经网络一一逡逑长短时记忆神经网络(LSTM)。LSTM与标准RNN具有相同的重复神经元计算结逡逑构,并在此基础上对神经元的内部计算增加了多个控制门机制(gates),,用于控制逡逑信息的计算与传输。图2-2为LSTM神经元的结构图。逡逑 ̄#尽

本文编号:2671663

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2671663.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户60fee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com