基于深度学习的多语种自动摘要系统的研究与实现

发布时间：2020-05-23 19:43

【摘要】：随着互联网技术的发展,国际间的交流日益频繁,人们在生活中每天都被大量的信息包围,如何高效地挑选出自己最需要的信息变得愈发重要。自动摘要是解决信息爆炸问题的关键技术,跨语言自动摘要技术可以让人们快速浏览多国文献,帮助人们迅速了解世界上不同国家和地区的信息,具有重要的研究价值和应用价值。本文实现的多语种自动摘要系统主要有单语种自动摘要和跨语言自动摘要两个功能,可以处理中、英、朝三种语言的科技文献短文本。基于RNNLM模型,本学位论文提出预训练词向量的单语种自动摘要方法,对某种语言的文本生成相同语种的摘要;基于Seq2Seq模型,本学位论文提出一种不需要机器翻译的跨语言自动摘要方法,可以对某种语言的文本直接生成另一种语言的摘要。首先,整理科技文献的摘要和标题,构建中、朝、英三种语言的平行语料库。使用不同的循环体结构和不同的神经网络结构,观察模型在测试集上的表现。同时以加入Attention机制的Seq2Seq模型为基础,分别使用Word2Vec和RNNLM对词向量进行预训练,观察模型在测试集上的表现。其次,利用中、朝、英平行语料库,使用基于Seq2Seq模型的训练方案,实现无需借助机器翻译技术的跨语言生成式自动摘要,模型可以对一种语言的文本直接生成另一种语言的摘要。最后,设计并实现基于Django框架的多语种生成式自动摘要系统,介绍系统的总体设计和各个功能模块,展示系统的单语种自动摘要功能和跨语言自动摘要功能。实验结果表明,在单语种自动摘要任务中,本学位论文提出的基于RNNLM的词向量预训练方案与基于Word2Vec的词向量预训练方案相比,效果更好,在测试集上的ROUGE-1、ROUGE-2和ROUGE-L指标上分别为32.57%,9.17%,25.70%。在跨语言自动摘要任务中,本学位论文提出的跨语言自动摘要方法在测试集上的实验结果良好,在六个跨语言自动摘要实验中,ROUGE-1指标平均为23.30%,ROUGE-2指标平均为4.93%,ROUGE-L指标平均为19.47%。本学位论文开发的多语种自动摘要系统,能满足东北亚地区科技工作者的实际需求,提高人们阅读文献的效率。
【图文】：

曲线,实验结果,准确率,训练集

Ｆｉｇ．邋３－２邋Ｅｘｐｅｒｉｍｅｎｔａｌ邋ｒｅｓｕｌｔｓ邋ｏｆ邋ｄｉｆｆｅｒｅｎｔ邋ｅｐｏｃｈ逡逑图３－２中，由于Ｓｅｑ２Ｓｅｑ模型在输出端的每一步实际上是一个多分类任务，逡逑可以用准确率来衡量模型训练结果的好坏。横轴表示模型在训练集上次数ｅｐｏｃｈ，纵轴表示准确率和ｌｏｓｓ。按照从下往上的顺序，最下面有三逡逑的曲线先上升后下降，表示的是模型训练过程中在验证集上的准确率。逡逑有正方形的曲线一直在上升，表示的是模型在训练集上的准确率。再往逡逑圆形的曲线一直在下降，表示的是模型在训练集上的ｌｏｓｓ（损失函数）。最逡逑有“Ｘ”的曲线先下降后上升，表示的是模型在验证集上的ｌｏｓｓ。逡逑ｅｐｏｃｈ的值太大，模型容易过拟合，ｅｐｏｃｈ值太小，模型会处于欠拟合从图３－２中可以看出，ｅｐｏｃｈ＝１５时，模型在验证集上的准确率最高，，ｌｏｓ。此时，模型达到了最佳状态。因此本文的实验中ｅｐｏｃｈ的值设为１５。逡逑在生成式自动摘要任务中，注意力机制使用的是２．３．２节中介绍的逡逑ａｎａｕ等人提出的Ａｔｔｅｎｔｉｏｎ邋Ｍｅｃｈａｎｉｓｍ。本文实验一、二、二和四中的词逡逑维度设置为１00，ＬＳＴＭ和ＧＲＵ隐层大小设置为１００，训练过程中逡逑＿ｓｉｚｅ的值设为６４，在训练集上迭代的次数ｅｐｏｃｈ设为１５。其中有关单逡逑自动摘要的实验（实验一、二和三）都是在中文语料上进行训练的，跨语言逡逑

后台管理,首页,模块,多语种

４．４．１后台管理模块测试逡逑多语种自动摘要系统的后台管理模块首页如图４－５所示，该页面负责显示逡逑后台数据库中的数据，为用户提供添加数据，修改数据，删除数据和训练模逡逑型的功能。逡逑
【学位授予单位】：延边大学
【学位级别】：硕士
【学位授予年份】：2019
【分类号】：TP391.1;TP18

【参考文献】