基于深度学习的多语种自动摘要系统的研究与实现
发布时间:2020-05-23 19:43
【摘要】:随着互联网技术的发展,国际间的交流日益频繁,人们在生活中每天都被大量的信息包围,如何高效地挑选出自己最需要的信息变得愈发重要。自动摘要是解决信息爆炸问题的关键技术,跨语言自动摘要技术可以让人们快速浏览多国文献,帮助人们迅速了解世界上不同国家和地区的信息,具有重要的研究价值和应用价值。本文实现的多语种自动摘要系统主要有单语种自动摘要和跨语言自动摘要两个功能,可以处理中、英、朝三种语言的科技文献短文本。基于RNNLM模型,本学位论文提出预训练词向量的单语种自动摘要方法,对某种语言的文本生成相同语种的摘要;基于Seq2Seq模型,本学位论文提出一种不需要机器翻译的跨语言自动摘要方法,可以对某种语言的文本直接生成另一种语言的摘要。首先,整理科技文献的摘要和标题,构建中、朝、英三种语言的平行语料库。使用不同的循环体结构和不同的神经网络结构,观察模型在测试集上的表现。同时以加入Attention机制的Seq2Seq模型为基础,分别使用Word2Vec和RNNLM对词向量进行预训练,观察模型在测试集上的表现。其次,利用中、朝、英平行语料库,使用基于Seq2Seq模型的训练方案,实现无需借助机器翻译技术的跨语言生成式自动摘要,模型可以对一种语言的文本直接生成另一种语言的摘要。最后,设计并实现基于Django框架的多语种生成式自动摘要系统,介绍系统的总体设计和各个功能模块,展示系统的单语种自动摘要功能和跨语言自动摘要功能。实验结果表明,在单语种自动摘要任务中,本学位论文提出的基于RNNLM的词向量预训练方案与基于Word2Vec的词向量预训练方案相比,效果更好,在测试集上的ROUGE-1、ROUGE-2和ROUGE-L指标上分别为32.57%,9.17%,25.70%。在跨语言自动摘要任务中,本学位论文提出的跨语言自动摘要方法在测试集上的实验结果良好,在六个跨语言自动摘要实验中,ROUGE-1指标平均为23.30%,ROUGE-2指标平均为4.93%,ROUGE-L指标平均为19.47%。本学位论文开发的多语种自动摘要系统,能满足东北亚地区科技工作者的实际需求,提高人们阅读文献的效率。
【图文】:
Fig.邋3-2邋Experimental邋results邋of邋different邋epoch逡逑图3-2中,由于Seq2Seq模型在输出端的每一步实际上是一个多分类任务,逡逑可以用准确率来衡量模型训练结果的好坏。横轴表示模型在训练集上次数epoch,纵轴表示准确率和loss。按照从下往上的顺序,最下面有三逡逑的曲线先上升后下降,表示的是模型训练过程中在验证集上的准确率。逡逑有正方形的曲线一直在上升,表示的是模型在训练集上的准确率。再往逡逑圆形的曲线一直在下降,表示的是模型在训练集上的loss(损失函数)。最逡逑有“X”的曲线先下降后上升,表示的是模型在验证集上的loss。逡逑epoch的值太大,模型容易过拟合,epoch值太小,模型会处于欠拟合从图3-2中可以看出,epoch=15时,模型在验证集上的准确率最高,,los。此时,模型达到了最佳状态。因此本文的实验中epoch的值设为15。逡逑在生成式自动摘要任务中,注意力机制使用的是2.3.2节中介绍的逡逑anau等人提出的Attention邋Mechanism。本文实验一、二、二和四中的词逡逑维度设置为100,LSTM和GRU隐层大小设置为100,训练过程中逡逑_size的值设为64,在训练集上迭代的次数epoch设为15。其中有关单逡逑自动摘要的实验(实验一、二和三)都是在中文语料上进行训练的,跨语言逡逑
4.4.1后台管理模块测试逡逑多语种自动摘要系统的后台管理模块首页如图4-5所示,该页面负责显示逡逑后台数据库中的数据,为用户提供添加数据,修改数据,删除数据和训练模逡逑型的功能。逡逑
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
本文编号:2677857
【图文】:
Fig.邋3-2邋Experimental邋results邋of邋different邋epoch逡逑图3-2中,由于Seq2Seq模型在输出端的每一步实际上是一个多分类任务,逡逑可以用准确率来衡量模型训练结果的好坏。横轴表示模型在训练集上次数epoch,纵轴表示准确率和loss。按照从下往上的顺序,最下面有三逡逑的曲线先上升后下降,表示的是模型训练过程中在验证集上的准确率。逡逑有正方形的曲线一直在上升,表示的是模型在训练集上的准确率。再往逡逑圆形的曲线一直在下降,表示的是模型在训练集上的loss(损失函数)。最逡逑有“X”的曲线先下降后上升,表示的是模型在验证集上的loss。逡逑epoch的值太大,模型容易过拟合,epoch值太小,模型会处于欠拟合从图3-2中可以看出,epoch=15时,模型在验证集上的准确率最高,,los。此时,模型达到了最佳状态。因此本文的实验中epoch的值设为15。逡逑在生成式自动摘要任务中,注意力机制使用的是2.3.2节中介绍的逡逑anau等人提出的Attention邋Mechanism。本文实验一、二、二和四中的词逡逑维度设置为100,LSTM和GRU隐层大小设置为100,训练过程中逡逑_size的值设为64,在训练集上迭代的次数epoch设为15。其中有关单逡逑自动摘要的实验(实验一、二和三)都是在中文语料上进行训练的,跨语言逡逑
4.4.1后台管理模块测试逡逑多语种自动摘要系统的后台管理模块首页如图4-5所示,该页面负责显示逡逑后台数据库中的数据,为用户提供添加数据,修改数据,删除数据和训练模逡逑型的功能。逡逑
【学位授予单位】:延边大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18
【参考文献】
相关期刊论文 前4条
1 王连喜;;自动摘要研究中的若干问题[J];图书情报工作;2014年20期
2 罗永莲;赵昌垣;;突发事件新闻标题与正文提取方法[J];计算机应用;2014年10期
3 蒋效宇;;基于关键词抽取的自动文摘算法[J];计算机工程;2012年03期
4 吴晓锋;宗成庆;;一种基于LDA的CRF自动文摘方法[J];中文信息学报;2009年06期
相关硕士学位论文 前1条
1 曹洋;基于TextRank算法的单文档自动文摘研究[D];南京大学;2016年
本文编号:2677857
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/2677857.html