中文自动摘要模型及其应用
发布时间:2024-05-16 23:06
在移动互联网时代,面对涌现的海量数据,如何快速准确地从中寻找关键信息成为目前亟待解决的问题。因此,利用自动摘要技术对文章添加短文本摘要以准确提炼出关键信息已成为广大学者关注的热点。本文就中文自动摘要模型及其应用进行了研究与分析。首先,本文分别对抽取式自动摘要和生成式自动摘要进行研究与分析。对于抽取式自动摘要,通过使用BERT(Bidirectional Encoder Representations From Transformers)句向量来提高传统词向量的表征能力,并结合Alexander M.Rush、Sumit Chopra等人提出的最大边缘相关算法(MMR)得到针对抽取式自动摘要BE-MMR模型。对于生成式自动摘要,传统的方式是利用序列到序列模型(Seq2Seq)将所有信息编码到一个固定维度的中间向量,而在实际场景中Seq2Seq进行解码时会造成大量的信息遗失。为了解决解码时的信息遗失问题,本文将注意力机制(Attention)融合到Seq2Seq模型中,并利用双层双向长短期记忆网络(Bi-LSTM)来构建编码、解码器,构建基于Seq2Seq-Attention的生成式自动摘...
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
本文编号:3975040
【文章页数】:84 页
【学位级别】:硕士
【部分图文】:
图1-1论文研究思路Fig.1-1ResearchIdeasofPapers
图1-1论文研究思路Fig.1-1ResearchIdeasofPapers研究方法本文从以下几种方法进行多种角度进行评估模型的可行性与研究价值。
图2-1爬取样例数据
图2-1爬取样例数据Fig.2-1ClimbingSampleData,考虑到深度学习端到端模型所需训练集的规模,通过查阅各类文献以自动摘要资料,选择THUCTC数据集作为补充训练集。下面对THUC要介绍。
图2-2数据预处理流程
图2-2数据预处理流程Fig.2-2Datapreprocessingflow据过程中,对于中文维基百科数据可通过网上开源的博客Selenium的爬虫框架来爬取各大网站的新闻数据,构建针。
图2-3预处理结果
9图2-3预处理结果Fig.2-3Pretreatmentresults
本文编号:3975040
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3975040.html
最近更新
教材专著