融合关键词的新闻文本摘要生成方法研究
发布时间:2024-04-14 08:56
近年来,随着互联网的发展,信息冗余成为制约人们快速了解最新信息的主要问题。新闻文本摘要生成已经成为人们实现快速阅读必不可少的技术措施。融合更多特征信息以生成更准确、更具有可读性的文本摘要是现在摘要生成研究的主流方向。针对现有关键词提取方法和摘要生成方法在中文新闻文本方面的不足,同时结合中文新闻文本长度较短,信息高度浓缩的特点,根据文本摘要的研究现状,本文进行了融合关键词的中文新闻文本摘要生成方法的研究工作。主要完成了以下研究工作:(1)提出融合LSTM和LDA差异的新闻文本关键词抽取方法。针对传统的Text Rank算法没有考虑语义信息的影响,同时考虑到新闻标题信息高度浓缩以及关键词应该同时具有覆盖性与差异性的特点,提出一种融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法综合考虑了关键词的语义重要性、覆...
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
本文编号:3954429
【文章页数】:68 页
【学位级别】:硕士
【部分图文】:
图2.1.中文新闻文本局部词图展示在PageRank算法中,对于任意的网页i,它的PR值可以表示为:
第二章相关理论方法介绍9第二章相关理论方法介绍2.1TextRank算法TextRank算法来源于pageRank算法,是一种基于图的文本排序算法,广泛应用于关键词提娶抽取式摘要等任务中。TextRank算法将文本中的词语视为图节点,通过设置共现窗口的大小来获得文本词语之间的共现....
图2.2CBOW模型
昆明理工大学专业硕士学位论文10计算图中节点的概率转移矩阵。对于TextRank算法,其是根据设置的共现窗口的大小,获得词语之间的共现关系,并以此构造图网络结构,所构建的是无向图,同时图中的边具有权重,需要构建图中节点的概率转移矩阵。在现在的关键词抽取任务中,往往需要根据文本特点....
图2.3卷积神经网络
昆明理工大学专业硕士学位论文12图2.3卷积神经网络2.4长短时记忆神经网络在传统的神经网络中,模型不会关注上一时刻的信息以及处理会对下一时刻造成什么样的影响。举个例子来说,我们想对文本句进行建模,我们需要联系上下文信息,对整个语句进行建模,而不是将文本词孤立开来,只关注于当前词....
图2.4长短时记忆网络模型
昆明理工大学专业硕士学位论文12图2.3卷积神经网络2.4长短时记忆神经网络在传统的神经网络中,模型不会关注上一时刻的信息以及处理会对下一时刻造成什么样的影响。举个例子来说,我们想对文本句进行建模,我们需要联系上下文信息,对整个语句进行建模,而不是将文本词孤立开来,只关注于当前词....
本文编号:3954429
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/3954429.html