基于语义特征的关键词提取算法研究
发布时间:2021-11-04 00:49
关键词提取是一项被应用广泛的技术,早期通过人工手动进行提取,后来学者们提出了一些自动化的方法,而信息的几何级增长需要更加有效的方法。传统算法主要是基于统计学方法,而关键词本身也缺乏标准,当下深度学习的方法由于其能自动学习数据的特征并输出良好的结果,所以利用深度学习技术来学习关键词与文档间的语义特征实现更好的关键词提取算法,本文主要做了以下创新:1.利用词向量对TextRank算法进行改进。词语的语义特征反映了词语与文档之间的关联程度,利用FastText将文档集进行词向量表征,基于隐含主题分布思想,该思想认为一篇文档是由属于不同主题的词语组成,而每个主题的中心词之间的差异度最大,所以利用词汇间语义性的差异,改进TextRank的转移概率矩阵,让权重更多的转移给语义差异度大的词语,这样增加了主题中心词的权重,提升了原始算法的效果;2.构建文档-关键词对,将关键词提取转化为二分类任务。关键词提取的过程中一般只注重文档本身,没有很好的利用到带有标注的训练数据,本文假设文档与关键词之间存在着某种分布,关键词是通过采样得到的,这样通过构建文档-关键词对,通过模型学习这种分布,将关键词提取转化为二...
【文章来源】:武汉大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
算法流程示意图
CBOW结构示意图
Skip-gram结构示意图
【参考文献】:
期刊论文
[1]词向量聚类加权TextRank的关键词抽取[J]. 夏天. 数据分析与知识发现. 2017(02)
[2]基于word2vec的关键词提取算法[J]. 李跃鹏,金翠,及俊川. 科研信息化技术与应用. 2015(04)
本文编号:3474670
【文章来源】:武汉大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:60 页
【学位级别】:硕士
【部分图文】:
算法流程示意图
CBOW结构示意图
Skip-gram结构示意图
【参考文献】:
期刊论文
[1]词向量聚类加权TextRank的关键词抽取[J]. 夏天. 数据分析与知识发现. 2017(02)
[2]基于word2vec的关键词提取算法[J]. 李跃鹏,金翠,及俊川. 科研信息化技术与应用. 2015(04)
本文编号:3474670
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3474670.html
最近更新
教材专著