基于词向量学习的关键词提取算法研究

发布时间:2021-12-30 12:44
  关键词是文本主题信息的精炼,可帮助人们快速获得文章的核心内容,并被广泛应用于信息检索、问答系统、文本分类等领域。传统基于图的关键词提取方法,仅考虑到词在共现词图中的全局结构信息,忽略了词在序列中的潜在语义信息。现有研究表明词向量学习技术可以有效捕获词在序列中的潜在语义信息。故本研究主要聚焦于:在基于图的关键词提取方法中融合词向量,以及提出面向关键词提取的词向量学习模型。具体工作包括:利用通用的词向量模型学习词向量,并融合其与词在文档中的位置信息来改进基于图的关键词提取算法。针对现有基于图的关键词提取方法忽略了词在序列中的潜在语义信息的不足,该方法将包含了词在序列中潜在语义的词向量,与词在文档中的位置信息相结合,改进PageRank算法来为单词更加合理地评分,从而提高关键词提取的效果。实验分别使用Skip-gram,TWE-1和fastText三个通用的词向量模型来学习词向量,并与5个无监督的关键词提取方法做对比。实验结果表明,我们提出的融合词向量和位置信息的关键词的图提取算法在所有评估指标上均优于PositionRank方法的结果。提出面向关键词提取的词向量学习模型,并将其应用到基于图... 

【文章来源】:中国民航大学天津市

【文章页数】:62 页

【学位级别】:硕士

【部分图文】:

基于词向量学习的关键词提取算法研究


百度搜索风云榜

关键词提取,百度,技术,公司


性能还比较低,还需进一步研究。关键词提取技术可以直接应用于信息检索任务。搜索引擎通过用户输入的关键词接返回这些关键词对应的网页。其次,还可以广泛应用于自然语言处理的其他任务如,在文档分类任务中,可以通过提取的一组关键词来代表文档,以较低的维度和复杂度进行文本相关性的分析[11];在意见挖掘任务中,从意见中提取的关键词对理意见的语义有重要的作用;在问答系统中,关键词提取是理解问题的基础,并且如够从问题中快速地提取出正确的关键词是提升问答系统性能的关键[11]。

关键词提取,PageRank算法,潜在语义,提取方法


所以为了克服这个问题,一些研究者提出了混合的方法,如 2014 年 ]混合使用 KEA 和 TextRank 算法进行关键词提取;2017 年 Gollapalli 等型中将 TextRank 的评分作为候选关键词的一个特征来进行关键词提取。法还是需要训练集的。究内容与章节介绍研究内容键词提取方法可分为有监督,无监督和半监督三大类。1.2 节主要介绍了有监督和无监督的关键词提取方法上做的尝试和研究。本文使用基于图的词提取方法从英文文本中提取关键词,并使用了有监督方法中常用的统计位置信息等来修改基于图的随机游走模型。本文的研究内容如图 1-3 所示

【参考文献】:
期刊论文
[1]基于15年文献计量学的信息检索相关性研究[J]. 于兴尚.  图书馆研究与工作. 2018(11)
[2]基于BiLSTM-CRF的关键词自动抽取[J]. 陈伟,吴友政,陈文亮,张民.  计算机科学. 2018(S1)
[3]基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究[J]. 刘奇飞,沈炜域.  情报探索. 2018(06)
[4]基于Scopus检索和TFIDF的论文关键词自动提取方法[J]. 陈列蕾,方晖.  南京大学学报(自然科学). 2018(03)
[5]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[6]基于引用背景信息的关键词自动抽取方法研究[J]. 宋宇,罗准辰,真溱.  情报理论与实践. 2016(11)
[7]基于图和LDA主题模型的关键词抽取算法[J]. 刘啸剑,谢飞,吴信东.  情报学报. 2016 (06)

硕士论文
[1]面向问答的问句关键词提取技术研究[D]. 王煦祥.哈尔滨工业大学 2016



本文编号:3558222

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3558222.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户20aee***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com