基于频繁模式挖掘的关键词抽取算法研究

发布时间:2021-08-13 08:29
  关键词抽取是从文本或文本集合中抽取描述主题性的词或短语。准确地抽取文本中的关键词可以快速总结文本内容,在许多自然语言处理任务中都有着至关重要的作用,如信息检索和支持决策等。当前大多数的关键词抽取方法不能针对每篇特定的文本进行抽取,通常都是抽取一个文本集合或者一个语料库中的关键词,而且不能灵活的捕获单词之间的语义关系。针对上述问题,本文提出两种新颖的从英文文本中抽取关键词的算法。一种是特定文本中强语义关系的监督关键词抽取算法KeMSMING。该算法首先将序列模式挖掘和LDA主题模型相结合,进行关键词候选集合的搜索:其次,利用有监督的机器学习算法训练关键词抽取模型;最后,选取预测概率值大的前top-k个词作为最终的关键词。在训练阶段,算法KeMSMING不仅使用了 baseline features和pattern features训练模型,而且使用从语义网络中获得的centrality features训练模型,语义网络不仅为关键词抽取提供了丰富的语义信息,而且提供了单词之间的共现信息。另一种是基于频繁模式挖掘和词嵌入模型的关键词抽取算法Ke<... 

【文章来源】:安徽大学安徽省 211工程院校

【文章页数】:76 页

【学位级别】:硕士

【部分图文】:

基于频繁模式挖掘的关键词抽取算法研究


图2.1关键词抽取过程??

模型图,主题,模型图


型对文本进行处理,获取文档的主题性或者重要性的词或短语。??LDA主题模型是由首次提出,它的过程可以分为两个步骤:训练和??推理。它的模型图见图2.2=>??1)训练:给定一个包含M■篇文档的语料库,Latent?Dirichlet?Allocation??(LDA)主题模型假设每个词W属于一个主题Z。每个主题??13??

模型结构,单词,上下文


2.4.1?CBOW模型介绍??CBOW(Continuous?Bag-of-Words)模型和?Skip-gram?模型是?Mikolov?等人[4】]??提出的两个高效的词表示模型。图2.3是CBOW模型结构图。??输出????麵??:j……丨。…:…:嵌入层??—1————?^I?—r??Wi-(n-l)/2?M'.+1?WIMn.m?原始文本??图2.3?CBOW模型结构图??Figure?2.3?The?model?of?CBOW??CBOW模型是通过上下文对目标词进行预测。它的输入层是长度为n的字符??串,输出层是单词w;。首先,CBOW模型选择目标单词w,+的上下文??叫+^,…,%,?,...,1^^/;!;其次,模型对上下文单词的词向量求和取平均值;??最后,进行全连接运算,具体过程如下:??^?=?(2.1)??打?一?^?Wj#茫崳?h?=?x?(2.2)??其中,符号&?=(1^1,…,表不单词的上下文,其中A:表不窗??口大小,表示文档中单词7_的向量表示。??2.4.2?Skip-gram?模型介绍??和CBOW模型不同,Skip-gram模型不是通过上下文来预测目标单词的,而??是将每个当前单词作为输入,预测当前单词前后一定范围内的单词。更准确地说,??Skip-gram模型通过目标单词预测它的上下文wH?_1V2

【参考文献】:
期刊论文
[1]一般间隙序列模式挖掘的关键词抽取[J]. 刘慧婷,刘志中,王利利,吴信东.  电子学报. 2019(05)
[2]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[3]周期性一般间隙约束的序列模式挖掘[J]. 武优西,周坤,刘靖宇,江贺,吴信东.  计算机学报. 2017(06)
[4]基于图和LDA主题模型的关键词抽取算法[J]. 刘啸剑,谢飞,吴信东.  情报学报. 2016 (06)
[5]带间隔约束的Top-k对比序列模式挖掘[J]. 杨皓,段磊,胡斌,邓松,王文韬,秦攀.  软件学报. 2015(11)
[6]一般间隙及一次性条件的严格模式匹配[J]. 柴欣,贾晓菲,武优西,江贺,吴信东.  软件学报. 2015(05)

博士论文
[1]面向主题的关键词抽取方法研究[D]. 丁卓冶.复旦大学 2013



本文编号:3340097

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3340097.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b2a11***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com