改进TextRank与结合BiGRU的两种关键词提取方法研究
发布时间:2021-08-18 11:48
关键词可以高效地用于检索、理解文本内容,使用户快速获取文本的主要思想。现有的关键词提取技术提取的关键词质量尚不理想,这不利于后续任务的进行。为了提升关键词提取的准确性,本文主要从图方法和神经网络方法两个方面,对关键词提取方法进行了研究与改进。针对多数关键词提取方法只使用了少量特征的问题,本文提出了一种改进TextRank的多特征关键词提取方法。该方法在TextRank算法的基础上,融合了多个特征。如果一个单词在越多的句子中出现,我们认为这个单词的重要性就越高,所以将计算目标单词所出现的句子总数作为一个特征融入TextRank中,同时使用词跨度、词位置倒数和来修改TextRank的转移概率,使用LDA主题信息修改重启概率,得到了一个改进的TextRank关键词提取算法。我们在SemEval2010、KDD及WWW三个数据集上进行了对比实验,实验结果表明,改进算法在准确率、召回率、F1-score上,比基线算法TF-TDF、TextRank、SingleRank及TopicRank有了明显的提高。改进TextRank的多特征关键词提取方法只是基于图模型的方法,本文的另外一项研究是将图模型和...
【文章来源】:江西师范大学江西省
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
关键词提取方法分类国内外学者提出的许多很有价值的方法中,基于统计信息的关键词提取方法已经得
改进TextRank与结合BiGRU的两种关键词提取方法研究13别为输入层、投影层和输出层,模型框架见图2-1和图2-2所示。CBOW模型输入的是目标词w(t)的上下文的词向量w(t-2)、w(t-1)、w(t+1)、w(t+2),输出的是这个目标词的词向量w(t),是用上下文来预测目标词的概率。而Skip-gram模型和CBOW的思路是相反的,即输入是目标词的词向量w(t),输出的是目标词对应的上下文词向量w(t-2)、w(t-1)、w(t+1)、w(t+2),是用目标词来预测上下文的概率。(2)FastText。FastText①是facebook开源的一个可以高效的学习单词表示和文本分类任务的工具。FastText的模型框架与Word2vec的CBOW模型框架非常相似,FastText的模型框架如图2-3所示。FastText模型包括输入层、隐藏层、输出层共三层。它的核心思想是将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。其中输入的是…表示的文本的n-gram向量,输出的是label,隐藏层是对多个词向量的叠加平均。图2-3FastText模型框架①https://pypi.org/project/fasttext/0.7.2/
改进TextRank与结合BiGRU的两种关键词提取方法研究17(4)将改进的边权重ijW迭代TextRank公式直至收敛,得到主题排名。(5)对每个主题,选择首先出现在文档中的候选词作为关键词。2.2.6Single-TPRSingle-TPR[60]是针对Liu等人在2010年提出的TopicalPageRank(TPR)[42]的改进,Liu等人使用LDA从维基百科中获取单词主题,并对每个主题设置一个PageRank,对每个文档进行多次计算,再对每个主题值求和以提取关键词。2015年Sterckx等人[60]提出对每个文档d使用一个PageRank,使用一个权值()iTw来表示PageRank中每个单词iw的全部主题重要性,()iTw计算为词-主题概率pwit=y=1kp(wi|ty)与文档-主题概率ptd=y=1kp(ty|d)之间的余弦相似度,如公式2-16所示。单个PageRank值变化为公式2-15的()iSw。通过使算法计算一次,而不依赖于主题t的数量k,这大大减少了计算时间。()()()()()(1)()jikjjiiijwInwjkwOutwwvWTwSwSwWTw(2-15)(|)(|)()||(|)||||(|)||iiipwtptdTwpwtptd(2-16)2.2.7RaKUn通过无监督学习和元顶点聚合来提取基于排名的关键词,由Skrlj等人[61]在2019年提出,是一种基于图的关键词提取方法。引入了元顶点的概念,来聚集相似的顶点。元顶点的构造如图2-4所示,相同形状的图案表示相似的单词,将相同形状的节点合并成为一个元顶点。根据所考虑的节点计算的负载中心度得分,将从单字符提取扩展到双字符和三字符关键词。这个方法有效的减少了词图的大校图2-4元顶点的构造
【参考文献】:
期刊论文
[1]改进的关键词提取算法研究[J]. 王涛,李明. 重庆师范大学学报(自然科学版). 2019(03)
[2]一种基于信息熵的关键词提取算法[J]. 吴华,罗顺,孙伟晋. 计算机与数字工程. 2019(03)
[3]多特征关键词提取算法研究[J]. 王洁,王丽清. 计算机系统应用. 2018(07)
[4]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[5]基于词共现的关键词提取算法研究与改进[J]. 和志强,王丽鹏,张鹏云. 电子技术与软件工程. 2018(01)
[6]基于多视角聚类模型的微博文本数据挖掘算法研究[J]. 陈兰兰,胡细玲. 科技通报. 2017(11)
[7]基于扩充词汇链改进的关键词提取算法[J]. 王小林,朱磊,邰伟鹏. 苏州科技大学学报(自然科学版). 2017(02)
[8]词向量聚类加权TextRank的关键词抽取[J]. 夏天. 数据分析与知识发现. 2017(02)
[9]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍. 现代图书情报技术. 2016(06)
[10]关键词提取的K-means方法在设备分类中的运用[J]. 陈立,田端正. 计算机系统应用. 2015(12)
硕士论文
[1]基于图与LDA的中文文本关键词提取算法[D]. 郭庆.北京邮电大学 2019
[2]基于新闻文本的关键词提取[D]. 陶洁.华中师范大学 2019
[3]面向电商领域的关键词提取技术研究[D]. 樊继康.哈尔滨工业大学 2018
[4]中文社交媒体话题关键词抽取算法[D]. 何伟名.北京交通大学 2017
[5]搜索引擎中关键词分类方法评估及推荐应用[D]. 钟文波.华南理工大学 2015
[6]基于文本的关键词提取方法研究与实现[D]. 杨林.安徽工业大学 2013
本文编号:3349832
【文章来源】:江西师范大学江西省
【文章页数】:51 页
【学位级别】:硕士
【部分图文】:
关键词提取方法分类国内外学者提出的许多很有价值的方法中,基于统计信息的关键词提取方法已经得
改进TextRank与结合BiGRU的两种关键词提取方法研究13别为输入层、投影层和输出层,模型框架见图2-1和图2-2所示。CBOW模型输入的是目标词w(t)的上下文的词向量w(t-2)、w(t-1)、w(t+1)、w(t+2),输出的是这个目标词的词向量w(t),是用上下文来预测目标词的概率。而Skip-gram模型和CBOW的思路是相反的,即输入是目标词的词向量w(t),输出的是目标词对应的上下文词向量w(t-2)、w(t-1)、w(t+1)、w(t+2),是用目标词来预测上下文的概率。(2)FastText。FastText①是facebook开源的一个可以高效的学习单词表示和文本分类任务的工具。FastText的模型框架与Word2vec的CBOW模型框架非常相似,FastText的模型框架如图2-3所示。FastText模型包括输入层、隐藏层、输出层共三层。它的核心思想是将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类。其中输入的是…表示的文本的n-gram向量,输出的是label,隐藏层是对多个词向量的叠加平均。图2-3FastText模型框架①https://pypi.org/project/fasttext/0.7.2/
改进TextRank与结合BiGRU的两种关键词提取方法研究17(4)将改进的边权重ijW迭代TextRank公式直至收敛,得到主题排名。(5)对每个主题,选择首先出现在文档中的候选词作为关键词。2.2.6Single-TPRSingle-TPR[60]是针对Liu等人在2010年提出的TopicalPageRank(TPR)[42]的改进,Liu等人使用LDA从维基百科中获取单词主题,并对每个主题设置一个PageRank,对每个文档进行多次计算,再对每个主题值求和以提取关键词。2015年Sterckx等人[60]提出对每个文档d使用一个PageRank,使用一个权值()iTw来表示PageRank中每个单词iw的全部主题重要性,()iTw计算为词-主题概率pwit=y=1kp(wi|ty)与文档-主题概率ptd=y=1kp(ty|d)之间的余弦相似度,如公式2-16所示。单个PageRank值变化为公式2-15的()iSw。通过使算法计算一次,而不依赖于主题t的数量k,这大大减少了计算时间。()()()()()(1)()jikjjiiijwInwjkwOutwwvWTwSwSwWTw(2-15)(|)(|)()||(|)||||(|)||iiipwtptdTwpwtptd(2-16)2.2.7RaKUn通过无监督学习和元顶点聚合来提取基于排名的关键词,由Skrlj等人[61]在2019年提出,是一种基于图的关键词提取方法。引入了元顶点的概念,来聚集相似的顶点。元顶点的构造如图2-4所示,相同形状的图案表示相似的单词,将相同形状的节点合并成为一个元顶点。根据所考虑的节点计算的负载中心度得分,将从单字符提取扩展到双字符和三字符关键词。这个方法有效的减少了词图的大校图2-4元顶点的构造
【参考文献】:
期刊论文
[1]改进的关键词提取算法研究[J]. 王涛,李明. 重庆师范大学学报(自然科学版). 2019(03)
[2]一种基于信息熵的关键词提取算法[J]. 吴华,罗顺,孙伟晋. 计算机与数字工程. 2019(03)
[3]多特征关键词提取算法研究[J]. 王洁,王丽清. 计算机系统应用. 2018(07)
[4]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[5]基于词共现的关键词提取算法研究与改进[J]. 和志强,王丽鹏,张鹏云. 电子技术与软件工程. 2018(01)
[6]基于多视角聚类模型的微博文本数据挖掘算法研究[J]. 陈兰兰,胡细玲. 科技通报. 2017(11)
[7]基于扩充词汇链改进的关键词提取算法[J]. 王小林,朱磊,邰伟鹏. 苏州科技大学学报(自然科学版). 2017(02)
[8]词向量聚类加权TextRank的关键词抽取[J]. 夏天. 数据分析与知识发现. 2017(02)
[9]融合Word2vec与TextRank的关键词抽取研究[J]. 宁建飞,刘降珍. 现代图书情报技术. 2016(06)
[10]关键词提取的K-means方法在设备分类中的运用[J]. 陈立,田端正. 计算机系统应用. 2015(12)
硕士论文
[1]基于图与LDA的中文文本关键词提取算法[D]. 郭庆.北京邮电大学 2019
[2]基于新闻文本的关键词提取[D]. 陶洁.华中师范大学 2019
[3]面向电商领域的关键词提取技术研究[D]. 樊继康.哈尔滨工业大学 2018
[4]中文社交媒体话题关键词抽取算法[D]. 何伟名.北京交通大学 2017
[5]搜索引擎中关键词分类方法评估及推荐应用[D]. 钟文波.华南理工大学 2015
[6]基于文本的关键词提取方法研究与实现[D]. 杨林.安徽工业大学 2013
本文编号:3349832
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3349832.html