基于多属性融合的关键词提取研究
发布时间:2021-06-05 07:18
关键词是文档主题信息的精炼,借助关键词可以快速地获取文本主旨,其研究成果可广泛用于文档检索、文本分类、文本主题挖掘等具体领域。传统基于图的关键词提取方法主要研究的是对词图中的单词进行准确评分,对提取关键短语的研究工作不足,且利用的有效属性较少。本文聚焦于用图方法进行关键词提取,总结了传统图模型的不足,提出多属性融合的图关键词提取方法,论文工作包括:提出关键词的相关属性和其属性值的计算方法,围绕通用关键词提取框架对现有方法进行综述,重点介绍与本文方法相关的基于图的关键词提取方法。首先利用已有的算法取得词图中每个单词的评分,然后据此融合短语的多种属性对候选关键短语评分并排序进而提取关键词。针对传统图方法中候选短语的评分结果易受单词的评分与短语长度的影响,本章提出融和短语频率属性、位置属性与长度属性的评分方法,尝试改变属性值的计算方法与融合方法以找到最佳的短语评分方法。实验结果表明,最优的融合方法在三类数据集上的各项评分指标都超越了其他对比的融合方法,能提高关键词提取结果。基于PageRank算法,结合词向量与词显式属性来改进词图中的单词评分算法。针对现有基于图的关键词提取方法忽略了词在序列...
【文章来源】:中国民航大学天津市
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
论文关键词和新闻关键词
中国民航大学硕士学位论文26时,位置因素的作用有利有弊,如KDD数据集中,Single-TPR和WAR的短语评分方法在频次为1时加入位置因素后关键词提取结果没有仅使用词频特征显著;SIGIR数据集中,WAR和PositionRank的短语评分算法在频次为3时因位置因素的加入提升了关键词的提取结果。结合表3-3可知,方法11的适用场景是当候选短语频率不同时。(4)分析单词评分的结果对最终提取关键词的影响。基于上述从短语统计层次着手进行的研究,现从单词的评分结果入手,本章认为直接使用短语内含单词的评分之和的短语评分算法可以间接地评判单词评分的影响。在这种方式下用不同的单词评分方法得到的关键词提取结果会有差异,比较4种单词评分方法对最终提取性能的影响得图3-2。图3-2所示为4种单词评分算法在使用短语评分算法1、8、9、11时关键词的提取结果。观察图可知,在三类数据集中,PositionRank在短语评分方法1及其他3种短语评分方法中提取结果的F值均最优。因此可知,单词的评分结果对短语的打分以及最终的提取结果有影响,准确的单词评分能提升提取关键词的正确率。3.6本章总结关键短语作为科技文献的主题,相对于关键词更能体现作者的主体思想。本章针对传统关键短语提取方法受短语长度影响的缺点,提出了一种新的基于图的关键短语评分方法,虽然增加了提取文本关键词的复杂度,但获得了较高的准确率,有一定的应用价值。另外,通过实验得出优异的单词评分算法能提升提取关键短语的准确率,所以后续的研究将把重点放到单词的评分算法上。图3-24种单词评分方法提取结果对比
中国民航大学硕士学位论文33Skip-gram模型负采样个数为3;TWE-1模型中主题数目为5;FastText词向量来自谷歌公司使用默认参数在维基百科上预训练的词向量集。本章对词向量的细节不做过多探讨,因此参数选择默认值即可。接下来是与关键词提相关的参数设置。构建词图时滑动窗口大小c的范围是1~10,c越大算法复杂率越高,所以本章将初始值设为2;PageRank算法的阻尼因子α设为通用值0.85;在计算实验结果的F值时初始取top-k=4。我们会在具体的实验中比较k的取值与词向量模型对提取结果的影响。4.5.4实验结果与分析为了降低实验的复杂性,安排如下:第一次实验在单词评分算法中探讨top-k中k和词向量模型对于提取结果的影响;第二次实验使用第一次实验结果得出的最佳k值然后比较14种短语评分方式对于提取结果的影响。图4-3是三种词向量模型分别在不同k值和数据集上的词向量提取结果。图4-3(b)TWE-1词向量的实验结果图4-3(a)FastText词向量的实验结果图4-3(c)Skip-gram词向量的实验结果
【参考文献】:
期刊论文
[1]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[2]共词分析与LDA模型分析在文本主题挖掘中的比较研究[J]. 曲靖野,陈震,胡轶楠. 情报科学. 2018(02)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
本文编号:3211711
【文章来源】:中国民航大学天津市
【文章页数】:55 页
【学位级别】:硕士
【部分图文】:
论文关键词和新闻关键词
中国民航大学硕士学位论文26时,位置因素的作用有利有弊,如KDD数据集中,Single-TPR和WAR的短语评分方法在频次为1时加入位置因素后关键词提取结果没有仅使用词频特征显著;SIGIR数据集中,WAR和PositionRank的短语评分算法在频次为3时因位置因素的加入提升了关键词的提取结果。结合表3-3可知,方法11的适用场景是当候选短语频率不同时。(4)分析单词评分的结果对最终提取关键词的影响。基于上述从短语统计层次着手进行的研究,现从单词的评分结果入手,本章认为直接使用短语内含单词的评分之和的短语评分算法可以间接地评判单词评分的影响。在这种方式下用不同的单词评分方法得到的关键词提取结果会有差异,比较4种单词评分方法对最终提取性能的影响得图3-2。图3-2所示为4种单词评分算法在使用短语评分算法1、8、9、11时关键词的提取结果。观察图可知,在三类数据集中,PositionRank在短语评分方法1及其他3种短语评分方法中提取结果的F值均最优。因此可知,单词的评分结果对短语的打分以及最终的提取结果有影响,准确的单词评分能提升提取关键词的正确率。3.6本章总结关键短语作为科技文献的主题,相对于关键词更能体现作者的主体思想。本章针对传统关键短语提取方法受短语长度影响的缺点,提出了一种新的基于图的关键短语评分方法,虽然增加了提取文本关键词的复杂度,但获得了较高的准确率,有一定的应用价值。另外,通过实验得出优异的单词评分算法能提升提取关键短语的准确率,所以后续的研究将把重点放到单词的评分算法上。图3-24种单词评分方法提取结果对比
中国民航大学硕士学位论文33Skip-gram模型负采样个数为3;TWE-1模型中主题数目为5;FastText词向量来自谷歌公司使用默认参数在维基百科上预训练的词向量集。本章对词向量的细节不做过多探讨,因此参数选择默认值即可。接下来是与关键词提相关的参数设置。构建词图时滑动窗口大小c的范围是1~10,c越大算法复杂率越高,所以本章将初始值设为2;PageRank算法的阻尼因子α设为通用值0.85;在计算实验结果的F值时初始取top-k=4。我们会在具体的实验中比较k的取值与词向量模型对提取结果的影响。4.5.4实验结果与分析为了降低实验的复杂性,安排如下:第一次实验在单词评分算法中探讨top-k中k和词向量模型对于提取结果的影响;第二次实验使用第一次实验结果得出的最佳k值然后比较14种短语评分方式对于提取结果的影响。图4-3是三种词向量模型分别在不同k值和数据集上的词向量提取结果。图4-3(b)TWE-1词向量的实验结果图4-3(a)FastText词向量的实验结果图4-3(c)Skip-gram词向量的实验结果
【参考文献】:
期刊论文
[1]特征驱动的关键词提取算法综述[J]. 常耀成,张宇翔,王红,万怀宇,肖春景. 软件学报. 2018(07)
[2]共词分析与LDA模型分析在文本主题挖掘中的比较研究[J]. 曲靖野,陈震,胡轶楠. 情报科学. 2018(02)
[3]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽. 软件学报. 2017(09)
本文编号:3211711
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/3211711.html