基于文档主题结构和词图迭代的关键词抽取方法研究

发布时间:2021-01-03 07:14
  【目的】利用主题模型得到文本主题信息,将主题信息融入TextRank模型对其进行改进,提升文本关键词自动抽取的准确率和召回率。【方法】利用LDA对文档集进行主题建模,得到候选关键词的主题词分布和文档主题分布;结合候选关键词主题分布特征计算节点权重,加权文档–主题概率分布和主题–词概率分布特征作为节点的随机跳转概率;构建新的转移矩阵进行词图迭代,得到改进后的TextRank模型。【结果】采集南方周末网站1 559篇新闻文章进行实验。结果表明,本文模型的关键词抽取效果明显优于原始TextRank和TF-IDF模型;当抽取关键词个数为3时,本模型准确率比原始TextRank模型的准确率提升4.7%,比TF-IDF提升6.5%。【局限】融合算法的计算复杂度增加。【结论】融合主题信息的TextRank算法能够使关键词自动抽取效果更加显著。 

【文章来源】:数据分析与知识发现. 2019年08期 北大核心CSSCI

【文章页数】:9 页

【参考文献】:
期刊论文
[1]自动关键词抽取研究综述[J]. 赵京胜,朱巧明,周国栋,张丽.  软件学报. 2017(09)
[2]词向量聚类加权TextRank的关键词抽取[J]. 夏天.  数据分析与知识发现. 2017(02)
[3]基于图和LDA主题模型的关键词抽取算法[J]. 刘啸剑,谢飞,吴信东.  情报学报. 2016 (06)
[4]一种基于LDA模型的关键词抽取方法[J]. 朱泽德,李淼,张健,曾伟辉,曾新华.  中南大学学报(自然科学版). 2015(06)
[5]融合LDA与TextRank的关键词抽取研究[J]. 顾益军,夏天.  现代图书情报技术. 2014(Z1)
[6]词语位置加权TextRank的关键词抽取研究[J]. 夏天.  现代图书情报技术. 2013(09)
[7]基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J]. 钱爱兵,江岚.  情报理论与实践. 2008(06)

博士论文
[1]面向主题的关键词抽取方法研究[D]. 丁卓冶.复旦大学 2013

硕士论文
[1]基于改进的TFIDF关键词自动提取算法研究[D]. 杨凯艳.湘潭大学 2015



本文编号:2954555

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/2954555.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d75eb***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com