一种用于文本理解的高效关键词抽取算法
发布时间:2017-05-11 18:15
本文关键词:一种用于文本理解的高效关键词抽取算法,,由笔耕文化传播整理发布。
【摘要】:随着互联网的不断发展,互联网信息呈爆炸式增长,如何从这些海量数据中快速、准确地获得关键信息变得十分有意义。关键词作为反映文章主旨的重要方式,成为用户对海量数据进行筛选、理解的有效手段。因此,在自然语言处理和信息检索等领域,关键词抽取技术得到了广泛的应用。传统的关键词抽取算法,主要是从文本中词语的某种统计信息进行考虑,忽略了文章的主题信息,未能从语义层面对关键词进行考察。并且由于传统方法在进行关键词抽取时,往往只考虑文本的某种特性,使得关键词抽取算法的效果仍有较大的提升空间。针对上述问题,本文提出了一种用于文本理解的高效关键词抽取算法。本文工作如下:1)针对关键词抽取时文档自身信息有限的问题,基于相似度的思想,提出了一种基于句子的文本信息扩充算法,算法以句子为基本单位,从相似文本中扩充有助于关键词抽取的句子进行信息扩充,增加文档的信息。2)针对关键词抽取算法准确度相对偏低、主题覆盖度不够理想的问题,提出了一种基于文本扩充与主题模型相结合的关键词抽取算法,算法将文档进行信息扩充,并结合文档的主题分布,进行关键词抽取。实验结果表明算法可以进一步提升关键词抽取效果。3)针对分布式主题模型训练算法存在的通信量大、迭代次数多的问题,提出了一种将分布式节点按照环进行通信的分布式主题模型训练算法,算法将分布式节点按照规则组成一个环,每个节点与环上的相邻节点进行通信。实验结果表明,算法可以以较低的通信量,进一步加快分布式主题模型的训练速度。
【关键词】:关键词抽取 主题模型 Gibbs采样 分布式
【学位授予单位】:南京大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要6-7
- Abstract7-10
- 第一章 绪论10-14
- 1.1 关键词抽取的研究意义10
- 1.2 关键词抽取的挑战性问题10-12
- 1.3 本文工作及组织结构12-14
- 第二章 相关理论14-31
- 2.1 引言14
- 2.2 主题模型14-22
- 2.2.1 LSA14-15
- 2.2.2 PLSA15-17
- 2.2.3 LDA相关知识17-20
- 2.2.4 LDA模型20-22
- 2.3 基于GIBBS采样的LDA22-29
- 2.3.1 MCMC算法22-26
- 2.3.2 Gibbs采样26-27
- 2.3.3 基于Gibbs的LDA推导27-29
- 2.4 PAGERANK算法29-30
- 2.5 本章小结30-31
- 第三章 基于文档扩充与隐性语义的关键词抽取31-47
- 3.1 引言31
- 3.2 关键词抽取的研究现状31-34
- 3.2.1 基于词频的TF-IDF关键词抽取算法32
- 3.2.2 基于图的TextRank算法32-33
- 3.2.3 其它算法33
- 3.2.4 现有研究的不足33-34
- 3.3 文本扩充34-35
- 3.4 基于文档扩充与主题模型相结合的关键词抽取算法35-39
- 3.4.1 算法介绍36-37
- 3.4.2 主题模型训练37-38
- 3.4.3 构建单词图38
- 3.4.4 偏好值设定38
- 3.4.5 ETR关键词制取38-39
- 3.5 实验设置39-41
- 3.5.1 数据预处理40
- 3.5.2 评价指标40-41
- 3.6 实验结果与分析41-46
- 3.6.1 参数对模型的影响41-46
- 3.6.2 与其他方法的比较46
- 3.7 本章小结46-47
- 第四章 基于GIBBS采样的LDA加速算法47-59
- 4.1 引言47
- 4.2 主题模型的加速算法研究现状47-50
- 4.2.1 DCM-LDA算法47-48
- 4.2.2 AD-LDA算法48-49
- 4.2.3 AS-LDA算法49-50
- 4.3 基于环的分布式LDA加速算法50-54
- 4.3.1 已有工作的不足51
- 4.3.2 基于环的分布式LDA加速算法Circle-LDA51-53
- 4.3.3 算法对比53-54
- 4.4 实验结果与分析54-58
- 4.4.1 评价指标54-55
- 4.4.2 实验设置55
- 4.4.3 实验结果与分析55-58
- 4.5 本章小结58-59
- 第五章 总结与展望59-61
- 5.1 本文工作总结59-60
- 5.2 进一步工作60-61
- 参考文献61-64
- 致谢64-65
- 附录65-66
【参考文献】
中国期刊全文数据库 前3条
1 索红光;刘玉树;曹淑英;;一种基于词汇链的关键词抽取方法[J];中文信息学报;2006年06期
2 马颖华,王永成,苏贵洋,张宇萌;一种基于字同现频率的汉语文本主题抽取方法[J];计算机研究与发展;2003年06期
3 韩客松,王永成;中文全文标引的主题词标引和主题概念标引方法[J];情报学报;2001年02期
本文关键词:一种用于文本理解的高效关键词抽取算法,由笔耕文化传播整理发布。
本文编号:357815
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/357815.html