CTM主题模型在学科主题识别与学科文献分类中的应用研究
发布时间:2022-02-12 23:39
科学技术突飞猛进促进了学科间交流合作,带动了各学科发展。学科文献作为学科知识的承载体,其数量呈高速膨胀的增长态势。要想从繁杂的文献中快速地探测学科研究趋势掌握研究热点并且准确地检索到自己的目标文献,就需要文本数据分析技术的支持。近年来,机器学习的广泛应用使得主题模型得到研究者们重点关注。其中相关主题模型(Correlated Topic Model,CTM)不仅能够挖掘主题粒度的语义信息,还可以利用主题对文本数据进行降维。与主题模型家族中另一个优秀模型——潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)相比,CTM主题模型能够捕获主题与主题之间的相关性,具有丰富的文本表示能力。因而,该模型在自然语言处理、数据挖掘和人工智能等领域占领一席之地。此外,该模型不仅可以处理文本数据,还可以作用于图像数据、语音数据等实体。基于已有研究,本文重点探究如何利用CTM主题模型对学科主题识别以及学科文献自动分类。具体内容如下:前两章主要对国内外主题模型发展以及在学科主题识别与学科文献分类方面的研究做了详细的综述,指出研究中存在的不足。介绍了文本挖掘流程以及各个流程的...
【文章来源】:曲阜师范大学山东省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
文本挖掘基本流程
图 2.2 LDA 主题模型图表示型中,M 表示文档集合,N 表示某篇文档包含的词数级别的参数,是狄利克雷先验分布的超参数。θ是文 w是单词层变量, z代表某篇文档的某个主题,由是唯一可观察到的变量,由z和共同 生成的。LDA( , , , ) ( ) ( ) ( , )2.n n np θ z w= α β p θ α ∏ p z θ p w zβ( 就是根据给定的一篇文档推测其主题分布。在 LDA: 中的每个单词(词):识(超参数α)确定文章的主题分布θ。对应得多项式分布(主题分布)θ 中提取一个主题 z知识(超参数 β )确定当前主题的词分布 。
图 2.3 CTM 主题模型图表示型中,词(红色实心圈表示)是唯一可观察到的随机变量的语义信息,某个主题的文档会使用与该主题相关的单词在文档中一起出现的单词组来发现潜在主题。以这种方式混合模型,其中每个主题的特征在于其自身对词汇的特定题模型文档生成过程集D,假设包含M 篇文档,共有 N 个不同的特征词项。dW成的dN 维向量,d ,nW表示第 d 篇文档中第n个特征词。方差矩阵,表示主题间相关程度,是 K 维均值向量,表示档 d 中的主题概率分布,β代表主题-词项概率分布,Z词(即d ,nW)的所属主题。合D:文档集中所含主题的词项分布,即主题-词项概率分布 β
【参考文献】:
期刊论文
[1]我国大数据时代数字图书馆研究前沿分析——基于共词分析的视角[J]. 赵丽梅,张花. 情报科学. 2019(03)
[2]一种基于词加权LDA模型的专利文献分类方法[J]. 孙伟,刘文静,葛丽阁,余璇. 计算机技术与发展. 2019(03)
[3]面向LDA主题模型的文本分类研究进展与趋势[J]. 赵乐,张兴旺. 计算机系统应用. 2018(08)
[4]中国2001—2016年肥胖大学生运动干预的可视化分析[J]. 冯海成. 中国学校卫生. 2018(03)
[5]基于隐含狄利克雷分布的文本主题提取对比研究[J]. 王静茹,陈震. 情报科学. 2018(01)
[6]基于Rao-Stirling指数的学科交叉文献发现——以纳米科学与纳米技术为例[J]. 韩正琪,刘小平,徐涵. 图书情报工作. 2018(01)
[7]基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J]. 吴江,侯绍新,靳萌萌,胡忠义. 情报学报. 2017(11)
[8]基于LDA挖掘计算机科学文献的研究主题[J]. 杨海霞,高宝俊,孙含林. 现代图书情报技术. 2016(11)
[9]科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 关鹏,王曰芬. 现代图书情报技术. 2016(09)
[10]基于DTM的国内外情报学研究主题热度演化对比研究[J]. 齐亚双,祝娜,翟羽佳. 图书情报工作. 2016(16)
博士论文
[1]基于知识图谱的学科主题识别方法研究[D]. 刘敏娟.中国农业科学院 2016
硕士论文
[1]基于主题概率模型的科技论文分类算法研究[D]. 吴东叡.吉林大学 2018
[2]基于相关主题建模的短文本过滤引擎研究与应用[D]. 薛玥.北京邮电大学 2018
[3]优化特征选择的CTM模型在文本分类中的应用研究[D]. 杨正良.华中师范大学 2016
[4]国内竞争情报研究演进态势—共词分析视角[D]. 李颖.湘潭大学 2010
本文编号:3622597
【文章来源】:曲阜师范大学山东省
【文章页数】:52 页
【学位级别】:硕士
【部分图文】:
文本挖掘基本流程
图 2.2 LDA 主题模型图表示型中,M 表示文档集合,N 表示某篇文档包含的词数级别的参数,是狄利克雷先验分布的超参数。θ是文 w是单词层变量, z代表某篇文档的某个主题,由是唯一可观察到的变量,由z和共同 生成的。LDA( , , , ) ( ) ( ) ( , )2.n n np θ z w= α β p θ α ∏ p z θ p w zβ( 就是根据给定的一篇文档推测其主题分布。在 LDA: 中的每个单词(词):识(超参数α)确定文章的主题分布θ。对应得多项式分布(主题分布)θ 中提取一个主题 z知识(超参数 β )确定当前主题的词分布 。
图 2.3 CTM 主题模型图表示型中,词(红色实心圈表示)是唯一可观察到的随机变量的语义信息,某个主题的文档会使用与该主题相关的单词在文档中一起出现的单词组来发现潜在主题。以这种方式混合模型,其中每个主题的特征在于其自身对词汇的特定题模型文档生成过程集D,假设包含M 篇文档,共有 N 个不同的特征词项。dW成的dN 维向量,d ,nW表示第 d 篇文档中第n个特征词。方差矩阵,表示主题间相关程度,是 K 维均值向量,表示档 d 中的主题概率分布,β代表主题-词项概率分布,Z词(即d ,nW)的所属主题。合D:文档集中所含主题的词项分布,即主题-词项概率分布 β
【参考文献】:
期刊论文
[1]我国大数据时代数字图书馆研究前沿分析——基于共词分析的视角[J]. 赵丽梅,张花. 情报科学. 2019(03)
[2]一种基于词加权LDA模型的专利文献分类方法[J]. 孙伟,刘文静,葛丽阁,余璇. 计算机技术与发展. 2019(03)
[3]面向LDA主题模型的文本分类研究进展与趋势[J]. 赵乐,张兴旺. 计算机系统应用. 2018(08)
[4]中国2001—2016年肥胖大学生运动干预的可视化分析[J]. 冯海成. 中国学校卫生. 2018(03)
[5]基于隐含狄利克雷分布的文本主题提取对比研究[J]. 王静茹,陈震. 情报科学. 2018(01)
[6]基于Rao-Stirling指数的学科交叉文献发现——以纳米科学与纳米技术为例[J]. 韩正琪,刘小平,徐涵. 图书情报工作. 2018(01)
[7]基于LDA模型特征选择的在线医疗社区文本分类及用户聚类研究[J]. 吴江,侯绍新,靳萌萌,胡忠义. 情报学报. 2017(11)
[8]基于LDA挖掘计算机科学文献的研究主题[J]. 杨海霞,高宝俊,孙含林. 现代图书情报技术. 2016(11)
[9]科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 关鹏,王曰芬. 现代图书情报技术. 2016(09)
[10]基于DTM的国内外情报学研究主题热度演化对比研究[J]. 齐亚双,祝娜,翟羽佳. 图书情报工作. 2016(16)
博士论文
[1]基于知识图谱的学科主题识别方法研究[D]. 刘敏娟.中国农业科学院 2016
硕士论文
[1]基于主题概率模型的科技论文分类算法研究[D]. 吴东叡.吉林大学 2018
[2]基于相关主题建模的短文本过滤引擎研究与应用[D]. 薛玥.北京邮电大学 2018
[3]优化特征选择的CTM模型在文本分类中的应用研究[D]. 杨正良.华中师范大学 2016
[4]国内竞争情报研究演进态势—共词分析视角[D]. 李颖.湘潭大学 2010
本文编号:3622597
本文链接:https://www.wllwen.com/tushudanganlunwen/3622597.html