当前位置:主页 > 社科论文 > 图书档案论文 >

基于LDA-HMM的知识流动模式发现研究

发布时间:2020-10-17 14:56
   【目的/意义】知识流动模式能够动态反映知识形态在知识流动中发生的变化,体现学科系统中不同知识体系的发展规律,因此从科学文献角度出发研究知识流动模式的发现具有重要意义。【方法/过程】以图书情报学领域为例,设计一种组合方法,首先采用LDA(latent Dirichlet allocation,隐狄里克雷分布)主题模型进行领域内文献的主题聚类,然后提取引用和被引用数据构成主题知识流入、流出特征,并作为HMM(Hidden Markov Model,隐马尔可夫模型)训练模型的观测值序列,识别不同的隐藏状态,进一步对模型的拟合效果进行评估,最后通过聚类分析将隐藏状态序列与知识流动模式一一对应,揭示图书情报学领域存在不同知识流动模式的差异性。【结果/结论】实验结果显示,不同类型的知识流动模式具有不同的表现形式,反映了领域内部主题研究的演变历程,为理解和认识科学发展趋势具有一定价值。
【部分图文】:

模式图,知识流动,模式,方法


本文以图书情报领域期刊引用数据为例进行实证分析,通过LDA主题模型划分知识单元,将知识流入、流出作为HMM模型训练输入参数,对比不同主题知识流动表现,以揭示图书情报领域主要的知识流动过程及规律,为探究学科知识系统动态发展的理论和实践方面提供一个新视角,具体过程如图1。3.1 LDA主题模型

折线图,主题,折线图


首先,对图书情报领域数据集进行主题生成,主题数K取5至120区间(步长为5),运行参数α为50/K(K为主题数),β为0.01,迭代次数为1000。然后,根据公式(1)计算不同主题数下的困惑度值,结果见图2。横坐标表示主题数K,纵坐标表示困惑度值Perplexity。图中的曲线显示,困惑度值随着主题数的增加呈现出先减小后增加的趋势,当主题数为25时,困惑度值达到最小值2.206。按照困惑度最小LDA聚类效果最佳的原则,本文取最优主题数为25。5.1.2 LDA主题分类结果

等高线图,概率密度函数,等高线图,状态


HMM模型是一个双重随机过程,一重是描述隐状态与观测值之间的对应关系,另一重是描述状态之间的转移关系。本文Baum-Welch算法的实现是利用Python的隐马尔科夫HMMLearn库实现,对表2中的样本数据进行训练,构建多维连续HMM模型。隐状态的确定是HMM模型中的重要问题,根据公式(2)BIC准则计算公式,输入不同隐状态数训练HMM并计算模型的BIC值,得到结果见表3。结果显示,当状态数为6时,BIC值达到最小为5125.72,因此根据“BIC值越小,模型越优”的原则,取知识流动隐状态数为6,模型适配度最好。设定隐状态数为6,提取25个主题样本的知识流入、流出特征,输入到最终训练的HMM值中进行识别,得到每个观测值对应的隐状态(状态1至状态6)。聚集不同隐状态对应的知识流入、知识流出特征,绘制等高线图,见图3;图3中横、纵坐标为知识流入、流出自变量,因变量用二元偏态分布概率密度函数表示。
【相似文献】

相关期刊论文 前1条

1 陈伟;林超然;李金秋;杨早立;;基于LDA-HMM的专利技术主题演化趋势分析——以船用柴油机技术为例[J];情报学报;2018年07期



本文编号:2844941

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/2844941.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d0fd3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com