当前位置:主页 > 科技论文 > 软件论文 >

文献语义耦合网络的构建与聚类研究

发布时间:2022-01-03 15:12
  随着网络信息技术的快速发展,文本挖掘领域日益受到关注,已经成为当前研究的热点之一。文本挖掘指的是从文本数据中获取有价值的信息和知识,最常用的一种方法就是利用文献耦合对现有文献进行回顾分析。传统的文献耦合网络是通过文献间的耦合强度构建的,只考虑了耦合关系,没有考虑文献内容间的相似性。为了更准确地刻画文献间的相似关系,本文在文献耦合网络的基础上添加语义信息,构建文献语义耦合网络,并对构建的网络进行聚类分析。本文的研究工作主要从以下三方面开展:首先,构建文献语义耦合网络。通过隐含狄利克雷分配(Latent Dirichlet Allocation,简称LDA)建模方法量化网络中节点的语义信息,将节点的语义信息与节点间的耦合关系相结合,在网络拓扑特征的基础上考虑网络的语义特征,借助社会网络拓扑势的思想构建语义网络的语义场模型,进而构建文献语义耦合网络。其次,优化模块度评价指标。由于本文构建的文献语义耦合网络既考虑了节点间的耦合关系,也考虑了节点的语义信息。因此,其相应的社区发现评价指标不仅要考虑社区内部的关系合理性,还需要考虑节点间的语义信息相似性。基于上述考虑,定义一个语义模块度评价指标。通... 

【文章来源】:山西大学山西省

【文章页数】:54 页

【学位级别】:硕士

【部分图文】:

文献语义耦合网络的构建与聚类研究


Louvain算法流程图

数据存储结构,先验参数


文献语义耦合网络的构建与聚类研究 话题分布先验参数 某一话题中,关键词分布的先验参数图 3.1 为 LDA 模型对 w , d , z 的存储结构,灰色代表集合内的相同元素,wwwwiiii1345 表 明wi1,wi3,wi4,wi5是 同 一 关 键 词 ,dddiii126 表 明wi1,wi2,wi6是隶属于di1的关键词,zzziii136 表明wi1,wi3,wi6都在同一话题zi1下且zi1分别隶属于节点di1和di3。

模型图,概率图,模型,维度


图 3.2 LDA 概率图模型型中话题和关键词的联合概率密度函数为: ,,,,.1 1 KmNnmmnmwzPzP zw P P 和z ,得到网络中节点的边缘分布: ,,.1 Pw P Pz Pwz d Nn zndnnnbs 迭代过程 Sampling 是 MCMC(Markov-Chain Monte Carlo)算法的一个特样来替代全概率分布的抽样。这个算法的思想是每次选取概定其他维度的变量值抽样确定当前维度的值,不断迭代,直5]。的关键词层w和话题层z 之间的关系可用下式表示:


本文编号:3566493

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3566493.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户13fb7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com