当前位置:主页 > 科技论文 > 数学论文 >

基于蚁群算法的文本网络重叠社区发现方法研究

发布时间:2020-03-26 11:30
【摘要】:文本作为信息载体,是互联网资源传播的主要途径,海量的数据信息使用户在查询时选择太多,真假难辨,如何高效准确搜寻目标信息是一个亟待解决的问题.复杂网络的兴起开拓了社区结构研究的视野,学者们相继从各种网络数据集中有效发现社区结构,因此对文本网络社区结构的研究成为一个重要课题.而重叠社区检测在研究真实网络的隐藏结构方面效果突出,本文对文本加权复杂网络进行基于蚁群算法的文本网络重叠社区发现研究.首先,本文基于文本相似度构建加权网络模型.利用词语共现网中节点的综合特性提取可反映文本主题的关键词,并借助维基百科知识库,进行词语-概念匹配,通过链接距离和类别距离综合度量词语间相关度.然后提出一种综合考虑语义信息与语言结构的文本相似度方法,进而构建出以文本为节点,以相似度为边权的文本集复杂网络.其次,本文提出了一种改进蚁群算法优化重叠社区发现算法(LEAC-OCD).该算法将核心节点与邻居普通节点构成三角形模体,以模体作为蚁群算法的初始值.然后构造模体加权社区聚类函数作为算法的适应性函数,用于判断和量化社区结构的稳定性,并采用模体有序表编码方法,实现粗糙划分社区结构.算法通过蚂蚁在转移机制的启发下自由移动改变蚂蚁位置的归属,再利用后处理策略得到重叠社区划分结果.实验表明,在模拟数据集与人工数据上,LEAC-OCD算法优于其它经典算法.最后,将LEAC-OCD算法应用于文本网络社区发现中.先利用GN算法对不同数据集进行划分,确定文本相似度的有效阈值区间,进而构建不同阈值的文本网络,再运用LEAC-OCD算法及其他经典重叠社区发现方法划分文本网络,结果表明本文的算法模块度函数值较高,能有效划分出高质量文本社区.
【图文】:

平分法,社区


图 1-3 Karate 网络的谱平分法划分结果区发现方法区发现方法旨在将复杂网络划分为若干个彼此独立分离的社区, 但是在实际网络中存在许多彼此重叠、相互关联的社网络中, 一个企业集团可能同时运营房地产、影视娱乐、文几个不同的社团中; 语义网络中, 每个单词因具有多个词性在科学研究合作网中, 科学家或研究员具有研究不同领域的质功能划分社区, 许多蛋白质具备多个功能, 该网络是重叠同时隶属于多个不同的社区, 更能真实反映网络的组成结构同原理的研究, 本文分为以下六类: 派系过滤算法(Cli扩展和优化方法、链接划分算法、模糊检测算法、标签传过滤算法(Clique percolation method)[22]由 Palla 等最先提出, 是通过

集网,算法


图 4-4 算法在模拟数据集上的 NMI 值对比结果LEAC-OCD 算法、CPM 算法、LPPB 算法和 COPRA 算法在真实数据集网络得到的SQ值均在0.5以上, 表明具有划分较清楚的重叠社区结构, 如下图4-5将LEAC-OCD算法与其他算法作对比, 在真实数据集网络得到的 SQ 值比其他三种算法较高, 除在较大节点的 PGP 网络中, LEAC-OCD 算法 SQ 值低于 LPPB 和 COPRA, 但高于 CPM 算法.该算法无论在大规模还是小规模的数据集上都有较稳定的精度.图 4-5 算法在真实数据集网络上得到的 SQ 值2 2.5 3 3
【学位授予单位】:武汉理工大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:O157.5;TP18

【相似文献】

相关期刊论文 前10条

1 汪明霓;BASIC文本系统[J];计算机应用研究;1988年01期

2 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期

3 娄道国;李若斌;刘冰;张冬冬;;云计算下各分散文本数据的全方位集成融合方法[J];科技通报;2019年02期

4 潘大胜;;不确定噪声下海量文本数据的模糊挖掘算法研究[J];微电子学与计算机;2017年09期

5 王珊珊;冯利鑫;;基于新词识别的大数据聊天文本舆情热点挖掘[J];电子商务;2018年01期

6 陈晓峰;如何在flash中读入外部文本数据[J];电脑知识与技术;2004年13期

7 马欣欣;林克;;大文本数据快速分析统计理论与算法[J];电子元器件与信息技术;2019年01期

8 施瑞朗;;基于社交平台数据的文本分类算法研究[J];电子科技;2018年10期

9 张玉红;陈伟;胡学钢;;一种面向不完全标记的文本数据流自适应分类方法[J];计算机科学;2016年12期

10 袁鹏;江媛媛;;多元化文本数据的智能提取[J];测绘与空间地理信息;2015年09期

相关会议论文 前10条

1 易天元;叶春生;;工业锅炉图纸输入的文本数据处理[A];1997中国控制与决策学术年会论文集[C];1997年

2 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年

3 周纯洁;黎],

本文编号:2601379


资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/yysx/2601379.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户246b9***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com