基于连接强度的用户社区划分算法及应用研究
本文关键词:基于连接强度的用户社区划分算法及应用研究
更多相关文章: 数据挖掘 聚类分析 社区划分 兴趣相似度 连接关注度
【摘要】:近年来,社交网络进入了井喷式的发展,正在悄然改变着人们的生活方式和社交习惯。社交网络是一个可供消息快速流通的重要媒介,人们可以通过社交网络获取一些重要的即时信息。面对社交网络中的海量信息,如何使用有效的挖掘技术发现庞大数据背后隐藏的潜在有用知识,对处于信息时代的我们有至关重要的意义。研究发现,复杂的社交网络中存在类似于真实社会的社区结构,准确高效地识别这些社区结构已成为了社交网络近年来的一个研究热点。传统的社交网络社区识别算法主要分为以节点属性进行划分和节点间连接强度进行划分两大类。前者将个体节点看成毫无关联的孤立点,忽略了信息传播过程中个体与周围节点的连接关系;后者忽略了节点的内在属性,划分出的社区用户相似度不高。针对上述情况,本文研究了几种比较经典的社交网络社区划分算法,分析了这些算法的思想和不足,结合Net Scan算法提出了一种基于连接强度的兴趣相似用户社区划分算法,并在开源数据挖掘平台Weka实现了微博用户社区划分实验。本文所做工作如下:1.对微博用户关系进行分类,提出单向用户行为和双向用户行为的概念,并应用于节点连接度计算;2.改进Page Rank模型,提出适用于微博网络结构的Indirect Link Rank模型,用以计算间接连接节点的连接强度;3.基于Net Scan算法同时考虑节点属性和节点间连接关系的思想,改进其只考虑连接关系的存在性而未解决连接属性利用的不足,提出了基于连接强度的兴趣相似社区划分算法LBI,用节点间的连接强度代替Net Scan算法中以节点的属性距离为半径的自动搜索方式,节点属性则用于度量节点间内在的兴趣相似性,划分出以最强连接和相似兴趣聚集的用户社区。4.扩展Weka过滤器,使之能对中文文本进行过滤、分词、距离度量,实现微博数据预处理;设计的LBI聚类器实现了微博用户的社区划分。
【关键词】:数据挖掘 聚类分析 社区划分 兴趣相似度 连接关注度
【学位授予单位】:兰州理工大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:O157.5;TP311.13
【目录】:
- 摘要7-8
- Abstract8-12
- 第1章 绪论12-16
- 1.1 研究背景与意义12-13
- 1.2 国内外研究现状13-14
- 1.3 论文的主要研究内容14-15
- 1.4 论文的组织结构与安排15-16
- 第2章 预备知识与相关算法16-24
- 2.1 数据挖掘概述16-21
- 2.1.1 数据挖掘的方法和过程16-18
- 2.1.2 聚类概述18-20
- 2.1.3 经典聚类算法—K-Means算法20-21
- 2.2 社交网络社区发现算法21-23
- 2.2.1 社区发现算法概述21-22
- 2.2.2 Net SCAN算法介绍22-23
- 2.3 本章小结23-24
- 第3章 基于连接强度的兴趣相似用户社区聚类算法24-32
- 3.1 模型和相关定义24-27
- 3.1.1 有向信息图模型24
- 3.1.2 微博数据分类24
- 3.1.3 连接关注度24-26
- 3.1.4 节点中心度26-27
- 3.2 轮廓系数27
- 3.3 基于连接强度的相似用户社区划分算法27-31
- 3.3.1 微博关系数据分析及中心节点的选取27-30
- 3.3.2 节点划分及社区合并30-31
- 3.4 本章小结31-32
- 第4章 Weka数据挖掘平台介绍及实验环境搭建32-39
- 4.1 数据挖掘平台概述32-33
- 4.2 Weka数据挖掘平台33-38
- 4.2.1 Weka图像界面33-36
- 4.2.2 Weka访问数据库36-38
- 4.3 Weka在My Eclipse中的部署38
- 4.4 本章小结38-39
- 第5章 基于Weka平台扩展和数据预处理39-52
- 5.1 Weka数据预处理技术39
- 5.2 Weka过滤器扩展39-51
- 5.2.1 Weka过滤器分析39-42
- 5.2.2 Weka过滤器的工作原理42-45
- 5.2.3 Weka过滤器的扩展方法45-46
- 5.2.4 根据实验数据预处理要求扩展Weka过滤器46-51
- 5.3 本章小结51-52
- 第6章 实验及结果分析52-64
- 6.1 用户兴趣相似性计算52-57
- 6.1.1 Weka集成中文分词器IKAnalyzer52-53
- 6.1.2 IK分词器提取博文主题词53-56
- 6.1.3 户兴趣相似性度量56-57
- 6.2 连接关系处理及参数选择57-59
- 6.2.1 建立连接数据关系57-58
- 6.2.2 连接参数选取58-59
- 6.2.3 初始化连接强度59
- 6.3 实验及结果分析59-63
- 6.3.1 实验数据介绍59-60
- 6.3.2 K、L选择及实验分析60-63
- 6.4 本章小结63-64
- 总结与展望64-65
- 参考文献65-69
- 致谢69-70
- 附录A 攻读学位期间所发表论文70
【参考文献】
中国期刊全文数据库 前10条
1 王梦雪;;数据挖掘综述[J];软件导刊;2013年10期
2 李孝伟;陈福才;刘力雄;;一种融合节点与链接属性的社交网络社区划分算法[J];计算机应用研究;2013年05期
3 苗苗苗;王玉英;;基于矩阵压缩的Apriori算法改进的研究[J];计算机工程与应用;2013年01期
4 郝文宁;冯波;陈刚;靳大尉;赵水宁;;基于领域本体的文档向量空间模型构建[J];计算机应用研究;2013年03期
5 黄宇达;范太华;;决策树ID3算法的分析与优化[J];计算机工程与设计;2012年08期
6 周涛;陆惠玲;;数据挖掘中聚类算法研究进展[J];计算机工程与应用;2012年12期
7 林友芳;王天宇;唐锐;周元炜;黄厚宽;;一种有效的社会网络社区发现模型和算法[J];计算机研究与发展;2012年02期
8 常鹏;马辉;;高效的短文本主题词抽取方法[J];计算机工程与应用;2011年20期
9 李良;米智伟;向新;;基于FP-Growth的战略绩效关联分析算法研究[J];微计算机应用;2011年02期
10 夏宁霞;苏一丹;覃希;;一种高效的K-medoids聚类算法[J];计算机应用研究;2010年12期
中国硕士学位论文全文数据库 前10条
1 王明星;数据挖掘算法优化研究与应用[D];安徽大学;2014年
2 宫爱爱;企业级云应用开发平台的研究[D];中国海洋大学;2013年
3 黄翼彪;开源中文分词器的比较研究[D];郑州大学;2013年
4 邹琴;动态社交网络中社区划分算法研究[D];华中科技大学;2012年
5 陈希;基于R语言数据挖掘的社交网络客户细分研究[D];北京邮电大学;2011年
6 包颖;基于划分的聚类算法研究与应用[D];大连理工大学;2008年
7 马飞;数据挖掘中的聚类算法研究[D];南京理工大学;2008年
8 苏振魁;基于马尔科夫模型的文本相似度研究[D];大连理工大学;2007年
9 王鑫;数据挖掘中聚类分析算法的研究[D];山东师范大学;2006年
10 李艳环;人工神经网络在数据挖掘中的应用[D];重庆大学;2004年
,本文编号:621554
本文链接:https://www.wllwen.com/kejilunwen/yysx/621554.html