基于机器学习的社交网络用户特征分析
本文关键词:基于机器学习的社交网络用户特征分析
更多相关文章: 用户特征分析 机器学习 谱聚类 复杂网络 信息传播
【摘要】:Web2.0时代的到来使得社交网络日益普及,社交网络中的海量数据蕴藏了无限宝藏等待挖掘。社交网络形态多样且技术日新月异,大数据趋势成为必然,运用先进技术手段对网络中的数据进行训练学习是现实的要求。 由于社交网络发展迅猛,传统的网络研究方法、成果等不再适用。在对社交网络用户进行分析时,大多数研究仅集中于用户某一方面的特征,如行为时间间隔特征等。鉴于此,本文着眼于个体用户的属性、信息、关系三方面特征对社交网络中的用户特征进行了全面的分析。进一步借助机器学习中较为先进的谱聚类算法对所采集的微博实际数据进行了无监督学习。 论文基于社交网络研究多学科交叉结合的特点,采用机器学习、文本处理等手段对以微博为代表的社交网络平台整体特性、用户信息传播特征、用户行为特征、属性特征、关系特征、文本特征进行综合研究。可视化分析是大数据时代对数据进行分析的必然要求,本文对社交网络用户特征分析时实现了网络特性的可视化。 论文完成的主要工作包括:在图论、复杂网络研究、经典病毒传播模型、人类动力学传播模型等理论基础上研究了社交网络特性;利用Gephi实现了社交网络特征可视化;建立了SEIR微博信息传播模型;为微博用户建立了兴趣驱动的用户交互动力学模型;同时,论文采集了微博平台中用户的实际数据,利用LDA主题向量模型对采集的数据进行了处理,再进一步得到了用户之间的相似矩阵,在此基础上利用优于K-means聚类等传统聚类方法的谱聚类算法对样本数据进行了兴趣社区挖掘。通过理论推导和实证分析,论文全面地分析了微博社交平台中用户信息、属性、关系、行为特征,对采集到的样本用户进行了基于兴趣相似度的聚类,采用谱聚类对用户相似兴趣进行聚类时取得了较好的聚类效果。
【关键词】:用户特征分析 机器学习 谱聚类 复杂网络 信息传播
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP393.09;TP181
【目录】:
- 致谢5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-15
- 1.1 研究背景11
- 1.2 选题意义11-12
- 1.3 本论文的主要工作12-13
- 1.4 本论文的组成结构13-15
- 2 相关理论基础及国内外研究现状15-27
- 2.1 复杂网络15-19
- 2.1.1 小世界特性15-18
- 2.1.2 无标度特性18-19
- 2.2 社交网络分析19-21
- 2.2.1 社交网络19
- 2.2.2 社交网络研究的主要领域19-21
- 2.3 社交网络研究现状21-23
- 2.3.1 社交网络信息研究现状21-22
- 2.3.2 社交网络用户研究现状22-23
- 2.4 机器学习23-25
- 2.4.1 机器学习概念23-24
- 2.4.2 监督学习24-25
- 2.4.3 无监督学习25
- 2.5 聚类及谱聚类算法研究现状25-26
- 2.6 本章小结26-27
- 3 社交网络整体特征及信息传播分析27-46
- 3.1 社交网络整体特性及相关概念27-29
- 3.2 社交网络信息及经典信息传播模型29-33
- 3.2.1 微博信息特性29-31
- 3.2.2 经典信息传播模型31-33
- 3.3 信息传播动力学模型改进33-40
- 3.3.1 微博平台简介34-35
- 3.3.2 单信息传播模型改进分析35-37
- 3.3.3 单信息传播模型改进37
- 3.3.4 改进后的信息传播动力学SEIR模型37-39
- 3.3.5 改进后SEIR模型参数计算39-40
- 3.4 社交网络信息特性可视化分析40-45
- 3.5 本章小结45-46
- 4 微博平台用户特征分析46-57
- 4.1 微博用户行为特征研究46-47
- 4.2 微博用户行为动力学模型47-53
- 4.2.1 任务队列模型47-48
- 4.2.2 兴趣驱动模型48-49
- 4.2.3 基于社会交互的模型49-50
- 4.2.4 兴趣驱动的用户交互模型50-53
- 4.3 用户微博文本特征53-54
- 4.3.1 词向量54
- 4.3.2 词向量的训练54
- 4.4 微博用户关系特征54-56
- 4.5 本章小结56-57
- 5. 基于相似性的用户谱聚类分析57-70
- 5.1 谱聚类57-59
- 5.2 微博实证研究数据采集和预处理59-60
- 5.3 用户相似矩阵构造60-63
- 5.3.1 微博用户文本LDA主题生成60-62
- 5.3.2 相似性度量62-63
- 5.4 基于相似度矩阵的谱聚类实现63-67
- 5.5 用户谱聚类效果分析67-68
- 5.6 谱聚类意义探讨68-69
- 5.7 本章小结69-70
- 6 总结与展望70-72
- 参考文献72-75
- 索引75-77
- 作者简历77-79
- 学位论文数据集7
【相似文献】
中国期刊全文数据库 前10条
1 李林容;;社交网络的特性及其发展趋势[J];新闻界;2010年05期
2 陈琛;沙昊;;社交网络的开放融合图谱[J];通信世界;2010年48期
3 杨宇良;;网络让我们更远还是更近[J];互联网天地;2011年01期
4 陈昱;;社交网络革命与国家安全关系[J];情报杂志;2011年S2期
5 劳伦·考克斯;;请在工作时更新你的状态[J];科技创业;2011年05期
6 斯蒂芬·卡斯;;在线社区能否解决隐私问题[J];科技创业;2011年08期
7 陈云鹏;;电子商务引领社交网络走进2.0时代[J];上海信息化;2012年01期
8 马文刚;;智慧的物联社交网络[J];上海信息化;2012年03期
9 朱乾龙;张倩;杜娟;;我国社交网络繁荣背后面临深层次问题困扰[J];世界电信;2012年06期
10 刘华;;社交网络的融合之路[J];软件工程师;2012年07期
中国重要会议论文全文数据库 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜p,
本文编号:1083810
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1083810.html