基于用户特征的社交网络信息传播的研究
发布时间:2017-08-04 06:23
本文关键词:基于用户特征的社交网络信息传播的研究
更多相关文章: 信息传播 增量混合特征 基于数据点的排序学习 增量学习
【摘要】:随着信息技术和社交网络的快速发展,在线社交网络已经成为互联网信息发布和传播的主要渠道。为更好的研究用户行为模式,掌握舆论热点,挖掘用户兴趣并构建用户画像,信息传播逐渐成为当前社交网络的研究热点。当前,信息传播研究分为针对信息传播性质的分析型研究、面向信息传播过程建模的解释型研究以及面向信息传播参与者行为选择建模的预测型研究。分析型方法侧重对信息传播模式的分析而缺乏对信息传播本质的深层探讨;解释型方法尝试对尚未明了的信息传播机制建模,因而在适用性方面受到一定限制;预测型方法尝试对用户转发选择行为进行预测,但由于静态网络结构的假设而缺少对社交网络增量特性的支持。因此,全面、动态、增量地处理社交网络数据成为预测信息传播亟待解决的问题。当前,机器学习技术在众多领域取得了重大突破,排序学习模型(Learning To Rank,简称LTR模型)作为机器学习和信息检索领域最重要的模型之一,受到越来越多的关注。排序学习以及其他机器学习模型被用于解决信息传播问题后,取得了较好的效果,但仍然存在一定缺陷:第一,由于信息传播机制尚未明了,导致特征生成方法不够明确,而现有特征也不足以体现信息传播的本质;第二,社交网络动态结构给研究信息传播带来难度,动态的跟踪用户拓扑关系变化比较困难,另外增量变化的社交数据也要求增量的构建多维复合特征;第三,由于社交网络用户和信息数量过大,排序学习的候选集生成方案在社交网络环境下的复杂度较高,并且排序学习缺乏对数据和模型的增量性的支持。因此,本文针对基于排序学习的信息传播预测算法进行了相关研究,主要工作包括:(1)通过选取分析型、解释型和预测型方法中的典型特征,在机器学习算法框架内,从三个方面进行了特征扩展:用户属性特征、用户关系特征及微博与事件特征,实验结果表明扩展后的特征有助于提高信息传播预测的精度。(2)采用信息流入流出的动态结构代替静态拓扑结构,在此基础上并提出了基于时间窗的增量混合特征生成算法(Incremental Mix Feature Generation,简称I-MFG算法),该方法基于社交网络特征扩展以及增量学习思想改进了社交网络特征生成方法。实验结果表明I-MFG算法可以提高混合特征的预测准确率,较好的适应增量的数据,较准确的反映用户行为特征的动态性和复杂性。(3)针对社交网络数据和预测模型增量性的需要,本文基于LTR模型提出了新的基于数据点的增量排序学习算法(Incremental pointwise Learning To Rank,简称I-pLTR算法)。该方法利用动态的信息流通道代替用户关注拓扑,可以适应动态变化的网络结构,并且较大的提高了LTR算法的候选集生成效率。另外,I-pLTR算法基于增量学习的思想,利用已经训练过时间窗内的数据生成部分实例内存和部分概念内存,将算法的训练过程及模型的增量过程融合,新浪微博和Twitter数据集上的实验结果表明该算法可以有效减少候选集生成时间,同时I-pLTR算法具有较好的随着时间推移的泛化能力。
【关键词】:信息传播 增量混合特征 基于数据点的排序学习 增量学习
【学位授予单位】:东南大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:G206;TP181
【目录】:
- 摘要5-6
- Abstract6-11
- 第一章 绪论11-16
- 1.1 研究背景11
- 1.2 研究现状11-14
- 1.2.1 分析型研究11-12
- 1.2.2 解释型研究12-13
- 1.2.3 预测型研究13-14
- 1.3 本文研究内容14-15
- 1.4 本文组织结构15-16
- 第二章 相关技术16-30
- 2.1 信息传播概述16-22
- 2.1.1 基本概念16-19
- 2.1.2 信息传播性质19-20
- 2.1.3 信息传播机制20-22
- 2.2 基于机器学习的预测型方法22-24
- 2.2.1 研究框架22
- 2.2.2 任务建模与性能度量22-23
- 2.2.3 研究信息传播常用特征23-24
- 2.3 排序学习算法24-27
- 2.3.1 基本概念24-26
- 2.3.2 排序学习算法分类26
- 2.3.3 排序学习与社交网络分析26-27
- 2.4 增量学习27-29
- 2.4.1 基本概念27
- 2.4.2 增量学习算法27-28
- 2.4.3 增量学习与社交网络分析28-29
- 2.5 本章小结29-30
- 第三章 增量混合特征生成算法30-44
- 3.1 增量混合特征生成算法概述30-32
- 3.1.1 符号与基本假设30-31
- 3.1.2 算法步骤与流程图31-32
- 3.2 属性库的设计与生成32-33
- 3.2.1 用户属性库32
- 3.2.2 关系属性库32-33
- 3.2.3 微博与事件属性库33
- 3.3 混合特征库的设计与生成33-38
- 3.3.1 用户特征34-36
- 3.3.2 关系特征36-37
- 3.3.3 微博与事件特征37-38
- 3.4 特征的增量更新方法38-43
- 3.4.1 不同时间粒度的特征38-39
- 3.4.2 时间窗的选择39-41
- 3.4.3 特征的增量更新过程41-43
- 3.5 本章小结43-44
- 第四章 基于数据点的增量排序学习算法44-57
- 4.1 基于数据点的增量排序学习算法概述44-46
- 4.1.1 符号与基本假设44
- 4.1.2 算法步骤与流程图44-46
- 4.2 训练集生成46-47
- 4.2.1 候选集生成46-47
- 4.2.2 训练集生成47
- 4.3 改进的基于数据点的排序学习算法47-52
- 4.3.1 训练与学习过程48-49
- 4.3.2 预测与验证过程49-50
- 4.3.3 反馈与更新过程50-52
- 4.4 增量模型52-56
- 4.4.1 增量模型基本思想53
- 4.4.2 首个时间窗的预测模型53-54
- 4.4.3 当前时间窗的增量预测模型54-56
- 4.5 本章小结56-57
- 第五章 实验设计与结果分析57-74
- 5.1 实验设计与数据集描述57-59
- 5.1.1 实验设计57-58
- 5.1.2 新浪微博公开数据集58-59
- 5.1.3 推特公开数据集59
- 5.2 属性库与特征库配置59-61
- 5.2.1 属性库的选择与配置59-60
- 5.2.2 特征库的选择与配置60-61
- 5.3 增量混合特征生成算法实验结果及分析61-67
- 5.3.1 实验一:基于信息增益确定时间窗大小61-62
- 5.3.2 实验二:特征衰减速率与预测准确率62-63
- 5.3.3 实验三:特征更新权重与预测准确率63-64
- 5.3.4 实验四:特征的不同类别与预测准确率64-66
- 5.3.5 实验五:特征的时间维度与预测准确率66-67
- 5.4 基于数据点的增量排序学习算法实验结果及分析67-73
- 5.4.1 实验一:候选集生成方案的效率对比67-68
- 5.4.2 实验二:反馈更新过程中不同学习率与模型泛化能力68-69
- 5.4.3 实验三:增量模型组合权重与模型泛化能力69-70
- 5.4.4 实验四:不同特征类型与模型泛化能力70-72
- 5.4.5 实验五:模型泛化能力对比72-73
- 5.5 本章小结73-74
- 第六章 总结与展望74-76
- 6.1 本文总结74-75
- 6.2 未来工作75-76
- 致谢76-77
- 参考文献77-80
【参考文献】
中国期刊全文数据库 前4条
1 王乐;王勇;王东安;徐小琳;;社交网络中信息传播预测的研究综述[J];信息网络安全;2015年05期
2 王莉;程学旗;;在线社会网络的动态社区发现及演化[J];计算机学报;2015年02期
3 曹玖新;吴江林;石伟;刘波;郑啸;罗军舟;;新浪微博网信息传播分析与预测[J];计算机学报;2014年04期
4 李栋;徐志明;李生;刘挺;王秀文;;在线社会网络中信息扩散[J];计算机学报;2014年01期
,本文编号:618101
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/618101.html