【摘要】:随着Web 2.0技术的飞速发展,在线社交网络已经成为人们获取、发表和传播信息的重要渠道。社交网络不仅将用户在线下现实社会的社交关系如同学、同事、朋友关系等迁移至互联网,而且拉近了用户与网络大V、知名人士、政府机构等的关系,促进了人类社会的扁平化发展。现实世界中发生的事件、活动等信息通常以话题的形式在社交网络中存在,并随着用户之间的社交关系结构而“核裂变”式地快速传播和演化,其在给人们获取、发表和传播信息带来便利的同时,也会形成网络舆论并反过来影响现实世界中事件、活动等的发展。因此,对社交网络话题传播分析技术进行研究对于促进有益信息传播、抑制不良信息传播和国家的长治久安意义重大,具有重要的理论意义和现实意义。对社交网络话题传播分析技术进行研究面临巨大的挑战,与传统信息网络不同,社交网络具有话题信息短、噪声多、语义复杂、博文数量巨大、关系网络复杂和信息快速传播演化等特点,因此其在分析方法和目标上与传统信息网络有很大差异,给话题传播分析技术带来了巨大的挑战。本文在已有研究基础上,针对社交网络的短文本特性、话题传播群体检测、话题推广用户检测、话题快速推广方法等进行了研究,主要研究内容和成果如下:(1)在话题文本表示模型方面,针对社交网络话题信息的短文本特性,提出了基于外部知识库概念的话题文本表示模型。经典的“词袋”模型是基于词汇间的共现关系进行语义相似度计算,忽略了词语之间的语义关系。由于社交网络话题文本不仅较短,而且用词不规范,特征项的共现较少,“词袋”模型难以适用。本研究点以外部知识库维基百科为例,提出了一种基于概念的话题文本表示模型,增大了话题文本表示向量中特征项的共现概率。然后基于概念之间的语义关系,构建概念之间的语义矩阵,增强表示模型的语义。本研究点首先在维基百科概念的解释文档上建立“词语-概念”的倒排索引,并基于此倒排索引将文本表示为维基百科概念的向量,然后我们计算各个概念之间的语义相关度以构建概念间的语义矩阵,最后基于语义矩阵增强维基百科概念向量的语义。在文本分类应用数据集上的实验发现,我们的方法在短文本上比经典的“词袋”模型在统计学上显著更好。(2)在话题传播热度预测方面,提出了一种基于用户情感的话题热度预测方法。传统方法是基于在线内容的前期热度来预测其在未来的热度,本文预测尚未发生的话题的热度,其基本假设是:用户在最近一段时间对某一事物的情感倾向在一定程度上决定了未来此用户对与此事物相关的话题的关心程度。本文首先计算社区中每个用户对话题关键词和关键短语的情感倾向,然后基于马尔科夫随机场模型和图熵模型来计算整个社区在此话题上的潜在情感能量。实验分析发现,社区在某个话题上的潜在情感能量与话题在此社区的热度之间存在显著的线性相关关系。在此发现的基础上,我们提出了两种基于社区潜在情感能量的话题热度预测方法,实验证明了两种预测模型的有效性。(3)在话题传播群体检测方面,针对社交网络水军发布大量话题推广博文和话题非自然传播的问题,提出了一种有效的网络水军检测方法。当前网络水军检测方法主要利用水军的个体特征,而忽略水军作为群体而表现出的群体特征。本文首先研究了水军的群体特征,然后基于逻辑回归模型综合利用水军的个体特征和群体特征进行检测。在多个真实数据集上的实验显示,本文方法比传统方法在准确度和F1值上效果更好。在发现的水军基础上,本文分析水军的群体特性和发现网络推手。基于水军之间的朋友/粉丝关系和共现关系,采用InfoMap社区发现算法检测水军的社区,发现绝大多数的水军都出现在少量的社区中,而且在同一个社区中的水军通常都持有相同的观点倾向,验证了水军的群体特性。本文进一步分析网络推手,发现绝大多数的水军都在推广来自极少数推手发布的博文。(4)在用户话题兴趣分析方面,为了更好地进行话题的快速推广,针对已有方法主要是基于用户发布的博文内容进行用户话题兴趣挖掘而导致算法的计算量过大,难以适用用户数以亿计的社交网络的问题,提出了一种基于部分用户的自定义话题兴趣标签快速挖掘其他用户话题兴趣特征的方法。据统计,新浪微博中有21.8%的用户给自己标注了话题兴趣标签,而有多达78.2%的用户没有自定义话题兴趣标签。本研究点的基本假设是:如果用户之间有转发、提及、回复等直接交互关系,则说明两者之间有共同的话题兴趣,那么可以通过交互图中邻居节点的话题兴趣来分析此用户的话题兴趣。本研究点基于用户历史上的转发、提及关系构建起用户间的交互关系图,然后在交互关系图上基于随机游走算法分析用户的话题兴趣标签,并对话题兴趣标签进行排序。算法在包含1.4亿用户的真实新浪微博数据集上进行实验,采用MapReduce分布式处理框架进行计算,分析发现本文提出的方法比当前存在的用户话题兴趣挖掘方法准确度更高。综上所述,本文研究了社交网络话题文本表示模型、话题传播热度预测、话题传播群体检测和用户话题兴趣分析等关键技术,在真实数据集上的实验验证了本文方法的有效性,对于信息传播具有重要的理论和现实意义。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:G206
【相似文献】
相关期刊论文 前10条
1 Bruce Antelman;李雯;;社交网络[J];高校图书馆工作;2008年01期
2 ;基于位置的手机社交网络“贝多”正式发布[J];中国新通信;2008年06期
3 曹增辉;;社交网络更偏向于用户工具[J];信息网络;2009年11期
4 ;美国:印刷企业青睐社交网络营销新方式[J];中国包装工业;2010年Z1期
5 李智惠;柳承烨;;韩国移动社交网络服务的类型分析与促进方案[J];现代传播(中国传媒大学学报);2010年08期
6 贾富;;改变一切的社交网络[J];互联网天地;2011年04期
7 谭拯;;社交网络:连接与发现[J];广东通信技术;2011年07期
8 陈一舟;;社交网络的发展趋势[J];传媒;2011年12期
9 殷乐;;全球社交网络新态势及文化影响[J];新闻与写作;2012年01期
10 许丽;;社交网络:孤独年代的集体狂欢[J];上海信息化;2012年09期
相关会议论文 前10条
1 赵云龙;李艳兵;;社交网络用户的人格预测与关系强度研究[A];第七届(2012)中国管理学年会商务智能分会场论文集(选编)[C];2012年
2 宫广宇;李开军;;对社交网络中信息传播的分析和思考——以人人网为例[A];首届华中地区新闻与传播学科研究生学术论坛获奖论文[C];2010年
3 杨子鹏;乔丽娟;王梦思;杨雪迎;孟子冰;张禹;;社交网络与大学生焦虑缓解[A];心理学与创新能力提升——第十六届全国心理学学术会议论文集[C];2013年
4 毕雪梅;;体育虚拟社区中的体育社交网络解析[A];第九届全国体育科学大会论文摘要汇编(4)[C];2011年
5 杜p
本文编号:2802039
本文链接:https://www.wllwen.com/xinwenchuanbolunwen/2802039.html