大规模社交网络中局部兴趣社区发现研究
本文选题:社交网络 + 兴趣建模 ; 参考:《中国科学技术大学》2014年博士论文
【摘要】:随着web2.0时代的到来,越来越多的数据呈现在互联网上,更多的体现用户在网络上的互相交互。人们既生产大量网络数据、又同时对其进行消费。人们的生产、生活、学习、娱乐也越来越离不开互联网。社交网络把现实中人与人之间的关系建立在互联网上,加强人们之间的交流和互动,促进信息更快的在世界范围内流动。随着Facebook上市,社交网络也越来越多的受到人们的关注。Facebook是一种强关系的社交网络,用户可以利用其进行朋友之间的关系的促进改善和维护;微博Twitter是一种弱关系的社交网络,在其上容易形成意见领袖和信息快速传播,有利于社交网络的广告推广和营销;Linkedin是专注于商务人士拓展业务,求职招聘等进行商务交流的专业社交平台。国内也有很多社交网络如腾讯微博、嘀咕、9911、随心微博、新浪微博、搜狐微博、Follow5、网易微博、品品米、MySpace聚友网、百度i贴、同学网、饭否等,其中比较知名的新浪微博比较类似于Twitter。 截至2012年12月份,国内知名社交网络新浪微博用户规模达到5亿;时至2012年7月国外著名社交网络Twitter用户数量超过5亿;另外一个世界知名社交网站FaceBook用户数量达到10亿以上。据国外知名数据公司PingDorn的数据显示,全球已有几十亿社交网络用户,同时社交网络链接和网页插件已经占据全世界所有网站的四分之一。对社交网络进行分析,发现社交网络中各种社区对于商品推荐、广告推送、朋友推荐以及对社交网络进行划分具有十分重要的意义。 本文在调研分析大规模社交网络发展和研究的基础上,主要就如何有效挖掘社交网络中兴趣社区做了深入研究。本文先就其两个子问题社交网络中个性化兴趣的建模和个性化PageRank高效计算进行研究。在完成兴趣建模和个性化PageRank高效计算的基础上,进行大规模社交网络的兴趣社区探测。 首先,采用用户好友关系信息、用户发布和转发微博信息作为兴趣信息,针对普通用户和特殊用户的不同,分别提出以关注对象为兴趣的三层模型和以发布微博为兴趣的两层模型的模型表示方法。针对微博内容为兴趣建模,提出基于LDA改进的微博兴趣分类方法。针对用户兴趣改变的问题,提出基于用户微博内容为反馈的贝叶斯方法,同时还提出基于兴趣社区发现为目的的用户兴趣偏好模型。最后通过以用户标签作为参考对模型进行评估,得出模型在标签较充足时能有80%以上的查准率和查全率。 其次,个性化PageRank作为信息检索和数据挖掘领域的重要算法,随着数据规模的不断增大,有必要对其进行优化和加速。传统迭代方法比较耗费时间和空间,本文使用基于Monte Carlo随机步方法。MapReduce适合数据密集型计算,不适合大量的迭代,本文提出基于MPI的分布式算法。改进先前的二路合并方法到基于Fibonacci的方法,从理论上性能有30%左右的提高,在大量真实数据的实验上得出该方法相对基础方法性能提高10%到40%。 最后,由于社区结构信息包含成员关系连接信息和成员本身的个性化信息,提出考虑结构信息和节点自身属性特征的基于个性化PageRank的社区发现方法。针对日益发展的社交网络的数据大规模性,提出局部的社区分析方法和将算法改进适应在分布式计算架构MapReduce之上。由于大部分社区探测方法不适合用在具有千万级甚至更大用户规模的社区分析,而Metis方法是少有的能处理如此大规模的网络分析工具,本文将所提出的基于个性化PageRank方法与Metis方法进行比较,凸显本文提出方法具有更好的社区探测能力,能找到聚簇性很强的局部社区。另外,本文通过MapReduce扩展实验说明了方法的可扩展性和高效性。
[Abstract]:With the advent of web2.0 , more and more data are presented on the Internet . More and more users interact with each other on the Internet . People produce large amounts of network data and consume them . People ' s production , life , study and recreation are increasingly inseparable from the Internet . Social networks are increasingly concerned about the relationship between people and people . Facebook is a strong social network that users can use to promote improved and maintenance relationships among friends .
Twitter is a kind of weak relationship social network , it is easy to form the opinion leader and the information fast spread , is beneficial to the advertising promotion and marketing of social network ;
Linkedin is a professional social platform focusing on business people to expand business , job seeking , etc . There are many social networks such as Tencent Weibo , mumbling , 9911 , casual Weibo , Sina Weibo , Sohu Micro - blog , Follow5 , NetEase Micro - blog , product rice , myspace gathering net , Baidu i paste , classmate network , meal , etc . , among which the relatively well - known Sina Weibo is similar to Twitter .
As of December 2012 , the number of Sina Weibo users in China ' s well - known social networks reached 500 million ;
By July 2012 , the number of Twitter users of social networks abroad exceeded 500 million ;
Another world - renowned social networking site FaceBook users have more than 1 billion users . According to PingDorn , a foreign - known data company , the world has billions of social networking users , while social networking links and web - based plug - ins have taken up a quarter of all the world ' s Web sites . Analyzing social networks , finding a wide range of communities in social networks is of great importance for commodity recommendations , advertising push , friend recommendations , and division of social networks .
Based on the research and analysis of large - scale social network development and research , this paper makes a thorough study on how to effectively exploit the community of interest in social networks . In this paper , we study the modeling of personalized interest in social networks and the efficient calculation of personalized PageRank in social networks . On the basis of completing interest modeling and personalized PageRank high - efficiency computing , the interest community detection of large - scale social networks is carried out .
First , by using the user ' s friend relationship information , the user releases and forwards the microblog information as the interest information , and presents a three - layer model with the interest of the object of interest and a model representation method of the two - layer model interested in publishing the microblog , aiming at the problem of changing the interest of the user , and then puts forward a user interest preference model based on the user micro - blog content as feedback .
Secondly , personalized PageRank is an important algorithm in the field of information retrieval and data mining . With the increasing data scale , it is necessary to optimize and accelerate it . Traditional iteration method is suitable for data - intensive computing and is not suitable for large number of iterations .
Finally , because the community structure information includes member relation connection information and personalized information of the member itself , the community discovery method based on personalized PageRank considering the structure information and the attribute characteristics of the node is proposed . In view of the large scale of the growing social network , the local community analysis method and the improvement of the algorithm are applied to the distributed computing architecture MapReduce .
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2014
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 谢新洲;张炀;;我国网民网络社交行为调查[J];图书情报工作;2011年06期
2 刘晓丽;宋朝霞;;SNS网站与搜索引擎融合的可能性和策略探讨[J];电子商务;2011年09期
3 杨建永;张成波;邹宇瑞;;关于图书馆社交网络(Lib-SNS)构建的研究[J];图书馆学研究;2010年15期
4 王淑敏;李军豪;;蜜罐技术在社交网络反垃圾信息中应用[J];煤炭技术;2011年07期
5 吴成钢;杨光;张翔;王晓欢;;推荐系统的应用及其安全性研究[J];信息网络安全;2011年08期
6 杨媛媛;;SNS社交网络的图像显示概述[J];计算机与信息技术;2009年09期
7 钱国富;周群;;基于SNS的Living Library虚拟社区构建研究[J];大学图书馆学报;2011年02期
8 梁力予;任露凌;万艳华;;“基于LBS的社交网络”在城市公共空间管理与运营中的应用[J];信息安全与技术;2011年07期
9 刘恕;;试论传统媒体与社交网络的交互融合——从新华社电视进驻开心网说起[J];科技传播;2009年02期
10 董素芬;滕桂法;杨媛媛;;社会和心理因素在社交网络交互中的作用[J];农业网络信息;2010年08期
相关会议论文 前4条
1 刘恕;;试论传统媒体与社交网络的交互融合——从新华社电视进驻开心网说起[A];第十一届中国科协年会第33分会场新媒体与科技传播研讨会论文集[C];2009年
2 刘恕;;试论传统媒体与社交网络的交互融合——从新华社电视进驻开心网说起[A];自主创新与持续增长第十一届中国科协年会论文集(4)[C];2009年
3 姚群峰;张玉莹;;抢占融合通信高地,领先移动互联网时代——电信运营商发展融合通信的战略思考[A];中国通信学会信息通信网络技术委员会2011年年会论文集(上册)[C];2011年
4 张瀚予;;数字博物馆新应用——美国的案例[A];创意科技助力数字博物馆[C];2011年
相关博士学位论文 前6条
1 尹红军;大规模社交网络中局部兴趣社区发现研究[D];中国科学技术大学;2014年
2 郑夏冰;探讨过量使用移动社交网络Apps对个人用户的负面影响[D];中国科学技术大学;2014年
3 郭龙飞;社交网络用户隐私关注动态影响因素及行为规律研究[D];北京邮电大学;2013年
4 刘芳;信息可视化技术及应用研究[D];浙江大学;2013年
5 吴保来;基于互联网的社交网络研究[D];中共中央党校;2013年
6 程振宇;社交网络下网络互动对购买意愿影响及信任保障机制研究[D];北京邮电大学;2013年
相关硕士学位论文 前10条
1 陆璜;企业在线社交网络应用研究[D];华东理工大学;2014年
2 李影;社交网络在高校图书馆信息服务中的应用研究[D];吉林大学;2014年
3 刘晓曼;社交网络数据获取与结构分析系统的设计与实现[D];安徽大学;2014年
4 陈鹤;基于语义本体的社交网络服务推荐系统[D];吉林大学;2014年
5 吴婧媛;《名誉的未来—网络绯闻、谣言和隐私》(第二章)翻译报告[D];四川外国语大学;2014年
6 王哓琳;社交网络社区划分算法的研究[D];燕山大学;2013年
7 王戴钰;基于Android平台移动社交网络的设计与实现[D];大连海事大学;2014年
8 林小楠;基于MapReduce的分布式聚类算法在社交网络上的应用研究[D];厦门大学;2014年
9 王冰;社交网络电子商务应用用户研究与交互设计[D];大连海事大学;2009年
10 匡仁玉;泰和的宗族与区域社会[D];南昌大学;2007年
,本文编号:2003051
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2003051.html