微博用户社会关系离线挖掘算法的研究
本文关键词:微博用户社会关系离线挖掘算法的研究 出处:《北京交通大学》2016年硕士论文 论文类型:学位论文
【摘要】:伴随着互联网和移动通信技术的飞速发展,社交网络平台吸引了大量的活跃用户,用户间的社会关系形成了错综复杂的网络图。如何挖掘网络图中的潜在信息已经成为当下研究的一个热点。微博用户社会关系挖掘是其中的一个重要研究方向。它通过评估微博用户之间潜在关系强度,找到目标用户的潜在关系圈,进而可以实现用户追踪、链接预测、好友推荐等。本文在对基于离线微博数据的社会关系挖掘算法进行了研究的基础上,提出了一种新的挖掘模型以更为全面科学地评估用户之间的关系,进而找出用户的关系圈。论文的主要工作包括以下几个方面:首先对微博社会关系挖掘的研究现状进行了较为详细的研究,包括社会关系指标建立以及评估模型两个主要方面。同时总结了当前研究方法的不足,包括:现有模型的评价指标种类较少,模型设计时忽视了微博网络的部分特征,指标融合时采用简单加权求和,没有考虑到不同用户的行为偏好对融合评估的影响。进而,本文提出了基于多维度用户相似度信息融合的自适应微博用户社会关系离线挖掘算法。该算法从虚拟微博图、POI数据、虚拟用户图、用户-微博二部图、背景数据等五个角度入手,提出了相应的用户关系评价子算法,并提出了一种基于最大似然度的微博用户社会关系评价模型(Decision Algorithm Model based on Maximum Likelihood,DAMML)对五个指标的用户关系评价信息进行综合决策。通过分析该综合决策信息,可以找出目标用户的潜在关系圈。本文提出的五个用户关系评价子算法如下:●结合虚拟微博图的用户兴趣关系评价算法(Interests of Users and Virtual Microblog Graph,IUVMG),该算法使用LDA模型,将用户评论、点赞等行为信息添加到用户兴趣特征矩阵中,提升用户兴趣关系评价的准确性;·考虑行政区域划分与签到信息的用户活跃位置相似度评价算法(Administrative Region and User Check-in Information, ARUCI),该算法由用户活跃驻地提取、考虑相遇时伺与好友影响的活跃位置相似度两部分组成,解决了微博网络部分用户签到数据稀疏的问题;·结合图出入度的共同好友及扩展好友的用户关系评价算法(Out-in Degree and Mutual Friends, ODMF),该算法考虑用户节点的出入度,提出虚拟用户的概念,将算法推广到了二级好友;●考虑交互行为倾向的用户交互紧密度算法(Tendency of User Inter Behavior,TUIB),该算法解决了微博用户间交互行为的非对等性问题;●用户背景属性的用户关系评价算法(User Background Information,UBI),该算法使用主成分分析法提取用户背景属性的主成分,降低了属性间相关性对评价结果的影响。最后,本文自主开发了一套新浪微博爬虫,抓取了大量微博数据,利用该数据对本文提出的算法进行了测试,并与经典算法进行了比较。实验结果验证了本文提出的算法具有较高的有效性与准确性。利用提出的模型,论文还设计并实现了一套基于B/S架构的微博用户社会关系离线挖掘系统。
[Abstract]:With the rapid development of Internet and mobile communication technology, the social networking platform has attracted a large number of active users, and the social relationships between users have formed an intricate network diagram. How to excavate the potential information in the network map has become a hot topic in the present research. The social relationship mining of micro-blog users is one of the most important research directions. By evaluating the potential relationship strength between micro-blog users, it can find the potential relationship circle of target users, and then achieve user tracking, link prediction, friend recommendation and so on. Based on the research of social relationship mining algorithm based on offline micro-blog data, a new mining model is proposed to evaluate the relationship between users scientifically and comprehensively, so as to find out the user relationship circle. The main works of this paper include the following aspects: first, the research status of micro-blog social relations mining is studied in detail, including two main aspects, namely, the establishment of social relations indicators and the evaluation model. At the same time, summed up the shortcomings of current research methods, including: less species existing model evaluation index, model design ignore some features of micro-blog network, index of fusion using a simple weighted sum, without considering the different user behavior preference for fusion evaluation influence. Furthermore, this paper proposes an adaptive offline mining algorithm for social relations of micro-blog users based on multi dimension user similarity information fusion. Five aspects of the algorithm from POI data, micro-blog map, virtual map, virtual users two users - micro-blog map, the background data of the proposed user evaluation sub algorithm, and proposes a micro-blog user social relationship evaluation model based on the maximum likelihood (Decision Algorithm Model based on Maximum Likelihood. DAMML) the user relationship evaluation information of the five indicators of the comprehensive decision. By analyzing the comprehensive decision information, the potential relationships of the target users can be found. The evaluation of the relationship between five users of the algorithm proposed in this paper: sub - combined with the evaluation of virtual micro-blog maps user interest relation (Interests of Users and algorithm Virtual Microblog Graph, IUVMG), the algorithm uses the LDA model, user reviews, like behavior information added to the user interest feature matrix, improve evaluation accuracy of user interest the relationship between the administrative division; consider and sign information users active position similarity evaluation algorithm (Administrative Region and User Check-in Information, ARUCI), the algorithm of active users by considering active position extraction, resident similarity effect and wait when friends meet two parts, micro-blog network users to solve the problem of data sparseness; user relationship evaluation and combination of common friends and friends of the entry and expansion graph algorithm (Out-in Degree and Mutual Friends, ODM F), the algorithm considers the user node access, and puts forward the concept of virtual users, the algorithm is extended to two friends; - consider the interaction behavior of user interaction algorithm (Tendency of User density Inter Behavior, TUIB), the algorithm solves the micro-blog user interaction behavior of non equivalence problem; user relationship - evaluation of user context attributes algorithm (User Background Information, UBI), the main component of the algorithm using principal component analysis method to extract the user background properties, reduce the impact on the evaluation results of the correlation between attributes. Finally, we developed a set of sina micro-blog crawler independently, and seized a lot of micro-blog data. We used this data to test the algorithm proposed in this paper, and compared it with the classical algorithm. The experimental results show that the proposed algorithm has high effectiveness and accuracy. Using the proposed model, this paper also designs and implements a set of offline mining system for social relations of micro-blog users based on B/S architecture.
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP393.092
【相似文献】
相关期刊论文 前10条
1 郑炜冬;;试卷相似度自动评估技术的研究[J];智能计算机与应用;2011年06期
2 赵涛;肖建;;二型模糊相似度及其应用[J];计算机工程与应用;2013年08期
3 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期
4 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期
5 秦玉平;杨兴凯;;基于案例推理的区间属性相似度研究[J];辽宁师范大学学报(自然科学版);2006年04期
6 蒋鹏;;基于本体的应急案例相似度算法研究[J];南昌高专学报;2009年03期
7 何亚;;词语相似度算法的分析与改进[J];硅谷;2011年24期
8 仇丽青;陈卓艳;;基于共同邻居相似度的社区发现算法[J];信息系统工程;2014年05期
9 焦鹏;唐见兵;查亚兵;;仿真可信度评估中相似度方法的改进及其应用[J];系统仿真学报;2007年12期
10 姜毅;乐庆玲;;一种基于兴趣相似度的学习社区算法[J];电脑知识与技术(学术交流);2007年16期
相关会议论文 前10条
1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
7 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 王健;刘衍珩;焦玉;;VANETs信任传播建模[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
相关重要报纸文章 前1条
1 王伽 卫江;出入境证件照片应及时更换[N];中国国门时报;2008年
相关博士学位论文 前10条
1 操震洲;矢量数据动态多尺度网络传输研究[D];南京大学;2015年
2 程亮;基于本体的疾病数据整合与挖掘方法研究[D];哈尔滨工业大学;2014年
3 张明西;信息网络中的相似度搜索问题研究[D];复旦大学;2013年
4 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
5 朱娜斐;基于RTT相似度的网络延迟估测理论和方法[D];北京工业大学;2012年
6 钱鹏飞;基于模糊相似度的异构本体映射、合并及校验方法的研究[D];上海交通大学;2008年
7 马海平;基于概率生成模型的相似度建模技术研究及应用[D];中国科学技术大学;2013年
8 刘守群;海量网络视频快速检索关键技术研究[D];中国科学技术大学;2010年
9 夏云庆;IHSMTS系统中启发式类比翻译处理机制(HATM)的设计与实现[D];中国科学院研究生院(计算技术研究所);2001年
10 姜雅文;复杂网络社区发现若干问题研究[D];北京交通大学;2014年
相关硕士学位论文 前10条
1 杨巧;基于改进相似度的社会网络链接预测研究[D];华南理工大学;2015年
2 张宁;某于《知网》的词语相似度优化算法[D];昆明理工大学;2015年
3 沈迤淳;歌曲中相似片段的检测及其应用[D];复旦大学;2014年
4 梁霄;社交网络中的社区聚集研究[D];上海交通大学;2015年
5 王魁;在线社交中基于微博的好友推荐系统设计与实现[D];电子科技大学;2015年
6 洪耀停;基于共同作者图的合作者推荐系统[D];浙江大学;2015年
7 褚立超;基于相似度评分模型的人员识别方法研究[D];广西大学;2015年
8 蒲进兴;基于动态相似度的错误定位优先排序[D];北京化工大学;2015年
9 余超;基于Google Map的地理位置查询系统[D];电子科技大学;2014年
10 乌兰;基于动力学行为的复杂网络社区检测研究[D];内蒙古工业大学;2015年
,本文编号:1342489
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1342489.html