基于微博用户关系分析的好友推荐系统研究与应用
发布时间:2017-07-25 20:15
本文关键词:基于微博用户关系分析的好友推荐系统研究与应用
更多相关文章: 标签聚类 用户影响力 文本分类 本体 好友推荐
【摘要】:社交网络如今已经是我们生活的一份子,它是web2.0时代的产物,与传统的门户网站相比,它是以用户为主导的,用户可以对网络中的内容进行浏览,同样也可以对网络上的内容进行创建。在五花八门的社交软件中,微博以其消息传播的及时性获取了用户的好感。在中国社交网络中微博的占有率越来越高,人们使用微博的频率越来越高,其中尤其以新浪微博一枝独秀,人们可以在微博中关注他们希望认识的人,以及与自己有共同兴趣爱好的人。如何能够从海量用户中给用户准确的推荐他们感兴趣的人,无疑是一个研究热点,目前新浪微博中的好友推荐注重的方面略显单一,本文从以下几个方向进行了研究,为用户提供了更准确的好友推荐算法。首先,对现有的推荐算法进行了介绍与研究,并对后续要使用的几种技术:分类算法、聚类算法、PageRank算法、以及本体的相关概念进行了介绍。其次,通过K-means算法对用户的标签中属于兴趣爱好的类别进行了聚类分析,聚在同一个类的标签说明了具有相似性,用户可能对这一类别下的兴趣爱好标签同时感兴趣。对于用户所发状态的处理,将搜狗实验室的文本分类语料库通过分词及使用停用词处理以后,使用Word Net本体库以及通过Protégé自己建立的本体库,完成了特征词选取,并使用KNN分类算法对用户所发状态进行了分类,结合用户的标签以及用户所关注用户的兴趣,对用户的兴趣爱好进行了判断,判定出了有相似的兴趣爱好关系的被推荐出来的用户与等待好友推荐的用户。然后,对用户的二度以内的好友,也就是与等待好友推荐的用户之间,至少存在一个互相关注用户或者单向关注的用户,通过关注关系以及用户之间的交互关系,提出了一种基于PageRank算法的用来判断用户身边的用户影响力的算法。根据微博中用户的签到信息,通过地理位置以及签到地点的类型判定了被推荐出来的用户与等待好友推荐的用户的地理位置关系。最后将上述提出的三种用户之间的关系,相似的兴趣爱好关系、可以建立联系的二度好友关系、相似的地理位置关系,综合在一起设计并实现了基于微博用户关系分析的好友推荐系统。实验部分的数据通过新浪微博开放平台提供的API和数据堂网站进行获取,使用java语言完成了实现。系统中同目前微博中所采用的几种好友推荐算法相比,基于微博用户关系分析的好友推荐算法提高了推荐的准确性。
【关键词】:标签聚类 用户影响力 文本分类 本体 好友推荐
【学位授予单位】:北京工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.3
【目录】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 绪论9-15
- 1.1 课题背景及意义9-11
- 1.2 国内外研究现状11-12
- 1.3 本文的主要工作12
- 1.4 论文组织结构12-15
- 第2章 相关理论概述15-27
- 2.1 推荐算法15-19
- 2.1.1 协同过滤推荐算法15-18
- 2.1.2 基于内容的推荐算法18-19
- 2.1.3 基于社交网络的好友推荐19
- 2.2 聚类算法19-21
- 2.3 分类算法21-23
- 2.3.1 文本的预处理21-22
- 2.3.2 特征选择22-23
- 2.3.3 特征权重计算23
- 2.3.4 最终分类23
- 2.4 PageRank算法概述23-24
- 2.5 本体的构建24-26
- 2.5.1 本体的概念24-25
- 2.5.2 本体库的概念25-26
- 2.6 本章小结26-27
- 第3章 微博中用户关系的分析27-51
- 3.1 好友推荐方法的概述27-28
- 3.2 微博标签的处理28-31
- 3.2.1 微博标签的相似性处理29-30
- 3.2.2 微博标签的聚类分析30-31
- 3.3 微博用户所发状态的分析31-38
- 3.3.1 微博用户所发状态的处理32-35
- 3.3.2 本体知识在微博信息中的应用35-37
- 3.3.3 用户兴趣的分析37-38
- 3.4 用户身边的用户影响力分析38-44
- 3.4.1 基于PageRank算法的用户影响力计算38-41
- 3.4.2 待推荐用户身边的用户影响力改进算法41-44
- 3.5 用户地理位置关系的分析44-49
- 3.5.1 新浪微博中的签到信息44-46
- 3.5.2 用户签到信息分析46-48
- 3.5.3 基于地理位置的推荐48-49
- 3.6 基于微博用户关系分析的好友推荐算法的提出49-50
- 3.7 本章小结50-51
- 第4章 基于微博用户关系分析的好友推荐系统设计与实现51-65
- 4.1 系统设计51-58
- 4.1.1 功能性需求分析51-53
- 4.1.2 非功能性需求分析53
- 4.1.3 系统架构设计53-54
- 4.1.4 系统数据库设计54-56
- 4.1.5 主要模块详细设计56-58
- 4.2 本体的构建58-61
- 4.2.1 WordNet的使用58-60
- 4.2.2 自建本体的构建60-61
- 4.3 系统的主要功能实现61-63
- 4.4 本章小结63-65
- 第5章 实验结果分析65-73
- 5.1 实验数据获取65-68
- 5.1.1 新浪微博开放平台数据获取65-67
- 5.1.2 文本分类数据获取67-68
- 5.2 算法评价标准68-69
- 5.3 准确率实验结果与分析69-70
- 5.4 召回率实验结果与分析70-71
- 5.5 本章小结71-73
- 结论73-75
- 参考 文献75-79
- 攻读硕士学位期间取得的研究成果79-81
- 致谢81
本文编号:573069
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/573069.html