基于新浪微博的好友推荐系统设计与实现
[Abstract]:With the rapid development of Internet and mobile communication technology, more and more people use social platforms such as Sina Weibo to make friends and share. Hundreds of millions of online users interact with each other to generate so much data that "information overload" occurs, which makes it take longer to find friends than to communicate with friends. Therefore, this paper designs and implements a friend recommendation system to recommend other users who may become friends. In this paper, the personal information and Weibo information of the second degree friends of the target user are obtained by crawler method, and then the collected data are analyzed, and based on the similarity of user interest, The geographic similarity and user influence among users are three factors to make friend recommendation to the target user synthetically. This paper first introduces the research background and significance of the subject, and analyzes the current research situation at home and abroad. Then, by analyzing the user requirements and functional requirements of the friend recommendation system, the system is designed briefly, and the function modules of the friend recommendation system are divided, and the database of the system is designed. Then, each module is designed and implemented in detail. Among them, the Weibo data acquisition module implements a Sina Weibo crawler based on the user's friend relationship. The crawler gets the second best friend of the target user by searching for friends in the range first, and gets the personal information and Weibo information of the friend by analyzing the web page, and completes the data persistence. At the same time, the problem of using Weibo to expose API to obtain data is solved. The good friend recommendation module extracts the text feature words by using Ansj Chinese word segmentation and TF-IDF algorithm to the Weibo historical content text, and classifies the feature words by using naive Bayes classification algorithm to obtain the user interest vector. At the same time, the interest similarity of users is calculated by cosine distance. Then, the distance between users is calculated by user location information and user check-in data, and the distance is converted into geographical similarity, and the geographical similarity is normalized by normal distribution function. Then, the influence of the user is measured by the number of followers, the number of Weibo sent and the amount of Weibo forwarded, comments and likes. Finally, by assigning different weights to synthesize the three factors and adding the user's educational background and work experience information to generate a friend recommendation list, the Top-N method is used to recommend friends to the user. The experimental results show that the recommendation accuracy is higher than that of single factor.
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.3
【相似文献】
相关期刊论文 前10条
1 郑炜冬;;试卷相似度自动评估技术的研究[J];智能计算机与应用;2011年06期
2 赵涛;肖建;;二型模糊相似度及其应用[J];计算机工程与应用;2013年08期
3 徐志明;李栋;刘挺;李生;王刚;袁树仑;;微博用户的相似性度量及其应用[J];计算机学报;2014年01期
4 李桂林,陈晓云;关于聚类分析中相似度的讨论[J];计算机工程与应用;2004年31期
5 秦玉平;杨兴凯;;基于案例推理的区间属性相似度研究[J];辽宁师范大学学报(自然科学版);2006年04期
6 蒋鹏;;基于本体的应急案例相似度算法研究[J];南昌高专学报;2009年03期
7 何亚;;词语相似度算法的分析与改进[J];硅谷;2011年24期
8 仇丽青;陈卓艳;;基于共同邻居相似度的社区发现算法[J];信息系统工程;2014年05期
9 焦鹏;唐见兵;查亚兵;;仿真可信度评估中相似度方法的改进及其应用[J];系统仿真学报;2007年12期
10 姜毅;乐庆玲;;一种基于兴趣相似度的学习社区算法[J];电脑知识与技术(学术交流);2007年16期
相关会议论文 前10条
1 刘海波;郑德权;赵铁军;;基于相似度线性加权方法的检索结果聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陆劲挺;路强;刘晓平;;对比相似度计算方法及其在功能树扩展中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 董刊生;方金云;;基于向量距离的词序相似度算法[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
4 刘晓平;陆劲挺;;任意功能树的物元相似度求解方法[A];全国第21届计算机技术与应用学术会议(CACIS·2010)暨全国第2届安全关键技术与应用学术会议论文集[C];2010年
5 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
6 洪文学;王金甲;常凤香;宋佳霖;刘文远;王立强;;基于图形特征增强的相似度分类器的研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(上册)[C];2007年
7 雷庆;吴扬扬;;一种基于语义信息计算XML文档相似度的新方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 罗辛;欧阳元新;熊璋;袁满;;通过相似度支持度优化基于K近邻的协同过滤算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 王健;刘衍珩;焦玉;;VANETs信任传播建模[A];中国通信学会通信软件技术委员会2009年学术会议论文集[C];2009年
相关重要报纸文章 前1条
1 王伽 卫江;出入境证件照片应及时更换[N];中国国门时报;2008年
相关博士学位论文 前10条
1 操震洲;矢量数据动态多尺度网络传输研究[D];南京大学;2015年
2 程亮;基于本体的疾病数据整合与挖掘方法研究[D];哈尔滨工业大学;2014年
3 刘振宇;基于区域相似度和特征降维的极化SAR影像分类[D];武汉大学;2013年
4 曹,
本文编号:2179160
本文链接:https://www.wllwen.com/shoufeilunwen/xixikjs/2179160.html