个性化微博信息流推荐技术研究
本文选题:微博推荐 + 信息检索 ; 参考:《兰州交通大学》2014年硕士论文
【摘要】:微博作为社交网络的新型代表以其快速、新颖和便捷的特点吸引了大量用户,随着微博的大规模发展越来越多的用户选择使用微博阅读即时的新闻、发表对事物的看法、分享有趣的事情。进而促使微博服务越来越趋向于信息的分享和传播平台,微博信息随之出现爆炸式增长。信息过载问题是社交网络中最严重的危险,,随着微博信息过载的问题困扰着越来越多的用户,微博也面临着越来越多用户流失的危险,因此如何从大量的微博信息中快速有效的找出用户感兴趣的内容是解决信息过载问题的关键。 首先要为用户提供个性化的微博信息流推荐服务,就要准确把握用户的爱好和兴趣,如何通过用户的博文分析而准确把握用户的兴趣是目前的研究热点,而微博信息的短文本格式以及微博的社交网络特性给微博个性化信息流推荐带来了巨大的挑战,现有的微博信息流推荐正是由于目前主体模型研究的局限性和微博数据本身带来的挑战而无法达到较高的准确率。本文在现有微博信息流推荐研究的基础之上,针对为微博用户推荐符合其兴趣和喜好的微博信息的问题,对基于TF-IDF(Term Frequency inverseDocument Frequency)模型的微博信息流相似度计算方法进行改进,结合LDA(LatentDirichlet Allocation)主题模型的相似度评分,最终达到较高的推荐准确率。论文主要研究内容如下: (1)论文基于TF-IDF模型,综合考虑微博短文本数据特征,将单个词语权重和多个词语权重相结合用于计算微博信息流的相似性进而评估用户的兴趣度,结合协同过滤的思想进一步分析用户的冷启动的问题和个性化特点,有效降低无关微博信息的排名,优化用户微博信息排序。 (2)引入概率主题模型LDA来对微博内容进行建模,模型将每个微博集合视为一些隐含的主题特定比例的混合,而一个主题则视为经常同时出现的词语的分布,进而在计算微博信息流相似性时将微博内容映射到主题维度以提高推荐准确率。 (3)将基于TF-IDF模型的改进型方法和基于LDA的模型的方法集成用于微博个性化信息流推荐,实验基于新浪微博数据集与现有的余弦相似性和标签向量的微博推荐方法进行了对比实验,并利用查准率、成功率和平均精度来评估算法效果,结果证明该算法的有效性。 论文下一步研究方向将着重考虑微博数据的多特征关联性,由于微博本质上是一种社会关系网络,即使单单在内容上,微博信息也有很多特点,因此微博信息流集合了多个影响特征,如何将这些特征融入并建模仍是一个开放待解决的问题。在未来的研究中将考虑用户或者微博的多个特征以进一步提高微博推荐的精确度。
[Abstract]:Weibo, as a new representative of social networks, has attracted a large number of users with its rapid, novel and convenient characteristics. With the large-scale development of Weibo, more and more users choose to use Weibo to read instant news and express their views on things.Share interesting things.Thus, Weibo's service tends to share and spread information more and more.The problem of information overload is the most serious danger in the social network. With the problem of information overload of Weibo puzzling more and more users, Weibo is also facing the danger of more and more users losing.So it is the key to solve the problem of information overload that how to quickly and effectively find out the content of user's interest from a large amount of Weibo information.First of all, to provide users with personalized Weibo information flow recommendation service, it is necessary to accurately grasp users' hobbies and interests. How to accurately grasp users' interests through user blog analysis is a hot research topic at present.However, the short text format of Weibo's message and the social network features of Weibo have brought great challenges to the personalized information flow recommendation of Weibo.The current recommendation of Weibo information flow is unable to achieve a higher accuracy due to the limitations of the current research on the subject model and the challenges brought by Weibo data itself.In this paper, based on the research of Weibo information flow recommendation, the similarity calculation method based on TF-IDF(Term Frequency and inverseDocument frequency model is improved to solve the problem of recommending Weibo information according to the user's interest and preference.Combining the similarity score of LDA(LatentDirichlet allocation model, the accuracy of recommendation is higher.The main contents of this thesis are as follows:1) based on the TF-IDF model, this paper combines the weight of single words with the weight of several words to calculate the similarity between the information flow of Weibo and evaluate the interest of users by considering the data features of Weibo's short text.Combined with the idea of collaborative filtering, this paper further analyzes the cold start problem and personalized characteristics of users, effectively reduces the ranking of irrelevant Weibo information, and optimizes the ranking of user Weibo information.(2) the probabilistic thematic model (LDA) is introduced to model Weibo's content. The model regards each set of Weibo as a mixture of implicit themes with a specific proportion, while a topic is regarded as the distribution of words that often occur at the same time.Then, when calculating the similarity of Weibo's information flow, we map Weibo's content to thematic dimension to improve the accuracy of recommendation.The improved method based on TF-IDF model and the method based on LDA model are integrated into Weibo's personalized information flow recommendation.The experiment is based on the comparison between Weibo data set of Sina and the current recommended method for recommending cosine similarity and tag vector. The effectiveness of the algorithm is evaluated by using precision ratio, success rate and average precision. The results show that the algorithm is effective.The next research direction of the thesis will focus on the multi-feature correlation of Weibo data. Because Weibo is essentially a social network, even in terms of content alone, Weibo information also has many characteristics.Therefore, Weibo information flow gathers many influence features, and how to integrate these features and model them is still an open problem to be solved.Several features of users or Weibo will be taken into account in future studies to further improve the accuracy of Weibo recommendations.
【学位授予单位】:兰州交通大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.3
【相似文献】
相关期刊论文 前10条
1 张付志;张启凤;;融合多系统用户信息的协同过滤算法[J];计算机工程;2009年21期
2 周丽娟;徐明升;张研研;张璋;;基于协同过滤的课程推荐模型[J];计算机应用研究;2010年04期
3 刘淇;陈恩红;;结合二部图投影与排序的协同过滤[J];小型微型计算机系统;2010年05期
4 董全德;;基于双信息源的协同过滤算法研究[J];合肥工业大学学报(自然科学版);2010年07期
5 李聪;;电子商务协同过滤可扩展性研究综述[J];现代图书情报技术;2010年11期
6 傅鹤岗;李冉;;基于用户实时反馈的协同过滤算法[J];计算机应用;2011年07期
7 辛勤芳;;基于项目聚类的协同过滤算法研究[J];赤峰学院学报(自然科学版);2011年09期
8 杨君;汪会玲;艾丹祥;;一种基于情景的多维协同过滤新方法研究[J];图书情报工作;2011年21期
9 王宗武;;基于信任用户联合聚类的协同过滤算法[J];计算机与现代化;2013年09期
10 杜永萍;黄亮;何明;;融合信任计算的协同过滤推荐方法[J];模式识别与人工智能;2014年05期
相关会议论文 前10条
1 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 董全德;;基于双信息源的协同过滤算法研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 张光卫;康建初;李鹤松;刘常昱;李德毅;;面向场景的协同过滤推荐算法[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
5 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
6 王明文;陶红亮;熊小勇;;双向聚类迭代的协同过滤推荐算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 胡必云;李舟军;王君;;基于心理测量学的协同过滤相似度方法(英文)[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
8 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
9 罗喜军;王韬丞;杜小勇;刘红岩;何军;;基于类别的推荐——一种解决协同推荐中冷启动问题的方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
10 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
相关博士学位论文 前9条
1 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
2 李聪;电子商务推荐系统中协同过滤瓶颈问题研究[D];合肥工业大学;2009年
3 罗恒;基于协同过滤视角的受限玻尔兹曼机研究[D];上海交通大学;2011年
4 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
5 高e
本文编号:1755073
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1755073.html