基于多源数据融合的微博用户兴趣挖掘方法
本文关键词:基于多源数据融合的微博用户兴趣挖掘方法 出处:《哈尔滨工业大学》2016年硕士论文 论文类型:学位论文
【摘要】:随着互联网的快速发展,社交网络得到人们的广泛认可。在国内社交网络方面,越来越多的人开始通过微博发布信息,而微博网站也成为主流海量信息的发布体,对微博的研究也从显性的兴趣标签到微博本身潜在的内容进行主题挖掘。LDA(latent Dirichlet allocation)模型是近几年比较流行的一种非监督的主题模型,已经有一些研究通过在Twitter数据集上对LDA模型进行主题挖掘,但在中文微博的主题挖掘上的研究并不多。基于微博内容的用户兴趣挖掘可以获得较为精准的挖掘结果,但会面临冷启动和数据稀疏问题。基于交互关系的用户兴趣挖掘方法和基于交互信息的用户兴趣挖掘方法可以从两个不同的角度弥补基于微博内容的用户兴趣挖掘方法的缺陷。本文爬取新浪微博用户不同层次的数据用于进行多源数据融合微博用户兴趣建模研究。主要研究成果包括以下几个方面:首先,结合传统LDA模型提出一种适合中文微博的有监督的兴趣主题挖掘模型,即基于内容主题挖掘微博生成模型CTM-LDA。该模型有效的利用了先验主题信息,根据微博用户信息及用户原创内容相融合挖掘微博用户兴趣主题。其次,利用基于交互关系和交互信息的等信息源分别构建兴趣模型,利用交互关系矩阵和关注人兴趣标签以及词语间相似度生成关注人兴趣主题。最后,针对微博自定义内容,话题微博,交互信息,以及用户自定义标签等不同数据进行实验,构建微博用户兴趣模型,研究并设计了多源数据融合的用户兴趣模型,利用空间向量构建出用户最终的兴趣主题。本文提出了不同数据源的微博用户兴趣融合模型,通过研究发现可以有效利用用户之间的交互关联关系的信息对微博用户进行兴趣主题挖掘,且融合模型的效果要更优。未来通过用户的兴趣模型可有针对性的对微博用户进行个性化推荐,该模型可推广到其他社会媒体网站平台,对于企业而言具有一定商业研究价值。
[Abstract]:With the rapid development of the Internet, social networks have been widely recognized. In the domestic social networks, more and more people began to publish information through Weibo. And Weibo website also becomes the main stream massive information release body. The study of Weibo also goes from explicit interest tags to Weibo's own potential content for topic mining. LDAlatent Dirichlet location). Model is a popular unsupervised thematic model in recent years. There has been some research on topic mining for LDA models on Twitter datasets. However, there is not much research on the Chinese Weibo topic mining. The user interest mining based on Weibo content can obtain more accurate mining results. However, it will face the problem of cold startup and sparse data. The interactive method of user interest mining and the method of user interest mining based on interactive information can make up for the user interest mining based on Weibo content from two different angles. This paper crawls different levels of data from the user of Sina Weibo to carry on the multi-source data fusion Weibo user interest modeling research. The main research results include the following aspects:. First. Based on the traditional LDA model, a supervised topic mining model for Chinese Weibo is proposed. Namely based on content topic mining Weibo generation model CTM-LDA. this model effectively utilizes the prior topic information. According to Weibo user information and user-generated content fusion mining Weibo user interest topics. Secondly using interactive and interactive information sources such as information to build interest model. Using the interaction matrix, interest labels and the similarity between words and expressions to generate topics of interest. Finally, for Weibo custom content, the topic Weibo, interactive information. As well as user defined tags and other different data experiments, build Weibo user interest model, research and design multi-source data fusion user interest model. Using space vector to construct the user's final topic of interest. In this paper, Weibo user interest fusion model with different data sources is proposed. Through the research, it is found that the information of the interaction relationship between users can be used effectively to mine the topic of interest of Weibo users. And the effect of fusion model should be better. In the future, Weibo user can be personalized recommended through user interest model, this model can be extended to other social media website platform. It has certain commercial research value for enterprises.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1;F49
【相似文献】
相关期刊论文 前10条
1 王杰;使图像的编辑更加容易[J];中文信息;1998年Z1期
2 王波,姚敏;基于信息抽取的匿名用户兴趣描述[J];华南理工大学学报(自然科学版);2004年S1期
3 董全德;;用户兴趣迁移模式与个性化服务[J];电脑知识与技术(学术交流);2007年17期
4 郑运刚;马建国;;基于分类的用户兴趣漂移模型[J];情报杂志;2008年01期
5 张涛;;基于浏览历史的用户兴趣提取模型[J];软件导刊;2009年06期
6 杨杰;陈恩红;;面向个性化服务的用户兴趣偏移检测及处理方法[J];电子技术;2009年11期
7 陈圣兵;李龙澍;纪霞;;多层次用户兴趣模式的动态捕捉[J];计算机工程与应用;2009年36期
8 郑晓健;庞淑英;何英;;一种面向主题的用户兴趣挖掘模型研究[J];昆明学院学报;2010年03期
9 花青松;刘海峰;胡铮;;基于基尼系数的用户兴趣分布模式度量方法[J];计算机工程;2012年22期
10 孙雨生;刘伟;仇蓉蓉;黄传慧;;国内用户兴趣建模研究进展[J];情报杂志;2013年05期
相关会议论文 前7条
1 赵琦;骆志刚;田文颖;李聪;丁凡;;一种基于负反馈信息的用户兴趣模型修正方法[A];中国通信学会第六届学术年会论文集(下)[C];2009年
2 孙静;郭奇;张志强;冯建华;;一种基于面向领域检索系统的用户兴趣获取方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
3 孙铁利;教巍巍;;基于马尔科夫模型的用户兴趣导航模型系统(英文)[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 廖祝华;刘建勋;易爱平;;基于用户兴趣的Web服务发现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
5 李晓黎;史忠植;梁永全;刘福桃;;INTERNET网上一种识别用户兴趣的学习方法[A];第十六届全国数据库学术会议论文集[C];1999年
6 田萱;杜小勇;;基于SAM模型的用户兴趣表示研究[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 王勇;刘奕群;张敏;马少平;茹立云;;基于用户兴趣分析的网页生命周期建模(英文)[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
相关重要报纸文章 前1条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
相关博士学位论文 前8条
1 张召;在线论坛用户兴趣图谱发现与个性化信息推荐[D];华东师范大学;2012年
2 刘淇;基于用户兴趣建模的推荐方法及应用研究[D];中国科学技术大学;2013年
3 郭岩;网络日志中用户兴趣的挖掘及利用[D];中国科学院研究生院(计算技术研究所);2004年
4 吴丽辉;个性化的Web信息采集技术研究[D];中国科学院研究生院(计算技术研究所);2005年
5 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
6 李东胜;基于兴趣与保护隐私的在线社区推荐技术研究[D];复旦大学;2012年
7 陈浩;Web搜索的用户兴趣与智能优化研究[D];中南大学;2012年
8 姜邵巍;基于竞争关系的推荐技术研究[D];北京邮电大学;2014年
相关硕士学位论文 前10条
1 陈媛媛;用户兴趣图谱演化机制研究[D];武汉理工大学;2014年
2 梁润庭(Runting Leung);面向微博用户的兴趣识别算法的研究与实现[D];西南交通大学;2015年
3 俞忻峰;新浪微博的数据采集和推荐方案研究[D];南京理工大学;2015年
4 杨梅;基于树型网络的多源用户兴趣数据融合方法研究[D];四川师范大学;2015年
5 石光莲;基于形式概念分析的Folksonomy用户兴趣识别研究[D];西南大学;2015年
6 汤文清;微博用户的兴趣及性格分析[D];上海大学;2015年
7 梅佩;基于浏览内容的用户兴趣研究[D];北京化工大学;2015年
8 张少杰;基于用户兴趣的微博广告投放系统的设计与实现[D];山西大学;2015年
9 黄龙伟;基于蚁群算法的WEB日志用户兴趣路径研究[D];江西师范大学;2015年
10 方正;微博短文本分析技术研究及应用[D];电子科技大学;2014年
,本文编号:1383687
本文链接:https://www.wllwen.com/jingjilunwen/xxjj/1383687.html