微博健康热点话题发现系统的设计与实现
[Abstract]:With the continuous development of Internet technology, Weibo, as a new type of open Internet social platform of Web3.0, has the advantages of convenient use, fast information dissemination, open and interactive platform, etc. It has become an important platform for sharing, obtaining and disseminating information. Weibo produces a lot of data every day, which contains abundant metadata information. At present, traditional topic discovery models and text clustering techniques have been widely used in various fields, and have achieved good results. In view of Weibo's short text, the traditional method of topic discovery still has great limitations, which brings new challenges to Weibo's hot topic discovery. Therefore, how to accurately and quickly obtain hot topic information from mass Weibo data and display it to the majority of users in time is a problem to be solved urgently by Weibo topic discovery technology. Based on the above research background, this paper combines Weibo's characteristics, improves the traditional topic discovery model and text clustering algorithm, and puts forward a topic discovery algorithm based on the combination of VSM model and MLDA model. On this basis, Weibo health topic discovery system is designed. The main work contents are as follows: firstly, by using Weibo platform open API interface and network crawler technology, we crawled the data in two aspects, the user information of Weibo and the content of Weibo, respectively, and removed the noise through the data. Text segmentation and other operations to pre-process Weibo text data; Secondly, using VSM model and MLDA model, the text data of Weibo are modeled jointly, and then the feature vector is constructed to realize the joint calculation of the similarity between the two texts. Thirdly, using the improved traditional Single-pass algorithm and the condensed hierarchical clustering algorithm, the Weibo text data are clustered twice to realize the hot topic extraction and the calculation and sorting of topic heat. Finally, the validity and accuracy of the system are proved by many experiments.
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.092
【参考文献】
相关期刊论文 前10条
1 沈金萍;;第39次《中国互联网络发展状况统计报告》发布我国网民达7.3亿[J];传媒;2017年03期
2 仇丽青;陈卓艳;丁长青;刘海燕;;基于改进LDA主题模型的社会网络话题发现算法iMLDA[J];情报科学;2016年09期
3 彭雨龙;;基于VSM和LDA模型相结合的新闻文本分类研究[J];山东工业技术;2016年06期
4 蒋玉婷;;Web数据挖掘及其在微博话题检测中的应用研究[J];现代电子技术;2016年03期
5 林萌;罗森林;贾丛飞;韩磊;原玉娇;潘丽敏;;融合句义结构模型的微博话题摘要算法[J];浙江大学学报(工学版);2015年12期
6 钟明翔;唐晋韬;谢松县;王挺;;一种基于动态网页解析的微博数据抓取方法[J];舰船电子工程;2015年10期
7 陈晋音;何辉豪;;基于密度和混合距离度量方法的混合属性数据聚类研究[J];控制理论与应用;2015年08期
8 葛文镇;;基于LDA的文本特征选择算法研究与探讨[J];计算机光盘软件与应用;2015年03期
9 王鹏;高铖;陈晓美;;基于LDA模型的文本聚类研究[J];情报科学;2015年01期
10 马雯雯;魏文晗;邓一贵;;基于隐含语义分析的微博话题发现方法[J];计算机工程与应用;2014年01期
相关博士学位论文 前1条
1 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年
相关硕士学位论文 前10条
1 许笛;社区问答系统中问句推荐技术的研究[D];大连理工大学;2015年
2 孙曰昕;面向微博的热点话题发现与追踪研究[D];西北师范大学;2014年
3 彭利斌;微博热点话题发现与话题演化的研究[D];桂林电子科技大学;2014年
4 李妍;微博数据预处理及话题检测方法研究[D];河北师范大学;2014年
5 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年
6 詹勇;基于主题模型和混合模型的微博客交叉话题发现研究[D];西南交通大学;2013年
7 黄波;基于向量空间模型和LDA模型相结合的微博客话题发现算法研究[D];西南交通大学;2012年
8 罗武;农业知识库知识录入系统关键技术研究与实现[D];湖南农业大学;2011年
9 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
10 张静;基于微博的网络热点发现模型及平台研究[D];华中科技大学;2010年
,本文编号:2375190
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2375190.html