当前位置:主页 > 管理论文 > 移动网络论文 >

微博健康热点话题发现系统的设计与实现

发布时间:2018-12-12 20:21
【摘要】:随着互联网技术的不断发展,微博作为Web3.0新兴起的一类开放互联网社交平台,凭借其使用方便、信息传播速度快、平台开放性以及交互性强等优点,成为备受广大用户喜爱的分享、获取以及传播信息的重要平台。微博上每天都会产生大量的数据,这些数据蕴含着丰富的元数据信息。目前,传统的话题发现模型及文本聚类技术已经被广泛应用于各个领域,并取得了不错的成果。针对微博短文本数据,传统的话题发现方法仍然存在着很大的局限性,给微博热点话题发现带来了新的挑战。因此,如何准确快速的从海量微博数据中获取热点话题信息并将其及时展示给广大用户,是微博话题发现技术亟待解决的问题。基于以上研究背景,本文结合微博的特点,改进传统的话题发现模型以及文本聚类算法,提出了一种基于VSM模型和MLDA模型相结合的微博话题发现算法,在此基础上设计了微博健康话题发现系统。主要工作内容如下:首先,采用微博平台开放API接口和网络爬虫技术,分别对微博用户信息和微博内容两方面数据进行爬取,通过数据去噪、文本分词等操作对微博文本数据进行预处理;其次,利用VSM模型和MLDA模型对微博文本数据进行联合建模,构造微博文本的特征向量,实现微博文本相似度的联合计算。再次,采用改进传统的Single-pass算法和凝聚式层次聚类算法,对微博文数据进行二次聚类,实现微博热点话题的抽取以及话题热度的计算与排序。最后,通过多方面实验验证与分析证明了系统有效性和准确性。
[Abstract]:With the continuous development of Internet technology, Weibo, as a new type of open Internet social platform of Web3.0, has the advantages of convenient use, fast information dissemination, open and interactive platform, etc. It has become an important platform for sharing, obtaining and disseminating information. Weibo produces a lot of data every day, which contains abundant metadata information. At present, traditional topic discovery models and text clustering techniques have been widely used in various fields, and have achieved good results. In view of Weibo's short text, the traditional method of topic discovery still has great limitations, which brings new challenges to Weibo's hot topic discovery. Therefore, how to accurately and quickly obtain hot topic information from mass Weibo data and display it to the majority of users in time is a problem to be solved urgently by Weibo topic discovery technology. Based on the above research background, this paper combines Weibo's characteristics, improves the traditional topic discovery model and text clustering algorithm, and puts forward a topic discovery algorithm based on the combination of VSM model and MLDA model. On this basis, Weibo health topic discovery system is designed. The main work contents are as follows: firstly, by using Weibo platform open API interface and network crawler technology, we crawled the data in two aspects, the user information of Weibo and the content of Weibo, respectively, and removed the noise through the data. Text segmentation and other operations to pre-process Weibo text data; Secondly, using VSM model and MLDA model, the text data of Weibo are modeled jointly, and then the feature vector is constructed to realize the joint calculation of the similarity between the two texts. Thirdly, using the improved traditional Single-pass algorithm and the condensed hierarchical clustering algorithm, the Weibo text data are clustered twice to realize the hot topic extraction and the calculation and sorting of topic heat. Finally, the validity and accuracy of the system are proved by many experiments.
【学位授予单位】:西安理工大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP391.1;TP393.092

【参考文献】

相关期刊论文 前10条

1 沈金萍;;第39次《中国互联网络发展状况统计报告》发布我国网民达7.3亿[J];传媒;2017年03期

2 仇丽青;陈卓艳;丁长青;刘海燕;;基于改进LDA主题模型的社会网络话题发现算法iMLDA[J];情报科学;2016年09期

3 彭雨龙;;基于VSM和LDA模型相结合的新闻文本分类研究[J];山东工业技术;2016年06期

4 蒋玉婷;;Web数据挖掘及其在微博话题检测中的应用研究[J];现代电子技术;2016年03期

5 林萌;罗森林;贾丛飞;韩磊;原玉娇;潘丽敏;;融合句义结构模型的微博话题摘要算法[J];浙江大学学报(工学版);2015年12期

6 钟明翔;唐晋韬;谢松县;王挺;;一种基于动态网页解析的微博数据抓取方法[J];舰船电子工程;2015年10期

7 陈晋音;何辉豪;;基于密度和混合距离度量方法的混合属性数据聚类研究[J];控制理论与应用;2015年08期

8 葛文镇;;基于LDA的文本特征选择算法研究与探讨[J];计算机光盘软件与应用;2015年03期

9 王鹏;高铖;陈晓美;;基于LDA模型的文本聚类研究[J];情报科学;2015年01期

10 马雯雯;魏文晗;邓一贵;;基于隐含语义分析的微博话题发现方法[J];计算机工程与应用;2014年01期

相关博士学位论文 前1条

1 唐东明;聚类分析及其应用研究[D];电子科技大学;2010年

相关硕士学位论文 前10条

1 许笛;社区问答系统中问句推荐技术的研究[D];大连理工大学;2015年

2 孙曰昕;面向微博的热点话题发现与追踪研究[D];西北师范大学;2014年

3 彭利斌;微博热点话题发现与话题演化的研究[D];桂林电子科技大学;2014年

4 李妍;微博数据预处理及话题检测方法研究[D];河北师范大学;2014年

5 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

6 詹勇;基于主题模型和混合模型的微博客交叉话题发现研究[D];西南交通大学;2013年

7 黄波;基于向量空间模型和LDA模型相结合的微博客话题发现算法研究[D];西南交通大学;2012年

8 罗武;农业知识库知识录入系统关键技术研究与实现[D];湖南农业大学;2011年

9 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年

10 张静;基于微博的网络热点发现模型及平台研究[D];华中科技大学;2010年



本文编号:2375190

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2375190.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户beb0d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com