当前位置:主页 > 管理论文 > 移动网络论文 >

中文微博的热点话题发现

发布时间:2018-03-01 04:31

  本文关键词: 微博 热点话题 文本聚类 关键词 出处:《安徽大学》2014年硕士论文 论文类型:学位论文


【摘要】:近些年,微博已然成为社会网络一个很重要的的应用,人们通过微博可以在任何地点,任何时间发布自己的所见,所闻,所想。这种较为简易的消息发布方式很大程度上降低了信息发布的壁垒,这也是微博得到广泛应用的重要因素之一。在这些用户发布的微博数据中,多数的微博信息都和现实生活中的事件有所关联。有些微博网站也会在网站主页中列出最近一段时间的热门关键词,但是这些微博主题词通常都很简短、分散,而且与某个话题有关的微博信息是由不同微博发布者在不同时间内发布的。用户不能通过这些孤立信息对事件有一个全面的了解,相关部门也不能完整掌握事态的发展,对微博上的舆论不能进行正确的引导。正是在这种情形下,针对微博数据的热点话题发现逐渐成为一个研究热点。微博热点话题发现就是通过相关的话题检测技术把分散的微博信息组织起来有条理地呈现给人们。 本文提出了一个完整的微博热点话题发现方法。该方法主要包括了微博数据的预处理、微博数据的文本表示、特征词提取、文本聚类和事件关键词提取等步骤。文中仔细分析了微博数据自身的特点,结合这些微博数据特征对TF-IDF算法进行改进,提高了微博热点话题发现的效果。本文在微博文本聚类时采用了多属性无向加权图聚类算法,不仅考虑了图的拓扑结构还引入了节点的属性,与目前常用的一些聚类算法相比较提高了聚类的效果。文中给出的一些实验结果表明本文提出的微博热点事件检测算法是有效的。
[Abstract]:In recent years, Weibo has become a very important application of the social network. People can publish what they see and hear from any place, any time, through Weibo. Think about it. This relatively simple way of publishing information has greatly reduced the barrier to information release, which is also one of the important factors that Weibo has been widely used. In the Weibo data published by these users, Most Weibo information has something to do with real-life events. Some Weibo websites also list popular keywords from recent periods of time on their home pages, but they are usually short and scattered. Moreover, Weibo information related to a certain topic was published by different Weibo publishers at different times. Users cannot have a comprehensive understanding of the incident through these isolated information, nor can the relevant departments fully grasp the development of the situation. It is under such circumstances that the public opinion on Weibo cannot be properly guided. The hot topic discovery of Weibo data has gradually become a research hotspot. Weibo hot topic discovery is to organize and present the scattered Weibo information to people in a coherent way through the relevant topic detection technology. In this paper, a complete method of hot topic discovery by Weibo is proposed. This method mainly includes the pretreatment of Weibo data, the text representation of Weibo data, the extraction of feature words. Text clustering and event keyword extraction. This paper carefully analyzes the characteristics of Weibo data itself, and improves the TF-IDF algorithm by combining the characteristics of the Weibo data. In this paper, we adopt multi-attribute undirected weighted graph clustering algorithm, which not only considers the topological structure of graph, but also introduces the attributes of nodes. Compared with some commonly used clustering algorithms, the clustering effect is improved. Some experimental results show that the Weibo hot spot event detection algorithm proposed in this paper is effective.
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092

【相似文献】

相关期刊论文 前10条

1 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期

2 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期

3 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期

4 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期

5 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期

6 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期

7 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期

8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期

9 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期

10 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期

相关会议论文 前10条

1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年

3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

7 罗娜;左万利;袁福宇;张靖波;张慧杰;;使用本体语义提高文本聚类(英文)[A];全国语域web与本体能研讨会论文集[C];2006年

8 颜端武;李晓鹏;王磊;成晓;;文本聚类中基于本体的相似性测度(英文)[A];全国语域web与本体能研讨会论文集[C];2006年

9 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

10 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年

相关重要报纸文章 前2条

1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年

2 王培森;从Web挖到竞争情报[N];中国计算机报;2003年

相关博士学位论文 前10条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年

4 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

5 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年

6 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

7 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年

8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年

9 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年

10 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年

相关硕士学位论文 前10条

1 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年

2 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年

3 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年

4 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年

5 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年

6 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年

7 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年

8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年

9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年

10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年



本文编号:1550402

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1550402.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户af463***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com