当前位置:主页 > 管理论文 > 移动网络论文 >

基于LDA模型的微博话题与事件检测

发布时间:2018-04-03 10:08

  本文选题:微博 切入点:话题检测 出处:《哈尔滨工业大学》2014年硕士论文


【摘要】:当前,我们处在一个瞬息万变的互联网时代。近几年来,以SNS、微博、微信等为代表的新型网络社交工具迅速崛起,各自拥有了数量巨大的用户群体。微博凭借着实时性强,内容简练(140字以内)和发布方式多样等优点,已经成为网上信息发布和传播的主要平台之一。微博在短时期内就能够聚集大量的文本数据,如何在这些杂乱、无序的微博文本数据中快速地提取出精炼的、有价值的话题,是一项艰巨的任务,需要对现有的话题检测技术进行发展和提高。本文提出了一种基于LDA-SP(Latent Dirichlet Allocation-Single Pass)的微博话题检测算法。首先分析了话题检测的基本流程,阐述了各个环节使用技术的基本原理和实现细节。针对在传统话题检测中,以向量空间模型作为文本模型表示存在着维度过高、语义表现缺失等缺点,本文改进了传统方法,采用潜在狄利克雷分配模型对微博文本建模,采用Single-Pass算法作为微博话题检测中聚类的实现方法,将两者结合使用。对照实验的结果表明,本文提出的算法在解决了预设话题数的缺点的同时,还保证了话题检测的精度。本文提出了一种微博事件的同一性计算方法。该方法用来区分微博数据集中具有相似内容的不同事件。由于这种“难分”问题的存在,主题模型无法对相似内容的不同事件进行分辨。本文首先考虑两条语义上相似的微博,然后计算它们在时间、地点等事件特征上的同一性评分,从而推断出它们是否表述同一个事件。将此方法与Single-Pass算法相结合,最后引入微博数据集进行实验。实验表明,相比之前的算法,改进相似度后的算法在“难分”问题上具有更好的事件检测效果。
[Abstract]:At present, we are in a rapidly changing era of the Internet.In recent years, with SNS, Weibo, WeChat as the representative of the new social networking tools, each has a large number of users.Weibo has become one of the main platforms for information dissemination and dissemination on the Internet because of its advantages of real time, concise content within 140 words) and variety of publishing methods.Weibo was able to gather a large amount of text data in a short period of time. It is a difficult task to quickly extract refined and valuable topics from these messy and disordered Weibo text data.It is necessary to develop and improve the existing topic detection technology.This paper presents a topic detection algorithm for Weibo based on LDA-SP(Latent Dirichlet Allocation-Single Pass.Firstly, the basic flow of topic detection is analyzed, and the basic principle and implementation details of each link are expounded.In traditional topic detection, vector space model (VSM) as a text model has some disadvantages, such as too high dimension, lack of semantic representation, etc. In this paper, we improve the traditional method and use latent Delikley assignment model to model Weibo text.Single-Pass algorithm is used as a clustering method in Weibo topic detection, and the two methods are combined.The experimental results show that the proposed algorithm not only solves the shortcomings of the preset number of topics, but also ensures the accuracy of topic detection.This paper presents a method for calculating the identity of Weibo event.This method is used to distinguish different events with similar contents in Weibo dataset.Because of this problem, the topic model can not distinguish different events with similar content.In this paper, we first consider two syntactically similar Weibo, and then calculate their identity scores in time, place and other event features, and then infer whether they represent the same event or not.This method is combined with Single-Pass algorithm, and then Weibo data set is introduced to experiment.Experiments show that the improved similarity algorithm has better event detection performance than the previous algorithm.
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1;TP393.092

【相似文献】

相关期刊论文 前10条

1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期

2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期

3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期

4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期

5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期

6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期

7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期

8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期

9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

相关会议论文 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

相关博士学位论文 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

相关硕士学位论文 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年



本文编号:1704733

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1704733.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户f0cb3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com