微博数据预处理及话题检测方法研究
发布时间:2019-11-15 19:48
【摘要】:随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取信息、传递信息、检索信息等日常网络行为中扮演着越来越重要的角色。与传统媒体数据相比,微博文本简短,支持实时转发评论,,并且话题传播速度快,这使得微博数据成为新的研究对象。微博话题检测技术是研究如何对大量的微博数据信息进行管理分类,已经成为当前微博研究的热点之一。本文从微博数据的采集、微博数据短文本预处理、微博话题检测方法三个方面进行研究。采集相关微博数据,并结合微博的文本简短性和结构化信息特征,在传统话题检测方法基础上,对微博数据预处理和微博话题检测方法进行了探讨。主要工作内容如下: 基于微博开放API接口采集相关微博数据。在微博采集数据方面,介绍了网络爬虫技术和基于微博开放平台的微博数据获取方案。通过数据获取实验分析两种数据采集方法的优缺点,表明微博开放平台获取数据方法更好。所以,采用通过程序调用微博API接口获取本文的实验数据。 针对微博短文本,提出一种新的基于多语言翻译的文本特征扩展方法。在微博数据短文本预处理方面,提出了一种有效的扩充数据特征表示方法,即通过翻译机器的多种语言表达增加文本特征数量。我们从其他语言中获得的额外知识丰富简短文本特征,然后利用矩阵分解技术进行短文本整合和维数约减,这在一定程度上解决了短文本挖掘中存在的问题。 改进单增量聚类算法用于微博话题检测。在传统话题检测方法的基础上,结合微博文本简短的特点和微博结构化信息的特征,对单增量聚类算法进行了改进。采用相似度最大阈值和最小阈值策略,并利用微博文本间转发评论关系和微博用户间好友关系,提出MB-SinglePass微博话题检测算法。实验证明该算法检测效果更佳。
【图文】:
登陆微博首页展示内容
图1.2个人主页展示
【学位授予单位】:河北师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
本文编号:2561449
【图文】:
登陆微博首页展示内容
图1.2个人主页展示
【学位授予单位】:河北师范大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1
【参考文献】
相关期刊论文 前10条
1 万小军,杨建武;在线新闻主题检测系统的设计与应用[J];华南理工大学学报(自然科学版);2004年S1期
2 张晨逸;孙建伶;丁轶群;;基于MB-LDA模型的微博主题挖掘[J];计算机研究与发展;2011年10期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
5 邱云飞;程亮;;微博突发话题检测方法研究[J];计算机工程;2012年09期
6 薛晓飞;张永奎;任晓东;;基于新闻要素的新事件检测方法研究[J];计算机应用;2008年11期
7 刘金红;陆余良;;主题网络爬虫研究综述[J];计算机应用研究;2007年10期
8 殷风景;肖卫东;葛斌;李芳芳;;一种面向网络话题发现的增量文本聚类算法[J];计算机应用研究;2011年01期
9 周刚;邹鸿程;熊小兵;黄永忠;;MB-SinglePass:基于组合相似度的微博话题检测[J];计算机科学;2012年10期
10 文坤梅;徐帅;李瑞轩;辜希武;李玉华;;微博及中文微博信息处理研究综述[J];中文信息学报;2012年06期
本文编号:2561449
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2561449.html