当前位置:主页 > 管理论文 > 移动网络论文 >

云环境下基于RIHDBSCAN的微博事件检测及跟踪

发布时间:2020-01-22 10:32
【摘要】:微博近几年有着飞速的发展和广泛的影响。用户通过网页、手机、SMS等多种途径,随时随地记录见闻时事、参与话题讨论等。对实时产生的大量微博文本进行分析和挖掘具有风险预警、舆论监控等重要实际意义,也给文本挖掘领域带来了新的挑战。 针对微博的挖掘分析,国内外学者已经取得了一定的成果。然而,为了提高从海量迅速增长的微博数据中挖掘新闻事件的速度和精度,需要采取新的更加有效的方法来处理即时更新的大量文本数据流。云计算技术是未来的趋势,它能够高效的完成海量数据的存储和计算任务,将云计算技术和微博挖掘结合起来势在必行。论文设计了一套完整的云环境下的微博事件检测跟踪模型。主要研究及创新点如下: ①制定机械化过滤规则,将抓取的微博文本按规则进行过滤,有效提高后续处理的效率。 ②在传统TF-IDF算法的基础上,提出动态权值计算方法FCF-DIDF。该算法基于微博转发数和评论数,能够有效改善TF-IDF算法的不足,并考虑到微博文本集规模的不断增加,适合处理微博短文本。 ③基于DBSCAN算法,提出基于代表点的增量层次密度聚类算法(RIHDBSCAN)。该算法分为三个步骤:生成初始簇、初始簇合并、选出代表点。算法执行过程中只需要选取部分对象进行核心点检测,大大降低了I/O开销,屏蔽了数据输入顺序敏感性。RIHDBSAN算法在每轮事件检测聚类算法执行结束后,选出代表点组参与下轮的增量聚类,并通过增量聚类中簇结构和关键词变化追踪事件的发展轨迹。 ④针对单一节点处理海量微博数据面临困境,将算法部署在Hadoop云计算平台上。模型的四个部分:文本过滤、FCF-DIDF动态权值计算、余弦距离计算、RIHDBSCAN聚类,都并行在该平台上。 通过在新浪微博平台上抽取的数据进行实验表明,表明论文提出的FCF-DIDF算法对比TF-IDF和UF-ITUF等有更高的性能,并且云框架的使用较好的提高了从大规模微博数据中挖掘新闻事件的效率,,适合用于海量数据的分析和挖掘。
【图文】:

词条,权值矩阵,文档,向量空间模型


文档-词条权值矩阵Fig2.2.Theweightmatrixoftext-term

相似度,余弦,欧氏距离,文本


图 2.3 欧氏距离和余弦相似度的区别2.3 The difference between Euclidean distance and Cosine sim,余弦相似度能够有效规避文本间的差异表现,场景,论文采用规范化的余弦公式计算余弦相似度续聚类分析有重要的影响。本章介绍了预处理关键首先提出根据机械化规则直接过滤文本,提高后提出一种改进的 FCF-DIDF 动态权值算法计算特公式来计算文本向量间的相似度,最后得到余弦模型,为聚类分析做好了数据准备。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP393.092;TP391.1

【参考文献】

相关期刊论文 前10条

1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期

2 倪维健;黄亚楼;李飞;刘赏;;一种基于加权多代表点的层次聚类算法[J];计算机科学;2005年05期

3 郑斐然;苗夺谦;张志飞;高灿;;一种中文微博新闻话题检测的方法[J];计算机科学;2012年01期

4 邱云飞;程亮;;微博突发话题检测方法研究[J];计算机工程;2012年09期

5 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期

6 路荣;项亮;刘明荣;杨青;;基于隐主题分析和文本聚类的微博客中新闻话题的发现[J];模式识别与人工智能;2012年03期

7 周红芳;赵雪涵;周扬;;基于限定区域数据取样的密度聚类算法[J];计算机应用;2012年08期

8 李劲;张华;吴浩雄;向军;;基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J];计算机应用;2012年08期

9 周水庚,周傲英,金文,范晔,钱卫宁;FDBSCAN:一种快速 DBSCAN算法(英文)[J];软件学报;2000年06期

10 马帅,王腾蛟,唐世渭,杨冬青,高军;一种基于参考点和密度的快速聚类算法[J];软件学报;2003年06期



本文编号:2571936

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2571936.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户afd83***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com