推特中的非特定事件检测方法研究
本文选题:短文本 + 语义相似度 ; 参考:《电子科技大学》2017年硕士论文
【摘要】:社交网络的兴起和发展带给人们生活极大的便利和变化。社交网络网站一般拥有百万以上的注册用户,全球范围内著名的社交网络网站有脸书(FaceBook)、推特(Twitter)、微博等。社交网络中传播着大量有用信息,而且推特等社交网站对一般用户开放了API以方便获取数据,这些因素使得近年来基于推特的数据挖掘研究迅速增加。事件检测是其中的一个热门研究,可分为特定事件检测和非特定事件检测。本文基于推特平台以英语文本为研究对象,以非特定事件检测为研究课题。重点研究了短文本语义相似度计算方法、非特定事件检测方法和在线非特定事件检测系统实现。本文主要在以下几个方面进行研究和创新:(1)提出基于知识和语料库结合的短文本相似度计算方法。该方法基于改进词语语义相似度计算方法和一般短文本语义相似度计算方法。改进词语相似度方法通过一种选取融合的策略结合两种词语语义相似度,结合两种方法的优点以弥补单个方法的不足,发现更多文本中词语的语义联系,提升相似度的准确性。本文使用大量测试语料集对多种算法进行对比测试分析,改进方法在词语相似度和短文本相似度结果上比其他方法更贴近人工标记结果。(2)提出基于文本增量聚类的非特定事件检测方法。主要改进了事件检测中的增量短文本聚类方法,改进方法是一种包含了贪婪聚类、重聚类、合并类、类删减和可选的语义相似度计算的方法。它针对现有聚类算法缺乏语义相似性计算、增量聚类的顺序影响性和聚合效果差的问题进行改进。此外提出一种基于聚类结果特征的事件识别方法。在真实推文数据测试中改进聚类方法比原方法在聚类效果和顺序影响方面有较大提升,事件检测方法的召回率和准确性也满足应用需求。(3)设计实现了基于推特的非特定事件检测系统。本文对非特定事件检测系统进行了编程实现,主要包括语义相似度计算、非特定事件检测、文本预处理和图形界面。该系统为了处理社交网络的大量数据信息,针对各个模块分别提出了优化方法。在使用真实推文对系统进行的功能测试和优化性能对比测试中,该系统功能正常,优化方法使模块性能有较大提升,使系统能满足在线事件检测的要求。
[Abstract]:The rise and development of social network bring great convenience and change to people's life. Social networking sites typically have more than one million registered users, while world-renowned social networking sites include Facebook Facebook, Twitter, Weibo and others. Social networks spread a lot of useful information, and social networking sites such as Twitter open API to average users for easy access to data. These factors have led to the rapid increase of data mining research based on Twitter in recent years. Event detection is one of the most popular researches, which can be divided into specific event detection and non-specific event detection. Based on Twitter platform, this thesis focuses on English text and non-specific event detection. This paper focuses on the semantic similarity calculation method of short text text, the method of non-specific event detection and the realization of on-line non-specific event detection system. In this paper, we mainly research and innovate in the following aspects: 1) propose a method for calculating the similarity of short text texts based on the combination of knowledge and corpus. This method is based on the improved semantic similarity calculation method and the general text text semantic similarity calculation method. The improved word similarity method combines the semantic similarity of two words with a strategy of selection and fusion, combines the advantages of the two methods to make up for the shortcomings of a single method, finds more semantic links of words in the text, and improves the accuracy of the similarity degree. In this paper, we use a large number of test corpus to compare and analyze many algorithms. The improved method is closer to the result of manual marking than other methods in terms of word similarity and text similarity.) an independent event detection method based on incremental text clustering is proposed. This paper mainly improves the incremental short text clustering method in event detection. The improved method includes greedy clustering, reclustering, merging classes, class deletion and alternative semantic similarity calculation. It improves on the lack of semantic similarity calculation in existing clustering algorithms, the order influence of incremental clustering and the poor aggregation effect. In addition, an event recognition method based on clustering result features is proposed. The improved clustering method is better than the original method in clustering effect and sequence effect in real tweet data testing. The recall rate and accuracy of event detection method also meet the requirement of application. In this paper, the implementation of non-specific event detection system is carried out, including semantic similarity calculation, non-specific event detection, text preprocessing and graphical interface. In order to deal with a lot of data information of social network, the system proposes optimization methods for each module. In the function test and performance contrast test of the system with real tweet, the system has normal function, and the optimization method can improve the performance of the module greatly, so that the system can meet the requirements of online event detection.
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2017
【分类号】:TP393.09;TP391.1
【相似文献】
相关期刊论文 前10条
1 赵晓芳;刘智勇;;基于支持向量数据描述的高速公路事件检测[J];计算机技术与发展;2008年12期
2 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[J];计算机学报;2008年04期
3 史新宏,蔡伯根;高速公路自动事件检测算法[J];交通运输系统工程与信息;2001年04期
4 周林英;朱斌;赵忠杰;;基于支持向量机的高速公路事件检测算法[J];系统仿真技术;2010年03期
5 陈艳艳;田启华;;公交调度系统事件检测算法研究[J];北京工业大学学报;2011年12期
6 郝艳哲;;京秦高速公路视频事件检测系统应用[J];中国交通信息化;2013年04期
7 王闯舟;;提升事件检测的商业价值[J];软件世界;2007年20期
8 王彩琴;;基于智能分析的高速公路事件检测系统的研究与开发[J];浙江统计;2007年11期
9 王颖颖;张峗;胡乃静;;在线新事件检测系统中的性能提升策略[J];计算机工程;2008年15期
10 仓玉;洪宇;姚建民;朱巧明;;基于时序话题模型的新事件检测[J];智能计算机与应用;2011年03期
相关会议论文 前10条
1 洪宇;张宇;范基礼;刘挺;李生;;基于子话题分治匹配的新事件检测[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘霄;邵健;庄越挺;;基于主题模型的网络突发热点事件检测[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
3 胡佳锋;金蓓弘;陈海彪;;空间事件检测的加速策略研究[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【oral】[C];2011年
4 万涛;陈学武;王川久;;高速公路事件自动检测算法研究综述[A];第一届中国智能交通年会论文集[C];2005年
5 张阔;李涓子;吴刚;;基于关键词元的话题内事件检测[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 覃频频;许登元;姚起宏;黄大明;;基于表决融合的高速公路事件检测算法融合[A];'2006系统仿真技术及其应用学术交流会论文集[C];2006年
7 陈俊;李国辉;;拥挤视频监控中的事件检测[A];第七届和谐人机环境联合学术会议(HHME2011)论文集【poster】[C];2011年
8 张永忠;赵静;;基于事件检测算法的交通数据分析系统[A];中国计量协会冶金分会2008年会论文集[C];2008年
9 刘海龙;李战怀;陈群;;RFID供应链系统中的在线复杂事件检测方法[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 周春姐;孟小峰;文洁;;Flickr中的复合事件检测[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
相关重要报纸文章 前2条
1 王闯舟;事件检测提升服务的商业价值[N];计算机世界;2006年
2 杭州海康威视数字技术股份有限公司 浦世亮;IVS技术在城市安防系统中的应用[N];计算机世界;2008年
相关博士学位论文 前10条
1 刘昌余;多媒体事件检测中的关键技术研究[D];华南理工大学;2015年
2 覃频频;基于信息融合的高速公路事件检测建模与仿真[D];西南交通大学;2007年
3 余柳;基于移动源数据的城市快速交通事件检测W-CUSUM算法与评价[D];北京交通大学;2010年
4 柯佳;基于语义的视频事件检测分析方法研究[D];江苏大学;2013年
5 杨洁;SOA架构下基于语义的人件服务管理与调用研究[D];南京大学;2014年
6 刘宏哲;文本语义相似度计算方法研究[D];北京交通大学;2012年
7 王俊华;基于不确定性理论的单词语义相似度度量[D];吉林大学;2014年
8 宋玲;语义相似度计算及其应用研究[D];山东大学;2009年
9 宋歌;基于聚类森林的文本流分类方法研究[D];哈尔滨工业大学;2014年
10 韩开旭;基于支持向量机的文本情感分析研究[D];东北石油大学;2014年
相关硕士学位论文 前10条
1 蒲昊雨;推特中的非特定事件检测方法研究[D];电子科技大学;2017年
2 裴孝中;行车噪声环境下的快速声学事件检测方法研究[D];哈尔滨工业大学;2015年
3 熊伟晴;基于位置信息的事件检测[D];哈尔滨工业大学;2015年
4 李旭;面向多来源新闻的领域事件分析[D];浙江大学;2015年
5 陈斌;基于云的复杂事件检测服务[D];浙江大学;2015年
6 赵伟;足球视频精彩事件检测算法研究[D];北京理工大学;2016年
7 张玉;基于微博的突发事件检测方法研究[D];兰州大学;2016年
8 吴维耀;制造业物联网基于事件优先级的复杂事件检测方法研究[D];广东工业大学;2016年
9 金海;基于深度神经网络的音频事件检测[D];华南理工大学;2016年
10 李红梅;基于微博的突发事件检测研究[D];南京理工大学;2016年
,本文编号:1817169
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/1817169.html