基于论坛的突发事件检测与跟踪
本文关键词:基于论坛的突发事件检测与跟踪
【摘要】:随着互联网技术发展的不断深入,人们已经进入了数字化信息化的大数据时代。每天数以亿计的数据不断的产生、传播。这些超大规模的数据在带来无限商机的同时也带来了相应的风险。信息由现实生活中发生的各种事件而产生,随着时间地点的推移而传播。现实生活中的各类事件又因它们的因果关联关系而聚合在一起成为话题。对话题进行检测和追踪(TDT)近年来一直是学术界相关学者研究的焦点。本文以突发事件话题为研究对象,将新闻论坛数据作为数据源,对突发事件话题进行了检测与追踪。本文首先建立了满足突发事件话题特点要求的数据库表来存储原始数据。根据突发事件话题特有的特征,从原始数据中提取出内容信息和时间信息。为了更好的得到数据的内容信息,本文在使用开源分词工具的基础上,自定义了分词工具的分词词典并构建了相应的停用词词典。采取相应的噪声过滤机制,得到了干净的数据集,这是后文进一步提取特征的基础。之后,本文引入了TFIW-IDF与时间窗的概念来分析原始数据中所含有的时间信息,将噪声过滤后的数据集根据时间先后顺序切成了不同时间窗数据段。对每一段的数据经过相应算法的分析,提取出具有突发事件特征的突发词集合,并计算各突发词对应的突发时间区间。对突发词集合进行内容共现度,时间共现度的计算,构建出突发词的相似性矩阵。构建的相似性矩将作为后文层次聚类算法的输入。最后,采用自下而上凝聚型层次聚类,对突发词集合进行聚类分析,得到由突发词集构成的二叉话题树。采用多种话题树切分机制,对话题树进行有效的切分进而得到突发事件的话题。为了满足TDT里对话题这一概念的定义,本文在采取相应约束的将突发事件话题与原始文档流进行了对应。本文在完成上述工作的基础上建立了突发事件话题检测系统,利用论坛数据对本文的理论和系统进行了检验取得了较好的效果。
【关键词】:话题发现 时间窗 突发事件 层次聚类
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1;TP393.09
【目录】:
- 摘要3-4
- Abstract4-8
- 第一章 绪论8-12
- 1.1 研究背景与意义8-9
- 1.2 国内外研究现状9-10
- 1.3 论文主要工作10
- 1.4 论文组织结构10-12
- 第二章 突发事件话题与相关对象的定义12-16
- 2.1 对象的定义12-14
- 2.2 研究框架思路图14-16
- 第三章 数据库构建和数据预处理16-22
- 3.1 数据库软件介绍的设计16
- 3.2 数据库表设计16-18
- 3.3 数据预处理18-22
- 3.3.1 重复文档过滤18-19
- 3.3.2 文档分词与建立自定义词库19-22
- 第四章 突发词的提取与相似性矩阵的构建22-33
- 4.1 时间窗、词的时序序列与TFIW-IDF22-25
- 4.2 用TFlW-IDF检测突事件突发词25-27
- 4.3 计算突发词突发时间区间27-29
- 4.5 构建词的共现度矩阵29-33
- 4.5.1 词的内容共现度计算29-30
- 4.5.2 词的时间共现度计算30-31
- 4.5.3 基于内容和时间的共现相似矩阵31-33
- 第五章 突发事件话题发现33-43
- 5.1 聚类算法与突发事件话题发现框架33-38
- 5.2 计算话题的突发时间区间38-40
- 5.3 源数据与话题的对应40-43
- 第六章 总结与展望43-46
- 6.1 全文工作总结43
- 6.2 下一步工作计划43-46
- 参考文献46-47
- 致谢47
【相似文献】
中国期刊全文数据库 前10条
1 潘大庆;;基于层次聚类的微博敏感话题检测算法研究[J];广西民族大学学报(自然科学版);2012年04期
2 郑晓鸣;吕士颖;王晓东;;一种基于随机抽取的有限深度层次聚类[J];郑州大学学报(理学版);2007年03期
3 汤周文;叶东毅;;基于层次聚类的差异化属性约简算法[J];计算机应用;2009年02期
4 文顺;赵杰煜;朱绍军;;基于贝叶斯和谐度的层次聚类[J];模式识别与人工智能;2013年12期
5 龚尚福;陈婉璐;贾澎涛;;层次聚类社区发现算法的研究[J];计算机应用研究;2013年11期
6 香红丽;王潇涵;罗淑云;;基于层次聚类方法研究课程关系结构[J];中国科教创新导刊;2011年26期
7 李晓飞;;基于动态层次聚类的离散化算法的研究[J];计算机应用与软件;2009年10期
8 张阔,徐鹏,李涓子,王克宏;基于优化层次聚类的文档逻辑结构抽取[J];清华大学学报(自然科学版);2005年04期
9 王旅;彭宏;胡劲松;梁华芳;;层次聚类在种群亲缘关系研究中的应用[J];计算机时代;2006年07期
10 黄健斌;康剑梅;齐俊杰;孙鹤立;;一种基于同步动力学模型的层次聚类方法[J];中国科学:信息科学;2013年05期
中国重要会议论文全文数据库 前6条
1 吾守尔·斯拉木;吴启南;;基于层次聚类方法[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 彭楠峗;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 杨建武;;Web检索结果的层次聚类研究[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
4 刘启亮;邓敏;李光强;王佳t,
本文编号:786313
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/786313.html