基于LDA模型和密度聚类的新闻话题检测
发布时间:2017-07-30 00:21
本文关键词:基于LDA模型和密度聚类的新闻话题检测
【摘要】:近些年,随着互联网的快速发展和网络终端的多样化,网络新闻报道快速增长,新闻信息的结构变得更加复杂。传统的新闻收集、整理、组织和分析工作很难全面的了解新闻报道之间的联系,无法从全局的角度判断新闻报道的发展方向,话题检测技术应运而生。新闻话题检测的主要任务是从大量新闻中自动检测出潜在的话题,同时话题检测也可以对突发新闻事件进行检测并全面了解事件的发展情况。话题检测对舆情监测、信息安全、商业金融等领域都有重要作用。本文针对新闻数据的话题检测进行研究,主要工作如下:(1)将LDA模型与基于密度的聚类算法相结合。LDA模型从语义层面抽取新闻数据主题,有效降低数据分析维度,更合理的体现新闻主题特征;基于密度聚类算法能够更有效的挖掘话题中新闻的结构。(2)基于新闻话题的时间延续性,给出了改进的T-OPTICS算法。该算法继承了OPTICS算法对参数不敏感的特性,降低了参数选择对聚类结果的影响;改进了OPTICS算法中文本间相似度的计算方法,体现了话题的时间延续性。(3)针对话题检测任务的特点,给出了一种基于OPTICS可达图的自动簇识别方法。该方法以话题是一个核心事件或活动以及与其相关的事件或活动的定义为依据,首先在OPTICS可达图上识别所有凹区间作为活动或事件,然后抽取事件(活动)的核心特征,最后合并核心特征相近的连续事件(活动),得到需要检测的话题集合。该方法克服了现有的簇识别方法参数选择困难的缺点。基于TDT4数据集的实验表明,上述研究工作能够快速有效的发现新闻中的话题。
【关键词】:话题检测 LDA模型 OPTICS 簇识别
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究目的和意义10
- 1.2 研究背景及现状分析10-12
- 1.2.1 话题检测研究现状10-11
- 1.2.2 OPTICS算法及其自动簇识别方法研究现状11-12
- 1.3 主要研究内容12-13
- 1.4 论文组织13-14
- 1.5 本章小结14-16
- 第2章 相关知识16-25
- 2.1 话题检测与跟踪16-18
- 2.1.1 话题检测与跟踪概述16
- 2.1.2 话题检测与跟踪相关概念16-17
- 2.1.3 话题检测与跟踪主要任务17-18
- 2.1.4 语料及标注情况18
- 2.2 文本表示模型18-22
- 2.2.1 向量空间模型19-20
- 2.2.2 LSI模型20
- 2.2.3 PLSI模型20-21
- 2.2.4 LDA模型21-22
- 2.3 本文语料库及实验评价标准22-24
- 2.3.1 实验数据22-23
- 2.3.2 数据预处理23
- 2.3.3 实验评价标准23-24
- 2.4 本章小结24-25
- 第3章 面向话题检测的T-OPTICS聚类算法25-37
- 3.1 聚类算法25-28
- 3.1.1 基于划分的聚类25-26
- 3.1.2 层次聚类26-27
- 3.1.3 基于密度的聚类27-28
- 3.2 OPTICS算法28-30
- 3.3 算法改进30-31
- 3.4 实验结果及分析31-35
- 3.4.1 实验设计31-32
- 3.4.2 实验结果分析32-35
- 3.4.3 LDA+T-OPTICS与VSM+K-means对比35
- 3.5 本章小结35-37
- 第4章 基于可达图的自动话题检测37-46
- 4.1 可达图37-39
- 4.2 事件划分39-40
- 4.3 事件建模与合并40-42
- 4.4 基于自动簇识别的话题检测42-43
- 4.5 实验结果及分析43-45
- 4.5.1 实验设计43-44
- 4.5.2 实验结果分析44-45
- 4.5.3 实验结果总结45
- 4.6 本章小结45-46
- 第5章 总结与展望46-48
- 5.1 本文总结46
- 5.2 工作展望46-48
- 参考文献48-51
- 致谢51-52
- 攻读学位期间取得的科研成果52
本文编号:591755
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/591755.html