基于多向量的中文新闻话题检测
发布时间:2017-03-30 18:20
本文关键词:基于多向量的中文新闻话题检测,,由笔耕文化传播整理发布。
【摘要】:话题检测是处理互联网新闻的一种重要方法,使用聚类方法对新闻文档进行处理是实现话题检测的一条重要途径。凝聚层次聚类算法由于具有较高聚类精确度,且聚类结果能够分层展示等特点,具有较为广泛的应用。对话题检测结果具有重要影响的因素有很多,包括:话题的表示方法、向量的加权方法、聚类算法过程以及聚类个数的估计方法等。本文针对话题检测中的三个关键点:话题表示方法、向量的加权方法和聚类个数估计算法进行了研究,主要工作如下:1.在分析研究向量空间模型、主题模型以及多向量模型的基础上,将向量空间模型和主题模型相结合,给出了一种基于多向量模型的话题表示方法,同时结合基于簇中心的凝聚层次聚类过程,给出了基于多向量的凝聚层次聚类中的簇中心构造及更新方法。2.针对传统TFIDF算法中存在的对特征项在各个类中分布情况考虑不充分的问题,通过将特征项在各个类中的文档分布信息引入到TFIDF算法当中,给出了对传统TFIDF的一种改进算法,并将改进算法与本文给出的基于多向量的凝聚层次聚类算法相结合,应用于簇中心的更新算法当中。3.对聚类个数估计方法进行了研究,通过对最小信息准则和贝叶斯信息准则进行分析,同时结合凝聚层次聚类算法过程,给出一种将两种聚类评价方法相结合的聚类个数估计方法。本文使用语言数据联盟在话题检测与追踪评测中用到的TDT4数据集中的中文数据集对给出的算法进行测试,实验结果表明,本文给出的基于多向量的话题检测方法能够得到较好的文档聚类结果,通过对比试验可以发现本文给出的方法能够提高话题检测的召回率和准确率。
【关键词】:话题检测 多向量模型 TFIDF改进 聚类个数估计
【学位授予单位】:河北大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-10
- 第1章 绪论10-16
- 1.1 研究背景和意义10-11
- 1.2 国内外研究现状及分析11-13
- 1.2.1 话题表示模型11-12
- 1.2.2 TFIDF加权算法12
- 1.2.3 聚类个数估计方法12-13
- 1.3 主要研究内容13
- 1.4 论文组织13-16
- 第2章 相关知识16-28
- 2.1 话题检测相关概念16-17
- 2.1.1 话题检测基础概念16
- 2.1.2 话题检测相关流程16-17
- 2.2 话题表示模型17-20
- 2.2.1 向量空间模型17-18
- 2.2.2 主题模型18-20
- 2.2.3 多向量模型20
- 2.3 加权方法20-21
- 2.4 聚类方法21-23
- 2.5 聚类个数估计方法23-26
- 2.6 本章小结26-28
- 第3章 基于多向量的文本聚类算法28-38
- 3.1 多向量表示方法介绍28
- 3.2 基于多向量的文本聚类算法实现28-34
- 3.2.1 多向量构造方法28-33
- 3.2.2 聚类方法33-34
- 3.3 相关实验34-37
- 3.3.1 评价方法及实验数据集34-35
- 3.3.2 基准方法聚类实验35-36
- 3.3.3 基于多向量模型方法实验36-37
- 3.4 本章小结37-38
- 第4章 基于多向量的话题检测方法38-47
- 4.1 评价准则在基于多向量文本聚类算法中的使用39-40
- 4.2 改进的评价准则方法40-41
- 4.3 基于多向量的话题检测方法的实现41-42
- 4.4 话题检测方法实验42-46
- 4.5 本章小结46-47
- 第5章 总结与展望47-49
- 5.1 本文总结47-48
- 5.2 工作展望48-49
- 参考文献49-52
- 致谢52-53
- 攻读学位期间取得的科研成果53
【相似文献】
中国期刊全文数据库 前10条
1 杨洁;郑宁;徐海涛;刘董;徐明;;支持向量预选取的域着色Voronoi图方法[J];计算机应用与软件;2008年12期
2 李庆;胡捍英;;支持向量预选取的K边界近邻法[J];电路与系统学报;2013年02期
3 郑逢德;张鸿宾;;在线Lagrangian支撑向量回归[J];北京工业大学学报;2013年07期
4 赵春晖;张q
本文编号:277793
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/277793.html