当前位置:主页 > 经济论文 > 经济思想论文 >

改进的支持向量聚类算法及其应用研究

发布时间:2017-10-11 21:33

  本文关键词:改进的支持向量聚类算法及其应用研究


  更多相关文章: 支持向量聚类 最小闭包球 邻接矩阵 文本聚类 主成分分析


【摘要】: 21世纪是知识经济时代,知识发现已受到日益广泛的关注。聚类分析是知识发现中一个极为重要的分支,几乎可用于社会生活的各个方面。而核聚类算法由于具有许多经典聚类算法无法比拟的优势,逐渐成为聚类算法研究领域的一大热点。本文主要研究的支持向量聚类(Support Vector Clustering, SVC)算法就是一种典型的核聚类算法。 与其他聚类算法相比,SVC算法具有两大显著优势:一是不需要事先确定簇的数目,且能产生任意形状的簇边界;二是能分析噪声数据点且能分离相互交错的簇。SVC算法分为两个阶段:SVC训练阶段和聚类分配阶段。这两个阶段分别需要计算Lagrange乘子和邻接矩阵,而这两个计算问题可能导致算法具有较高的时间复杂性。正是针对这两个问题,本文提出一种改进的SVC (Improved SVC, ISVC)算法。 在SVC训练阶段,提出一种基于熵的最小闭包球(Minimal Enclosing Sphere, MES)算法。可以证明,这种方法能有效减少计算Lagrange乘子的时间。在聚类分配阶段,首先利用核矩阵提供的信息对数据点进行初始分类,然后用计算初始类的中心点集上的邻接矩阵代替经典SVC算法中计算整个数据集上的邻接矩阵。这种方法能有效减少邻接矩阵的规模,从而提高邻接矩阵的计算效率。因此,ISVC算法对经典SVC算法的两个瓶颈问题都进行了改进。数值实验表明,ISVC算法不仅显著改善了经典SVC算法的时间性能,在聚类精度上也有一定程度的提高。 之后将ISVC算法应用于文本聚类。选择复旦大学整理的小规模语料库中的100篇文本进行实验。首先对实验文本集进行预处理,依次为:切分文本集;利用向量空间模型(Vector Space Model, VSM)将切分后的文本集表示成矩阵形式;利用主成分分析(Principal Component Analysis, PCA)技术对文本集进行降维。然后利用ISVC算法将预处理后的文本数据聚类,并对聚类结果进行描述。最后对比了ISVC、k-均值和层次聚类中的凝聚算法(DHCA)三种算法在实验文本集上的聚类结果,发现ISVC算法具有较高的精度。这说明本文的ISVC算法在一定程度上提高了文本聚类的效率。
【关键词】:支持向量聚类 最小闭包球 邻接矩阵 文本聚类 主成分分析
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:F062.3;F224
【目录】:
  • 摘要4-5
  • Abstract5-9
  • 1 绪论9-18
  • 1.1 问题提出9-10
  • 1.2 国内外研究现状10-16
  • 1.2.1 核聚类算法的国内外研究现状10-15
  • 1.2.2 文本聚类算法的国内外研究现状15-16
  • 1.3 研究内容及思路16
  • 1.4 内容安排16-18
  • 2 支持向量机简介18-26
  • 2.1 支持向量分类和回归简介18-22
  • 2.1.1 结构风险最小化原则18-19
  • 2.1.2 支持向量分类简介19-21
  • 2.1.3 支持向量回归简介21-22
  • 2.2 支持向量聚类算法简介22-26
  • 2.2.1 SVC训练23-24
  • 2.2.2 聚类分配24
  • 2.2.3 SVC算法评价24-26
  • 3 ISVC算法及数值实验26-38
  • 3.1 ISVC算法26-34
  • 3.1.1 SVC训练26-29
  • 3.1.2 聚类分配29-31
  • 3.1.3 ISVC算法的具体步骤31-32
  • 3.1.4 ISVC算法的复杂性32-34
  • 3.2 数值实验34-38
  • 3.2.1 ISVC算法与经典SVC算法的比较34-37
  • 3.2.2 ISVC算法与经典聚类算法的比较37-38
  • 4 ISVC算法应用于文本聚类38-49
  • 4.1 实验数据与环境38
  • 4.2 实验设计38-48
  • 4.2.1 文本预处理39-45
  • 4.2.2 实验结果描述及评价45-48
  • 4.3 与经典文本聚类算法的比较48-49
  • 结论49-51
  • 参考文献51-54
  • 攻读硕士学位期间发表学术论文情况54
  • 攻读硕士学位期间参加科研项目情况54-55
  • 致谢55-57

【参考文献】

中国期刊全文数据库 前9条

1 纪秋颖;林健;;基于核方法的聚类算法及其应用[J];北京航空航天大学学报;2006年06期

2 吕佳;;核聚类算法及其在模式识别中的应用[J];重庆师范大学学报(自然科学版);2006年01期

3 郭崇慧,陆玉昌;预测型数据挖掘中的优化方法[J];工程数学学报;2005年01期

4 张胜;;数据挖掘中聚类算法的研究[J];软件导刊;2008年06期

5 孙德山;李海清;;基于线性规划的支持向量聚类算法[J];计算机工程与设计;2010年06期

6 伍忠东,高新波,谢维信;基于核方法的模糊聚类算法[J];西安电子科技大学学报;2004年04期

7 王英奇;;支持向量聚类算法的研究与改进[J];湛江师范学院学报;2008年06期

8 刘务华;罗铁坚;王文杰;;文本聚类算法的质量评价[J];中国科学院研究生院学报;2006年05期

9 王书舟;伞冶;;支持向量机的训练算法综述[J];智能系统学报;2008年06期

中国硕士学位论文全文数据库 前2条

1 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年

2 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年



本文编号:1014877

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jjsxs/1014877.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户d38d7***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com