当前位置:主页 > 科技论文 > 软件论文 >

模糊谱聚类分割策略在文本聚类中的应用研究

发布时间:2017-09-24 04:34

  本文关键词:模糊谱聚类分割策略在文本聚类中的应用研究


  更多相关文章: 文本聚类 模糊谱聚类 噪声数据 自动确定聚类数


【摘要】:文本聚类作为一种无监督的机器学习方法,近年来已成为自然语言处理领域中研究的热点,传统的聚类算法只能将一个样本点划分到一个聚类中,但现实生活中,很多事物的归属并没有特别明确,模糊聚类(Fuzzy Clustering,FC)算法的出现为解决这些问题提供了新的思路,实现了对样本集合的模糊划分,模糊聚类中使用的最广泛的是FCM(Fuzzy C-means)算法。FCM属于分割聚类算法的一种,它存在着分割聚类算法普遍存在的缺点,如算法易陷入局部最优、对噪声数据敏感、需要事先指定聚类个数等问题。谱聚类算法(Spectral Clustering,SC)可以实现对任意形状的样本空间聚类,且得到全局最优解,本文通过将SC算法和FCM算法相结合,给出一种模糊谱聚类分割策略,即模糊谱聚类分割算法(Fuzzy Spectral Clustering,FSC),该算法实现了对任意形状样本空间的聚类;通过分析FSC中噪声点的隶属度,发现隶属度归一化约束条件存在的问题,并提出对该隶属度约束条件进行改进的方法,对FSC算法进行改进,进而得出改进隶属度的模糊谱聚类分割算法(Improved Membership Degree FSC,IMD-FSC),解决了噪声数据问题;根据拉普拉斯矩阵的特征值差异和聚类数目之间的关系,提出了一种自动确定聚类数目的方法,将其用于IMD-FSC算法中,得出了自适应的模糊谱聚类算法(Adaptive IMD-FSC,AIMD-FSC),实现了聚类数目的自动确定。本文给出了详细的实验步骤,将以上三种方法分别应用于文本聚类中,实现了对文本集合的模糊划分,使用准确率、召回率对实验的结果进行分析。实验结果表明,本文提出的AIMD-FSC算法的聚类效果得到了很大的提升,具备一定的应用价值。
【关键词】:文本聚类 模糊谱聚类 噪声数据 自动确定聚类数
【学位授予单位】:贵州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
  • 摘要5-6
  • Abstract6-8
  • 第1章 绪论8-13
  • 1.1 研究背景及意义8-9
  • 1.2 国内外研究现状9-11
  • 1.2.1 文本聚类国内外研究现状9-10
  • 1.2.2 模糊聚类国内外研究现状10-11
  • 1.3 论文主要研究工作11-12
  • 1.4 论文组织结构12-13
  • 第2章 文本聚类概述13-21
  • 2.1 文本聚类概念13
  • 2.2 文本聚类过程13-14
  • 2.3 文本聚类常用算法14-19
  • 2.3.1 分割聚类算法15-16
  • 2.3.2 层次聚类算法16-17
  • 2.3.3 基于密度的聚类算法17-18
  • 2.3.4 基于网格的聚类算法18-19
  • 2.3.5 基于模型的聚类算法19
  • 2.4 文本聚类效果评价19-20
  • 2.5 本章小结20-21
  • 第3章 相关理论介绍21-33
  • 3.1 谱聚类算法概述21-27
  • 3.1.1 谱聚类算法的数学基础21-25
  • 3.1.2 谱图划分理论25-26
  • 3.1.3 谱聚类算法过程26-27
  • 3.2 模糊聚类算法概述27-32
  • 3.2.1 模糊理论概念及其发展27-28
  • 3.2.2 模糊理论用于聚类28
  • 3.2.3 聚类问题的数学表示28-30
  • 3.2.4 FCM算法30-32
  • 3.3 本章小结32-33
  • 第4章 模糊谱聚类分割算法及改进33-43
  • 4.1 模糊谱聚类分割算法FSC33-34
  • 4.2 改进隶属度的FSC算法IMD-FSC34-38
  • 4.2.1 噪声数据问题34-35
  • 4.2.2 问题分析35-37
  • 4.2.3 算法改进37-38
  • 4.3 自适应的IMD-FSC算法AIMD-FSC38-42
  • 4.3.1 确定聚类数目问题38
  • 4.3.2 问题分析38-39
  • 4.3.3 算法改进39-42
  • 4.4 本章小结42-43
  • 第5章 实验及结果分析43-55
  • 5.1 实验语料库选择43-44
  • 5.2 实验环境44
  • 5.3 实验过程44-50
  • 5.3.1 分词及去停用词45-46
  • 5.3.2 特征选择46
  • 5.3.3 构造特征向量46-47
  • 5.3.4 计算文本间相似度47-48
  • 5.3.5 聚类48-49
  • 5.3.6 评价聚类结果49-50
  • 5.4 实验结果及分析50-54
  • 5.4.1 本文算法实验对比50-52
  • 5.4.2 IMD-FSC处理噪声数据实验52-53
  • 5.4.3 AIMD-FSC算法自动确定聚类数目实验53-54
  • 5.5 本章小结54-55
  • 第6章 总结与展望55-57
  • 6.1 本文工作总结55-56
  • 6.2 展望56-57
  • 致谢57-58
  • 参考文献58-60
  • 附录60-61
  • 图版61-62

【相似文献】

中国期刊全文数据库 前10条

1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期

2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期

3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期

4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期

5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期

6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期

7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期

8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期

9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期

10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期

中国重要会议论文全文数据库 前10条

1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年

2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年

7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年

9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年

10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年

中国博士学位论文全文数据库 前3条

1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年

2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年

3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年

中国硕士学位论文全文数据库 前10条

1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年

2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年

3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年

4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年

5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年

6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年

7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年

8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年

9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年

10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年



本文编号:909384

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/909384.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户91f5a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com