文本聚类中特征选择方法研究
本文关键词:文本聚类中特征选择方法研究,由笔耕文化传播整理发布。
【摘要】:随着互联网的快速发展和广泛普及,网络上的信息资源日益丰富和庞大,想要合理地有效地管理这些海量繁杂的信息变得越来越困难。大部分数据信息被存储在电子媒体上,其中有许多数据都是以非结构化的文本形式存在的,这在数据分析和处理方面增加了难度,因此人们很难从中挖掘出有价值的资源。文本聚类技术作为一种重要的技术在数据挖掘领域中能够实现这一目标。文本聚类技术通过对大量的非结构化的文本数据信息进行组织,使其转换为少数有意义的簇,方便用户发现其中有价值的信息。因此,文本聚类技术成为了热点研究。本文对此所做的研究工作具体如下:(1)对文本聚类中的相关的技术做了系统性的介绍,并详细地阐述了几种用于文本聚类中的无监督的特征选择方法,以及各自的优点和缺点;然后,深入研究了文档频数(DF)算法和单词贡献度(TC)算法,对它们各自的优点和缺点进行了深入剖析;最后,本文考虑特征词的语义信息对文本的重要性,引入了词性权值因子和词长权值因子对文档频数算法做出改进,并结合了TC算法完成了特征选择的步骤,提出了基于DF和TC的联合特征选择方法;(2)简单地阐述了几类常见的文本聚类算法,并深入研究了K-means聚类算法,分析了它的优点和缺点。K-means是一种简单、高效的聚类算法,但其对于初始聚类中心有着极大的依赖性,当初始聚类中心选择不当时,最终得到的聚类结果可能是局部最优解,而非全局最优解。为此,本文结合了“距离优化法”和“密度法”选取更优的初始聚类中心以提高K-means的文本聚类效果,并提出了改进的K-means方法;(3)设计了一个由文本预处理模块、文本表示模块、聚类分析模块等基本功能模块组成的中文文本聚类系统实验平台,通过实验将本文提出的改进方法与其原方法进行比较,并利用查准率、查全率、F1值等性能评价指标来评价实验结果。根据实验比较得出,本文的改进方法的聚类效果更优。
【关键词】:文本聚类 特征选择方法 聚类算法
【学位授予单位】:湖北工业大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要4-5
- Abstract5-8
- 第1章 引言8-12
- 1.1 研究背景和意义8-9
- 1.2 国内外研究现状9-11
- 1.2.1 国内研究现状9-10
- 1.2.2 国外研究现状10-11
- 1.3 本文研究内容和组织结构11-12
- 1.3.1 本文研究内容11
- 1.3.2 本文组织结构11-12
- 第2章 文本聚类概述12-18
- 2.1 文本聚类定义12
- 2.2 文本聚类流程12-13
- 2.3 文本预处理13
- 2.4 文本表示13-15
- 2.5 特征降维15
- 2.6 特征权重计算15-16
- 2.7 文本相似度计算16-17
- 2.8 本章小结17-18
- 第3章 特征选择方法18-24
- 3.1 无监督特征选择方法18-20
- 3.1.1 文档频数18-19
- 3.1.2 单词权19
- 3.1.3 单词熵19-20
- 3.1.4 单词贡献度20
- 3.2 基于DF和TC的联合特征选择方法20-23
- 3.2.1 DF和TC算法分析20-21
- 3.2.2 改进的DF算法21-23
- 3.2.3 联合特征选择方法23
- 3.3 本章小结23-24
- 第4章 文本聚类算法24-31
- 4.1 常用的文本聚类算法24-26
- 4.1.1 划分聚类法24
- 4.1.2 层次聚类法24-25
- 4.1.3 基于密度的聚类方法25-26
- 4.1.4 基于网格的聚类方法26
- 4.2 K-MEANS算法分析26-28
- 4.2.1 K-means算法描述26-27
- 4.2.2 K-means算法的优缺点27-28
- 4.3 改进的K-MEANS算法28-30
- 4.3.1 目前已有的初始聚类中心选择方法28
- 4.3.2 优化初始聚类中心选择方法28-30
- 4.3.3 改进的K-means算法30
- 4.4 本章小结30-31
- 第5章 实验方法与实验结果分析31-42
- 5.1 实验方法31-36
- 5.1.1 中文文本聚类系统实验流程31-33
- 5.1.2 系统基本功能实现33-35
- 5.1.3 实验数据集35
- 5.1.4 实验采用的评价指标35-36
- 5.2 实验结果分析36-40
- 5.2.1 特征选择方法的对比实验及结果分析36-39
- 5.2.2 聚类算法的对比实验及结果分析39-40
- 5.3 本章小结40-42
- 第6章 总结与展望42-43
- 6.1 总结42
- 6.2 展望42-43
- 参考文献43-46
- 致谢46
【相似文献】
中国期刊全文数据库 前10条
1 赵亚琴;周献中;;一种基于小生境遗传算法的中文文本聚类新方法[J];计算机工程;2006年06期
2 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
3 丁X;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
4 孙爱香;杨鑫华;;关于文本聚类有效性评价的研究[J];山东理工大学学报(自然科学版);2007年05期
5 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
6 吴启明;易云飞;;文本聚类综述[J];河池学院学报;2008年02期
7 李江华;杨书新;刘利峰;;基于概念格的文本聚类[J];计算机应用;2008年09期
8 赵文鹏;;浅谈文本聚类研究[J];企业家天地下半月刊(理论版);2009年02期
9 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
10 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
5 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
7 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 康健;基于Multi-agent和群体智能的藏文网络舆情管理研究[D];西南交通大学;2015年
2 张培伟;基于改进Single-Pass算法的热点话题发现系统的设计与实现[D];华中师范大学;2015年
3 郭士串;结合权重因子与特征向量的文本聚类研究与应用[D];江西理工大学;2015年
4 邵明来;中文文本聚类关键技术研究[D];广西大学;2015年
5 王恒静;基于词类和搭配的微博舆情文本聚类方法研究[D];江苏科技大学;2015年
6 吴洁洁;基于RI方法的文本聚类研究[D];南昌大学;2015年
7 樊兆欣;个性化新闻推荐系统关键技术研究与实现[D];北京理工大学;2015年
8 苏圣瞳;微博热点话题发现系统的设计与实现[D];复旦大学;2014年
9 孙东普;融合属性抽取的多粒度专利文本聚类研究[D];大连理工大学;2015年
10 李芸;基于爬虫和文本聚类分析的网络舆情分析系统设计与实现[D];电子科技大学;2014年
本文关键词:文本聚类中特征选择方法研究,由笔耕文化传播整理发布。
,本文编号:374756
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/374756.html