基于粗糙集属性约简的集成分类算法研究
本文关键词:基于粗糙集属性约简的集成分类算法研究,由笔耕文化传播整理发布。
【摘要】:自动文本分类技术的主要任务是将非结构化的文本数据划分到相应的分类体系中。文本分类有着广泛的应用,例如新闻门户网站中的新闻自动分类、个性化广告推荐、垃圾邮件过滤、数字图书馆资源管理等。集成学习是机器学习的主要研究方向之一,其思想是使用多个子分类器对样本进行分类,并使用某种组合方式将各个子分类器的分类结果进行整合,得到最终的分类结果。相比单分类算法,集成学习具有更高的分类准确率和泛化能力。本文将集成学习运用到文本分类中,研究了文本自动分类和集成学习的相关理论,对文本分类和集成学习的关键技术进行了详细介绍。提出了一种适用于高维数据的特征选择方法和两种改进的集成分类算法。具体来说,本文做了以下几方面的工作:1、在将文本转换为向量空间模型后,将会得到一个高维稀疏矩阵。对数据进行降维时,单独使用信息增益或粗糙集属性约简的方法均有一些不足。本文将两种方法进行结合,提出一种基于粗糙集的二次特征选择方法,该方法可以发挥两种特征选择方法的优势,最大限度过滤冗余特征。2、提出了RRE_Classifers集成分类算法。该算法借鉴了Bagging和随机森林的思想,首先对原始训练集样本进行有放回的抽样,将得到的结果进行特征抽样,产生最终的训练集。由此训练差异性较大的子分类器,相比于Bagging,该算法可以使用更多的有差异性的子分类器,并且分类效果更好。3、提出了EBB_Classififers集成分类算法。该算法维护一个错误池,错误池中存放之前的子分类器错误分类的样本,之后随机将这些错分样本加入后续的训练集。使之前的训练结果能够对后续训练有帮助。4、对Bagging和提出的两种改进算法进行复杂度分析,并通过实验对三种算法的运行时间进行对比。5、在Tan Corp、搜狗语料库和复旦大学语料库三组中文标准语料库上进行实验,实验结果表明,本文提出的特征选择和集成分类算法有较好的性能。
【关键词】:文本挖掘 文本分类 粗糙集 特征选择 集成分类 集成学习
【学位授予单位】:贵州大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1
【目录】:
- 摘要5-6
- Abstract6-8
- 第一章 绪论8-14
- 1.1 研究背景与研究意义8-9
- 1.1.1 研究背景8
- 1.1.2 研究意义8-9
- 1.2 国内外研究现状9-11
- 1.2.1 特征选择研究现状9-10
- 1.2.2 集成分类研究现状10-11
- 1.3 本文的研究内容11-12
- 1.4 论文的组织结构12-13
- 本章小结13-14
- 第二章 文本分类概述14-26
- 2.1 文本分类产生背景及发展过程14
- 2.2 问题定义14-15
- 2.3 数据预处理15-19
- 2.3.1 文档表示15-16
- 2.3.2 特征选择16-18
- 2.3.3 特征抽取(Feature Extraction)18-19
- 2.4 常用分类方法19-23
- 2.4.1 概率分类器(Probabilistic Classifier)19-20
- 2.4.2 决策树(Decision Tree)20-21
- 2.4.3 神经网络(Neural Networks)21-22
- 2.4.4 最近邻算法(Nearest Neighbor)22
- 2.4.5 支持向量机(Support Vector Machine)22-23
- 2.5 分类器性能评估23-25
- 本章小结25-26
- 第三章 集成学习相关理论26-32
- 3.1 集成学习关键技术27-28
- 3.1.1 子分类器生成方法27-28
- 3.1.2 子分类器组合方法28
- 3.2 主要的集成学习算法28-31
- 3.2.1Bagging算法28-29
- 3.2.2 AdaBoost算法29-30
- 3.2.3 Random Forests算法30-31
- 本章小结31-32
- 第四章 基于粗糙集的二次特征选择方法32-45
- 4.1 粗糙集属性约简相关理论32-34
- 4.1.1 基本概念32-33
- 4.1.2 常见的粗糙集属性约简算法33-34
- 4.2 基于粗糙集的二次特征选择方法34-36
- 4.3 实验结果与分析36-44
- 4.3.1 实验数据及平台36-37
- 4.3.2 第一步信息增益特征选择实验结果及分析37-42
- 4.3.3 第二步粗糙集属性约简结果及分析42-44
- 本章小结44-45
- 第五章 集成分类算法改进45-60
- 5.1 基于Bagging算法的改进45-48
- 5.1.1 基于双重抽样的Bagging算法45-47
- 5.1.2 基于错误池的Bagging算法47-48
- 5.2 实验平台及关键代码分析48-52
- 5.3 算法复杂度分析52-56
- 5.3.1 几类集成分类算法的复杂度分析52-55
- 5.3.2 复杂度实验对比55-56
- 5.4 分类准确率实验结果与分析56-58
- 本章小结58-60
- 第六章 总结与展望60-62
- 致谢62-63
- 参考文献63-67
- 附录67-68
- 图版68
【相似文献】
中国期刊全文数据库 前10条
1 邱兆雷;范颖;王爱云;;粗糙集理论及进展[J];信息技术与信息化;2006年05期
2 徐伟华;张文修;;覆盖广义粗糙集的模糊性[J];模糊系统与数学;2006年06期
3 石杰;;粗糙集理论及其应用研究[J];科技信息;2008年33期
4 唐彬;;粗糙集理论和应用研究[J];内江科技;2008年03期
5 胡军;王国胤;;覆盖粗糙集的模糊度[J];重庆邮电大学学报(自然科学版);2009年04期
6 燕红文;康向平;张丽;;依赖空间与粗糙集理论[J];农业网络信息;2009年09期
7 林国平;;覆盖广义粗糙集与信任函数[J];漳州师范学院学报(自然科学版);2010年02期
8 王石平;祝峰;朱培勇;;基于抽象相关关系的粗糙集研究[J];南京大学学报(自然科学版);2010年05期
9 成新文;陈国超;李琦;;关于粗糙集的理论及应用研究[J];煤炭技术;2010年10期
10 林治;张璇;;粗糙集理论的应用探析[J];邢台职业技术学院学报;2011年03期
中国重要会议论文全文数据库 前10条
1 黎文航;陈善本;王兵;;粗糙集理论在焊接中的应用综述[A];第十一次全国焊接会议论文集(第2册)[C];2005年
2 尹宗成;;粗糙集理论在我国粮食产量预测中的应用[A];现代农业理论与实践——安徽现代农业博士科技论坛论文集[C];2007年
3 邹刚;滕书华;孙即祥;陈森林;敖永红;;一种粗糙集优化协同原型模式约简分类方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
4 葛丽;傅彦;;粗糙集在科学数据属性约简中的应用[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
5 陈雪飞;;粗糙集分类中耦合数据的处理方法研究[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
6 肖健梅;芦晓明;王锡淮;;集装箱起重机防摇系统粗糙集控制[A];第二十六届中国控制会议论文集[C];2007年
7 王印松;冯康;;主汽温调节系统性能评价的粗糙集实现方法[A];第二十七届中国控制会议论文集[C];2008年
8 王红萍;万程亮;金彦丰;;应用粗糙集理论的对抗效果权重确定方法[A];2009’中国西部地区声学学术交流会论文集[C];2009年
9 王莉;周献中;;一种基于粗糙集的模糊神经网络模型在钢材力学性能预测中的研究[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年
10 卓明;王丽珍;谭旭;;基于粗糙集近似集扩展的规则提取算法[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
中国博士学位论文全文数据库 前10条
1 马希骜;概率粗糙集属性约简理论及方法研究[D];西南交通大学;2014年
2 唐孝;基于粗糙集的知识发现方法及其在ECG信号识别中的应用[D];电子科技大学;2015年
3 曾凯;邻域粒化粗糙计算的关键技术研究与应用[D];电子科技大学;2015年
4 鲍忠奎;面向不确定信息系统的粗糙集扩展模型研究[D];合肥工业大学;2015年
5 王永生;基于粗糙集理论的动态数据挖掘关键技术研究[D];北京科技大学;2016年
6 薛佩军;正负域覆盖广义粗糙集与知识粗传播研究[D];山东大学;2007年
7 孔芝;粗糙集理论若干问题的研究与应用[D];东北大学;2009年
8 秦中广;基于粗糙集的交叉研究及其在中医诊断的应用[D];华南理工大学;2002年
9 刘少辉;知识发现中粗糙集理论的研究[D];中国科学院研究生院(计算技术研究所);2003年
10 邓大勇;基于粗糙集的数据约简及粗糙集扩展模型的研究[D];北京交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 江飞;粗糙集神经网络故障诊断方法研究[D];西安石油大学;2015年
2 何理荣;粗糙集理论在银行信贷风险评估中的应用研究[D];华南理工大学;2015年
3 张德齐;基于粗糙集理论的电机故障诊断方法研究[D];渤海大学;2015年
4 杨礼;基于粗糙集的公路交通安全预警研究[D];西南交通大学;2015年
5 聂萌瑶;基于泛系串并模型的粗糙集概念扩展与拓扑空间[D];兰州大学;2015年
6 徐鹏;基于粗糙集的建筑起重机械安全精细化评价研究[D];西安建筑科技大学;2015年
7 孙宇航;粗糙集属性约简方法在医疗诊断中的应用研究[D];苏州大学;2015年
8 张曼;基于粗糙集和包含度的聚类分类算法研究[D];青岛理工大学;2015年
9 车世远;基于群搜索优化粗糙集的脑科学数据研究[D];大连海事大学;2015年
10 林哲;基于粗糙集的马田系统研究及其在银行直接营销客户分类中的应用[D];南京理工大学;2015年
本文关键词:基于粗糙集属性约简的集成分类算法研究,,由笔耕文化传播整理发布。
本文编号:445984
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/445984.html