当前位置:主页 > 科技论文 > 搜索引擎论文 >

文本分类中特征降维算法的研究与应用

发布时间:2021-06-22 22:00
  近年来,由于互联网数据大规模增长而导致文本数据的高维稀疏性,为文本分类技术发展带来了严峻的挑战。因此,为应对爆炸式数据增长问题,数据特征降维算法成为国内外学术界日益研究的热点之一。特征降维,即从特征集合中挑选或抽取与类别相关性强、特征间冗余度小的特征子集,降低特征空间维度,对文本分类技术的优化具有不可忽视的作用。目前,特征降维主要分为三类,过滤式、封装式和嵌入式方法。过滤式方法计算效率高,特征评价模型简单,但只关注单个特征,忽略了不同特征之间结合可能带来更好效果的可能性。而封装式方法尽管能够产生对分类精度具有较高价值的特征集,但由于其较高的计算成本,而难以得到广泛的应用。因此,本文通过研究分析聚类有效性指标在文本分类中的应用,提出一种基于聚类有效性指标的特征降维算法(WB-Index Sequential Forward Selection WBI-SFS)。由于WBI-SFS算法不依赖特定的分类器评估特征子集,因此属于一种过滤式特征选择算法。WBI-SFS算法既有过滤式算法的短时间开销特点,又具有较高分类精度,两者兼备。WBI-SFS算法的主要创新点有两个:第一,利用高效、线性的聚类... 

【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校

【文章页数】:82 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 研究内容
    1.4 论文的结构安排
第二章 文本分类理论概述
    2.1 文本分类相关理论
        2.1.1 文本分类概念
        2.1.2 文本模型表示
        2.1.3 文本分类过程
    2.2 特征处理
        2.2.1 特征降维综述
        2.2.2 特征降维分类
    2.3 文本分类模型
        2.3.1 分类流程
        2.3.2 常用的分类算法
    2.4 分类性能评价指标
        2.4.1 召回率和精确率
        2.4.2 宏平均值和微平均值
        2.4.3 交叉验证
    2.5 本章小结
第三章 基于聚类评价指标的特征降维算法
    3.1 聚类有效性概述
        3.1.1 聚类有效性指标分类
        3.1.2 非模糊聚类算法评估指标介绍
    3.2 常用的特征选择算法
        3.2.1 过滤式特征选择
        3.2.2 封装式特征选择
        3.2.3 嵌入式特征选择
    3.3 聚类有效性指标在降维算法中的应用
    3.4 WBI-SFS特征选择算法
        3.4.1 聚类有效性指标WB-index指标
        3.4.2 WBI-SFS算法原理
        3.4.3 WBI-SFS算法流程
    3.5 本章小结
第四章 WBI-SFS算法实验及分析
    4.1 实验数据集
    4.2 文本分类实验设计与分析
        4.2.1 实验设计
        4.2.2 实验结果与分析
    4.3 非文本实验设计与分析
        4.3.1 实验设计
        4.3.2 实验结果与分析
    4.4 实验结论
    4.5 本章小结
第五章 “净云”网络净化系统的设计与实现
    5.1 系统设计背景
    5.2 系统需求分析
        5.2.1 传统网络净化系统分析
        5.2.2 功能性需求分析
        5.2.3 非功能性需求分析
    5.3 “净云”网络净化系统总体架构
    5.4 NEPS服务器设计
    5.5 功能模块划分
        5.5.2 内容识别模块
        5.5.3 黑白名单管理模块
        5.5.4 用户管理模块
    5.6 数据库设计
    5.7 系统测试
        5.7.1 核心分类器测试
        5.7.2 ”净云“网络净化系统测试
    5.8 本章小结
第六章 总结和展望
    6.1 全文总结
    6.2 研究前景与展望
致谢
参考文献


【参考文献】:
期刊论文
[1]《机器学习》[J]. 周志华.  中国民商. 2016(03)
[2]使用优化模拟退火算法的文本特征选择[J]. 朱颢东,钟勇.  计算机工程与应用. 2010(04)
[3]高维数据特征降维研究综述[J]. 胡洁.  计算机应用研究. 2008(09)
[4]基于改进KNN的文本分类方法[J]. 钱晓东,王正欧.  情报科学. 2005(04)
[5]使用最大熵模型进行中文文本分类[J]. 李荣陆,王建会,陈晓云,陶晓鹏,胡运发.  计算机研究与发展. 2005(01)
[6]多层次特定类型图像过滤方法[J]. 段立娟,崔国勤,高文,张洪明.  计算机辅助设计与图形学学报. 2002(05)
[7]基于Ngram信息的中文文档分类研究[J]. 周水庚,关佶红,俞红奇,胡运发.  中文信息学报. 2001(01)



本文编号:3243598

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3243598.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户b8046***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com