当前位置:主页 > 科技论文 > 软件论文 >

文本的特征选择与分类算法研究

发布时间:2023-03-05 11:29
  随着在21世纪互联网信息技术的不断发展,文本分类作为对文本数据管理的有效手段越来越成为当今的研究热点。但文本数据大多以杂乱的形式存在,造成文档特征数量多、分布不均等问题,严重影响文本数据的分类准确率和分类效率。基于此,本文在前人的基础上对文本分类中的特征选择和文本分类算法进行研究,分别给出改进的互信息特征选择模型、基于K中心点和粗糙集理论的KNN分类算法(K Center Point and Rough Set KNN,KRS-KNN)以解决这些问题。针对传统的互信息特征选择算法没有考虑特征词频率、词性及特征词分布问题,分别在传统的互信息模型的基础上结合类内特征频度、特征覆盖率及词性系数这三个指标,构造出新的互信息评估函数。然后通过向量空间模型对特征向量化,并结合KNN分类模型对文本特征集合分类。最后通过实验对该算法进行验证,实验结果表明该算法在特征选择上具有显著的效果,提高了文本分类的准确率。同时相比于传统的互信息模型在分类上的查全率和F1值也得到了一定提升,证明了该算法应用于文本分类中的有效性和可行性。在文本分类过程中,由于特征维度高,计算难度大,使得分类效率低下,因此引入一种基于...

【文章页数】:74 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
注释表
第1章 绪论
    1.1 课题研究背景及意义
    1.2 课题现状及分析
        1.2.1 国外研究现状
        1.2.2 国内研究现状
        1.2.3 存在的问题
    1.3 论文主要工作及组织结构
        1.3.1 论文主要研究内容
        1.3.2 论文主要结构安排
第2章 文本分类相关技术简介
    2.1 文本分类流程
    2.2 文本数据集
    2.3 文本预处理
        2.3.1 分词
        2.3.2 去停用词
    2.4 文本表示模型
        2.4.1 布尔模型
        2.4.2 向量空间模型
        2.4.3 概率模型
    2.5 特征降维
        2.5.1 特征提取
        2.5.2 特征选择
    2.6 文本分类算法
        2.6.1 朴素贝叶斯算法
        2.6.2 支持向量机算法
        2.6.3 K近邻算法
    2.7 分类评价指标
    2.8 本章小结
第3章 互信息特征选择算法的分析与改进
    3.1 引言
    3.2 互信息特征选择算法的分析
        3.2.1 传统的互信息特征选择算法
        3.2.2 互信息特征选择算法的不足
    3.3 互信息特征选择算法的改进
        3.3.1 类内特征频度
        3.3.2 特征词覆盖率
        3.3.3 词性系数
    3.4 算法流程描述
    3.5 实验设计
        3.5.1 实验数据集
        3.5.2 实验环境
        3.5.3 分类框架
        3.5.4 仿真结果分析
    3.6 本章小结
第4章 基于K中心点和粗糙集的KNN分类算法
    4.1 引言
    4.2 相关算法介绍
        4.2.1 K中心点算法
        4.2.2 粗糙集理论
    4.3 KRS-KNN算法分类流程
    4.4 实验设计
        4.4.1 实验数据集
        4.4.2 实验环境
        4.4.3 K值确定
        4.4.4 仿真结果分析
    4.5 本章小结
第5章 总结与展望
    5.1 全文总结
    5.2 未来工作展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果



本文编号:3756110

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3756110.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2d66d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com