基于机器学习的文本分类算法研究
发布时间:2023-02-26 19:15
随着互联网技术的迅速发展,文本数据被数以万计的特征充实。而面对如此海量的文本资源,想要高效地从这些文本中获取有价值的信息,仅仅依靠传统的人工文本分类方法已经无法应对。近年来,随着机器学习技术的不断成熟,利用机器学习算法对文本进行自动分类,成为了当今学术界研究的热点和难点。文本分类技术作为数据挖掘技术的主要分支,可以有效地满足大数据发展下,文本自动分类的需求。然而在大量的数据中,将文本进行高效准确地分类并不像想象中的那么简单。一般需要经过文本预处理、特征选择、特征加权、分类算法的选择等步骤来实现。而这些步骤中,每一个环节所使用的相关算法,仍然存在着许多的不足。其中,特征选择算法和文本分类算法是文本分类过程最为关键的两个部分,直接影响着分类器最终的分类性能。因此本文分别针对这两个部分进行了研究,主要工作如下:1、本文对文本分类的整个流程进行了深入研究,由于特征提取在整个分类过程中尤其重要,所以本文针对常用的四种特征选择算法的优缺点做了详细的总结和分析。并且在英文数据集20NewsGroup和Reuters上使用不同的分类器进行实验验证,实验结果表明卡方校验算法特征提取效果最好,所以本文最后...
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 文本分类研究现状
1.2.2 特征选择算法研究现状
1.2.3 特征加权算法研究现状
1.3 本文研究内容
1.4 章节安排
第二章 文本分类
2.1 基础算法研究
2.2 文本分类算法实现过程
2.3 文本预处理
2.3.1 文本标记处理
2.3.2 分词处理算法
2.3.3 词干提取算法
2.3.4 去除停用词
2.4 文本表示模型
2.4.1 布尔模型
2.4.2 概率模型
2.4.3 向量空间模型
2.5 特征选择算法概述
2.6 特征加权算法
2.6.1 布尔权重算法
2.6.2 TF-IDF权重算法
2.6.3 基于熵概念的权重算法
2.7 文本分类算法
2.7.1 K--最近邻算法
2.7.2 支持向量机(SVM)
2.7.3 朴素贝叶斯分类算法
2.8 分类性能评价指标
2.9 本章小结
第三章 本文对朴素贝叶斯分类算法的改进
3.1 特征选择算法的选择
3.1.1 TF-IDF特征选择算法
3.1.2 信息增益特征选择算法
3.1.3 互信息特征选择算法
3.1.4 卡方检验特征选择算法
3.2 朴素贝叶斯分类算法相关理论
3.3 朴素贝叶斯分类算法的不足
3.4 传统的基于TF-IDF加权的朴素贝叶斯分类算法
3.5 改进的基于TF-IDF*IGD加权的朴素贝叶斯算法
3.5.1 TF-IDF*IGD加权算法
3.5.2 改进算法合理性验证
3.6 改进的基于IGDC加权的改进的朴素贝叶斯算法
3.6.1 IGDC加权算法
3.6.2 改进算法合理性验证
3.7 本章小结
第四章 实验对比与验证
4.1 实验平台说明
4.1.1 硬件与软件
4.1.2 Python文本处理技术
4.1.3 数据集选择
4.1.4 分词处理
4.2 特征选择算法实验对比
4.2.1 KNN分类器实验结果分析
4.2.2 SVM分类器实验结果分析
4.2.3 NB分类器实验结果分析
4.3 改进的TFIDF*IGD加权算法实验
4.3.1 分类指标评估
4.3.2 不同特征数量宏F1对比分析
4.4 改进的IGDC加权算法实验
4.4.1 分类指标评估
4.4.2 不同特征数量宏F1对比分析
4.5 本章小结
第五章 总结与展望
5.1 工作总结
5.2 工作展望
参考文献
作者在读期间科研成果简介
致谢
本文编号:3750740
【文章页数】:61 页
【学位级别】:硕士
【文章目录】:
摘要
ABSTRACT
第一章 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 文本分类研究现状
1.2.2 特征选择算法研究现状
1.2.3 特征加权算法研究现状
1.3 本文研究内容
1.4 章节安排
第二章 文本分类
2.1 基础算法研究
2.2 文本分类算法实现过程
2.3 文本预处理
2.3.1 文本标记处理
2.3.2 分词处理算法
2.3.3 词干提取算法
2.3.4 去除停用词
2.4 文本表示模型
2.4.1 布尔模型
2.4.2 概率模型
2.4.3 向量空间模型
2.5 特征选择算法概述
2.6 特征加权算法
2.6.1 布尔权重算法
2.6.2 TF-IDF权重算法
2.6.3 基于熵概念的权重算法
2.7 文本分类算法
2.7.1 K--最近邻算法
2.7.2 支持向量机(SVM)
2.7.3 朴素贝叶斯分类算法
2.8 分类性能评价指标
2.9 本章小结
第三章 本文对朴素贝叶斯分类算法的改进
3.1 特征选择算法的选择
3.1.1 TF-IDF特征选择算法
3.1.2 信息增益特征选择算法
3.1.3 互信息特征选择算法
3.1.4 卡方检验特征选择算法
3.2 朴素贝叶斯分类算法相关理论
3.3 朴素贝叶斯分类算法的不足
3.4 传统的基于TF-IDF加权的朴素贝叶斯分类算法
3.5 改进的基于TF-IDF*IGD加权的朴素贝叶斯算法
3.5.1 TF-IDF*IGD加权算法
3.5.2 改进算法合理性验证
3.6 改进的基于IGDC加权的改进的朴素贝叶斯算法
3.6.1 IGDC加权算法
3.6.2 改进算法合理性验证
3.7 本章小结
第四章 实验对比与验证
4.1 实验平台说明
4.1.1 硬件与软件
4.1.2 Python文本处理技术
4.1.3 数据集选择
4.1.4 分词处理
4.2 特征选择算法实验对比
4.2.1 KNN分类器实验结果分析
4.2.2 SVM分类器实验结果分析
4.2.3 NB分类器实验结果分析
4.3 改进的TFIDF*IGD加权算法实验
4.3.1 分类指标评估
4.3.2 不同特征数量宏F1对比分析
4.4 改进的IGDC加权算法实验
4.4.1 分类指标评估
4.4.2 不同特征数量宏F1对比分析
4.5 本章小结
第五章 总结与展望
5.1 工作总结
5.2 工作展望
参考文献
作者在读期间科研成果简介
致谢
本文编号:3750740
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3750740.html