中文文本分类方法的研究与实现

发布时间：2020-12-13 00:21

　　互联网应用的大规模普及衍生出大量的非结构化文本数据,基于文本数据的自动分类系统在多个领域呈现出巨大的应用价值,如搜索引擎、数字图书馆、邮件分类等。基于K近邻的分类算法简单直观,易于理解,基于贝叶斯理论的朴素贝叶斯分类算法划分类别准确率较好,在文本划分类别中得到了较为广泛的使用。本文首先简要介绍了文本分类的关键技术——文本分词,文本分词是将非结构化文本转化为可定量分析数据,包括机械分词、统计分词、语义分词等方法。其次,将分词结果运用向量空间模型进行转化,每个特征词语的权重如何表示有多种形式,包括布尔权重、词频权重、词频反文档频权重等。鉴于文本挖掘中常见的高维稀疏性问题,深入研究了CHI统计和随机森林Boruta算法特征选择方法,实现对高维文本特征的降维;CHI统计方法针对单个特征对分类结果的影响进行卡方检验,检测出与分类存在相关的特征;随机森林Boruta算法特征选择方法组合若干决策树对分类结果进行投票,对于单个特征重要性评价采取OOB估计,OOB估计是平均预测精度下降程度的无偏估计,并针对随机森林评价特征重要性中存在的问题引入影子特征对特征重要性进行显著性检验,得出真正对分类存在重要意...

【文章来源】：华中科技大学湖北省 211工程院校 985工程院校教育部直属院校

【文章页数】：60 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 本文主要工作
    1.4 本文的组织结构
2 文本分类技术
    2.1 文本分词
    2.2 向量空间模型
    2.3 文本分类特征选择
    2.4 文本分类实现方法
    2.5 分类评估
    2.6 本章小结
3 基于随机森林的特征选择方法
    3.1 随机森林法原理
    3.2 随机森林用于特征选择
    3.3 本章小结
4 分类算法介绍
    4.1 基于临近点的分类方法
    4.2 贝叶斯分类
    4.3 本章小结
5 实证分析
    5.1 文本预处理
    5.2 CHI统计与随机森林Boruta算法特征选择
    5.3 K近邻法文本分类实证分析
    5.4 朴素贝叶斯文本分类实证分析
    5.5 基于TF-IDF-VSM的分类模型对比评估
    5.6 本章小结
6 总结与展望
致谢
参考文献
附录

【参考文献】：
期刊论文
[1]一种k-NN分类器k值自动选取方法[J]. 杜磊,杜星,宋擒豹.  控制与决策. 2013(07)
[2]文本分类技术探究[J]. 吴波,朱昌杰,任逸卿.  宿州学院学报. 2012(05)
[3]中文文本分类中特征抽取方法的比较研究[J]. 代六玲,黄河燕,陈肇雄.  中文信息学报. 2004(01)

博士论文
[1]文本分类中文本表示模型和特征选择算法研究[D]. 杨杰明.吉林大学 2013
[2]基于类别结构的文本层次分类方法研究[D]. 祝翠玲.山东大学 2011
[3]WWW科技信息资源自动标引的理论与实践研究[D]. 肖明.中国科学院文献情报中心 2001

硕士论文
[1]中文文本分类中的特征选择和权重计算方法研究[D]. 宋惟然.北京工业大学 2013
[2]基于不均衡数据集的文本分类算法研究[D]. 谢娜娜.重庆大学 2013
[3]基于K近邻算法的中文文本分类研究[D]. 徐晓艳.安徽大学 2012
[4]基于随机森林算法的企业信用风险评价研究[D]. 李丽.西南财经大学 2012
[5]基于朴素贝叶斯方法的中文文本分类研究[D]. 李丹.河北大学 2011
[6]随机森林的特征选择和模型优化算法研究[D]. 雍凯.哈尔滨工业大学 2008
[7]基于决策树的数据挖掘算法研究与应用[D]. 卢东标.武汉理工大学 2008
[8]基于Bayes方法的文本分类器的研究与实现[D]. 陈剑敏.重庆大学 2007
[9]SVM在文本分类中的应用[D]. 叶志刚.哈尔滨工程大学 2006
[10]自动文本分类算法研究[D]. 朱望斌.湖南大学 2005

本文编号：2913528

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/tongjijuecelunwen/2913528.html

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|