随机森林在文本分类上的应用研究
发布时间:2021-08-12 15:57
随着互联网的普及,计算机技术正在飞速的发展,我们在网络上制造了大量的信息数据,正在进入大数据的时代,信息呈现爆炸式增长。对于海量复杂的信息数据,需要有效地组织梳理进而挖掘其关联,文本分类就是解决这些问题的一个关键部分。随机森林是一种非常典型的组合分类器,通过引入随机性来构造出决策树的一种集合,具有较高分类准确率、克服了过拟合的问题,对异常值和噪声有良好的容忍性等特点,随机森林得到了十分广泛的应用,而且在文本分类领域取得了不错的效果。由于随机森林算法也存在很多的不足,某些方面还有待更加的完善。本文首先通过对文本分类的流程进行系统化的梳理,介绍了文本分类的预处理、特征抽取和特征选择等。其中,文本预处理主要是对分词、去停用词、词干提取进行了简单介绍,特征抽取和特征选择部分着重介绍了特征选择的一些方法。并且本文对文本分类领域常用的几种分类器模型:朴素贝叶斯、支持向量机、K近邻等算法进行了简要的介绍,介绍了分类器的性能评价指标。随后本文简述了随机森林的相关理论部分,并将文本分类和随机森林算法理论运用到实例中,以CNBC网站的金融新闻资讯作为数据源进行文本分类工作。
【文章来源】:武汉大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:42 页
【学位级别】:硕士
【部分图文】:
实验流程图
爬虫模板结果展示实验结果:爬虫模板主要包括两部分,分别是获取URL和爬取数据
数据库结果展示
【参考文献】:
期刊论文
[1]基于特征选择技术的情感词权重计算[J]. 吴金源,冀俊忠,赵学武,吴晨生,杜芳华. 北京工业大学学报. 2016(01)
[2]高维数据下基于云平台的随机森林算法的研究与实现[J]. 许旻. 科技通报. 2014(06)
[3]基于神经网络的粒子群算法优化SVM参数问题[J]. 李磊,高雷阜,赵世杰. 计算机工程与应用. 2015(04)
[4]面向非平衡训练集分类的随机森林算法优化[J]. 吴琼,李运田,郑献卫. 工业控制计算机. 2013(07)
[5]拟自适应分类随机森林算法[J]. 马景义,吴喜之,谢邦昌. 数理统计与管理. 2010(05)
[6]知识抽取中的停用词处理技术[J]. 化柏林. 现代图书情报技术. 2007(08)
[7]基于语义理解的文本相似度算法[J]. 金博,史彦军,滕弘飞. 大连理工大学学报. 2005(02)
[8]基于决策森林特征基因的两种识别方法[J]. 吕飒丽,汪强虎,李霞,郭政. 生物信息学. 2004(03)
[9]文本分类中的特征降维方法综述[J]. 陈涛,谢阳群. 情报学报. 2005 (06)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]基于属性组合的随机森林[D]. 孙丽丽.河北大学 2011
[2]随机森林的特征选择和模型优化算法研究[D]. 雍凯.哈尔滨工业大学 2008
[3]基于层次分类和集成学习的文本分类技术研究[D]. 张华伟.江西师范大学 2007
本文编号:3338619
【文章来源】:武汉大学湖北省 211工程院校 985工程院校 教育部直属院校
【文章页数】:42 页
【学位级别】:硕士
【部分图文】:
实验流程图
爬虫模板结果展示实验结果:爬虫模板主要包括两部分,分别是获取URL和爬取数据
数据库结果展示
【参考文献】:
期刊论文
[1]基于特征选择技术的情感词权重计算[J]. 吴金源,冀俊忠,赵学武,吴晨生,杜芳华. 北京工业大学学报. 2016(01)
[2]高维数据下基于云平台的随机森林算法的研究与实现[J]. 许旻. 科技通报. 2014(06)
[3]基于神经网络的粒子群算法优化SVM参数问题[J]. 李磊,高雷阜,赵世杰. 计算机工程与应用. 2015(04)
[4]面向非平衡训练集分类的随机森林算法优化[J]. 吴琼,李运田,郑献卫. 工业控制计算机. 2013(07)
[5]拟自适应分类随机森林算法[J]. 马景义,吴喜之,谢邦昌. 数理统计与管理. 2010(05)
[6]知识抽取中的停用词处理技术[J]. 化柏林. 现代图书情报技术. 2007(08)
[7]基于语义理解的文本相似度算法[J]. 金博,史彦军,滕弘飞. 大连理工大学学报. 2005(02)
[8]基于决策森林特征基因的两种识别方法[J]. 吕飒丽,汪强虎,李霞,郭政. 生物信息学. 2004(03)
[9]文本分类中的特征降维方法综述[J]. 陈涛,谢阳群. 情报学报. 2005 (06)
博士论文
[1]随机森林算法优化研究[D]. 曹正凤.首都经济贸易大学 2014
硕士论文
[1]基于属性组合的随机森林[D]. 孙丽丽.河北大学 2011
[2]随机森林的特征选择和模型优化算法研究[D]. 雍凯.哈尔滨工业大学 2008
[3]基于层次分类和集成学习的文本分类技术研究[D]. 张华伟.江西师范大学 2007
本文编号:3338619
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3338619.html
最近更新
教材专著