当前位置:主页 > 科技论文 > 软件论文 >

基于随机森林和Spark的并行文本分类算法研究

发布时间:2018-11-25 09:04
【摘要】:文本分类问题广泛存在于搜索引擎、信息检索等应用中。尤其是信息技术广为发展的时代,有效地对大数据中的文本进行分类是数据挖掘研究的重要内容之一。本文研究了随机森林算法在海量文本分类中的应用,随机森林算法是一种集成算法,能有效的处理海量数据。随机森林分类算法通过随机性的引入,在获得较好分类效果的同时很好的解决决策树算法过拟合的问题。随机森林算法在抽样建立决策树的过程中,可能会生成较差的随机子空间,从而使得对应的决策树分类能力较弱,针对此特点本文采用基于粗糙集理论的随机森林算法调整这些决策树的分类能力。同时根据随机森林中各决策树的分类能力,在随机森林算法中采用加权投票方法,实验表明基于粗糙集理论的随机森林算法在大多数数据集上分类性能优于KNN、朴素贝叶斯、决策树和传统的随机森林等算法。MapReduce框架是目前应用最广泛的大数据并行计算框架,MapReduce框架下的并行文本分类算法的研究得到了较多的关注。MapReduce框架的缺点是,在并行计算的过程中会将中间结果存储在HDFS上,造成大量的IO开销等;而Spark框架是基于内存计算的并行框架,在执行过程中并不会直接将中间结果存储在磁盘(只有当内存不足时才会将数据部分缓存到磁盘),因此Spark框架的执行效率相对较好。本文研究了随机森林算法和Spark框架在海量文本分类上的应用,并同MapReduce框架下的并行文本分类进行了简单比较,实验表明Spark框架上并行文本分类并行性能较好,且优于MapReduce框架下并行文本分类。最后,为方便用户对集群的使用,设计了基于B/S结构的并行文本分类系统,用于远程提交任务、集群监控和数据下载等。
[Abstract]:Text classification is widely used in search engine and information retrieval. Especially in the era of extensive development of information technology, effectively classifying texts in big data is one of the important contents of data mining research. In this paper, the application of stochastic forest algorithm in massive text classification is studied. Stochastic forest algorithm is an ensemble algorithm, which can deal with mass data effectively. By introducing randomness into the stochastic forest classification algorithm, the problem of over-fitting of decision tree algorithm is well solved while the classification effect is better. In the process of establishing decision tree by sampling, the random forest algorithm may generate poor random subspace, which makes the classification ability of the corresponding decision tree weak. In this paper, the classification ability of these decision trees is adjusted by using the stochastic forest algorithm based on rough set theory. At the same time, according to the classification ability of each decision tree in the random forest, the weighted voting method is used in the random forest algorithm. The experiment shows that the classification performance of the stochastic forest algorithm based on rough set theory is better than that of KNN, naive Bayes on most data sets. Decision tree and traditional stochastic forest algorithms. MapReduce framework is the most widely used big data parallel computing framework at present. The research of parallel text classification algorithm under MapReduce framework has attracted more attention. The disadvantage of MapReduce framework is that, In the process of parallel computing, the intermediate results will be stored on the HDFS, resulting in a large amount of IO overhead. The Spark framework is a parallel framework based on memory computing, and the intermediate results are not stored directly on disk (only when the memory is out of memory, the data can be cached to the disk), so the execution efficiency of the Spark framework is relatively good. In this paper, the application of stochastic forest algorithm and Spark framework in massive text classification is studied and compared with the parallel text classification based on MapReduce framework. The experiments show that the parallel performance of parallel text classification based on Spark framework is good. And it is better than parallel text classification in MapReduce framework. Finally, a parallel text classification system based on B / S structure is designed to facilitate the users to use the cluster. The system is used for remote submission tasks, cluster monitoring and data downloading.
【学位授予单位】:西南交通大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP391.1

【相似文献】

相关期刊论文 前10条

1 刘足华;熊惠霖;;基于随机森林的目标检测与定位[J];计算机工程;2012年13期

2 董师师;黄哲学;;随机森林理论浅析[J];集成技术;2013年01期

3 王象刚;;基于K均值随机森林快速算法及入侵检测中的应用[J];科技通报;2013年08期

4 陈姝;彭小宁;;基于粒子滤波和在线随机森林分类的目标跟踪[J];江苏大学学报(自然科学版);2014年02期

5 罗知林;陈挺;蔡皖东;;一个基于随机森林的微博转发预测算法[J];计算机科学;2014年04期

6 王丽婷;丁晓青;方驰;;基于随机森林的人脸关键点精确定位方法[J];清华大学学报(自然科学版);2009年04期

7 李建更;高志坤;;随机森林针对小样本数据类权重设置[J];计算机工程与应用;2009年26期

8 张建;武东英;刘慧生;;基于随机森林的流量分类方法[J];信息工程大学学报;2012年05期

9 吴华芹;;基于训练集划分的随机森林算法[J];科技通报;2013年10期

10 张华伟;王明文;甘丽新;;基于随机森林的文本分类模型研究[J];山东大学学报(理学版);2006年03期

相关会议论文 前7条

1 谢程利;王金桥;卢汉清;;核森林及其在目标检测中的应用[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年

2 武晓岩;方庆伟;;基因表达数据分析的随机森林方法及算法改进[A];黑龙江省第十次统计科学讨论会论文集[C];2008年

3 张天龙;梁龙;王康;李华;;随机森林结合激光诱导击穿光谱技术用于的钢铁分类[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年

4 相玉红;张卓勇;;组蛋白去乙酰化酶抑制剂的构效关系研究[A];第十一届全国计算(机)化学学术会议论文摘要集[C];2011年

5 张涛;李贞子;武晓岩;李康;;随机森林回归分析方法及在代谢组学中的应用[A];2011年中国卫生统计学年会会议论文集[C];2011年

6 冯飞翔;冯辅周;江鹏程;刘菁;刘建敏;;随机森林和k-近邻法在某型坦克变速箱状态识别中的应用[A];第八届全国转子动力学学术讨论会论文集[C];2008年

7 曹东升;许青松;梁逸曾;陈宪;李洪东;;组合树的集合体和后向消除策略去分类P-糖蛋白化合物[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年

相关博士学位论文 前4条

1 曹正凤;随机森林算法优化研究[D];首都经济贸易大学;2014年

2 雷震;随机森林及其在遥感影像处理中应用研究[D];上海交通大学;2012年

3 岳明;基于随机森林和规则集成法的酒类市场预测与发展战略[D];天津大学;2008年

4 李书艳;单点氨基酸多态性与疾病相关关系的预测及其机制研究[D];兰州大学;2010年

相关硕士学位论文 前10条

1 钱维;药品不良反应监测中随机森林方法的建立与实现[D];第二军医大学;2012年

2 韩燕龙;基于随机森林的指数化投资组合构建研究[D];华南理工大学;2015年

3 贺捷;随机森林在文本分类中的应用[D];华南理工大学;2015年

4 张文婷;交通环境下基于改进霍夫森林的目标检测与跟踪[D];华南理工大学;2015年

5 李强;基于多视角特征融合与随机森林的蛋白质结晶预测[D];南京理工大学;2015年

6 朱玟谦;一种收敛性随机森林在人脸检测中的应用研究[D];武汉理工大学;2015年

7 肖宇;基于序列图像的手势检测与识别算法研究[D];电子科技大学;2014年

8 李慧;一种改进的随机森林并行分类方法在运营商大数据的应用[D];电子科技大学;2015年

9 赵亚红;面向多类标分类的随机森林算法研究[D];哈尔滨工业大学;2014年

10 黎成;基于随机森林和ReliefF的致病SNP识别方法[D];西安电子科技大学;2014年



本文编号:2355549

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2355549.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8aaa4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com