非平衡大数据应用领域的多决策树及其分布式计算理论研究

发布时间：2017-12-26 13:14

本文关键词：非平衡大数据应用领域的多决策树及其分布式计算理论研究　出处：《太原理工大学》2017年硕士论文　论文类型：学位论文

【摘要】：随着计算机的广泛普及和信息技术的快速发展,各行各业产生的数据呈现大量和非平衡分布特点。分类预测器作为数据挖掘的重要技术之一,可以判断数据未来的发展趋势,发现数据潜在的价值。传统的分类预测器模型主要考虑总体分类准确率性能,对非平衡数据分类效果较差,容易忽略具有重要价值的少数类数据。此外,面对大规模训练数据时,普通性能计算设备由于存储空间及内存有限,导致算法计算效率低下甚至系统失效。针对上述问题,本文在决策树分类算法的基础上,提出一种基于代价敏感属性选择混合策略的多决策树算法,并针对大数据集提出一种新的分布式计算方法。所做的主要工作有以下几点:1.提出了一种基于代价敏感的混合属性选择策略。详细分析和对比了几种决策树算法的性能异同。结合C4.5算法的信息增益率和CART(Classification and Regression Tree)算法的Gini系数提出基于混合策略的决策树分裂点最佳属性选择指标。针对非平衡数据集,采用代价敏感方法以提高少数类分类性能,减少因少数类误判导致的分类误差较大问题。实验结果表明,这种分裂点最佳属性选择策略,在保证多数类分类准确率的前提下,大幅提高了少数类分类准确性。2.提出了一种基于全属性信息分裂的改进随机森林多决策树算法。为了提高决策树算法的分类准确性,同时考虑根节点信息对决策树的影响,本文在随机森林的基础上,改进其因随机选择训练数据和属性导致的少数类欠学习问题,采用基于不同根节点的全属性建树方法。实验结果表明,基于不同根节点信息的改进随机森林多决策树算法保证了较高的少数类分类准确性,并大幅提高整体准确性。3.设计和实现了大数据分布式存储和计算平台。针对大规模非平衡数据集,本文根据现有的硬件设备,构建了Hadoop分布式存储和计算平台,可保证数据的高可靠性和高存储能力以及高效的分布式计算能力。并进一步根据本文分布式多决策树算法进行了环境参数设置和调优,以使平台计算性能处于最佳状态。4.提出了一种新的分布式多决策树算法计算模型。研究了算法准确率、执行时间与样本大小的关系,得到结论:可以针对不同的数据集确定一个合适规模的训练样本使得算法准确率在该规模下一直保持较高水平。根据这一结论,本文提出了一种将MapReduce粗粒度计算和线程细粒度计算相结合的分布式多决策树算法计算模型,通过实验验证,本文算法具有优异的加速比性能和较好的可扩展性性能。
【学位授予单位】：太原理工大学
【学位级别】：硕士
【学位授予年份】：2017
【分类号】：TP311.13

【参考文献】