改进的C4.5算法在期货数据挖掘中的研究

发布时间：2019-11-01 02:34

【摘要】：在利用现有C4.5算法构建期货预测决策树时,往往出现预测准确率低的弊端,导致预测模型很难使用,为此提出了一种面向期货数据的C4.5-K算法。该算法的主要思想是通过在C4.5算法中引进新的参数K,调整属性度量标准信息增益率的取值范围,进而构建决策树预测模型进行预测。通过实验表明,该改进算法能有效提高期货预测能力。
【图文】：

曲线,加权信息,曲线,决策树

2017，53（11）K≤0，这个取值区间正好与L1的取值区间[0,+∞）隔开且相邻。图1中分别显示了不同K值下L2的曲线图，从下到上，K的取值分别为-1、-0.7、-0.5、-0.3、-0.1。从图中可以看出K取值越接近于-1，曲线L2越陡峭，，离L3越近；反之越趋近于0，曲线愈加平滑，离x轴愈近。从图1中也容易观察到曲线L2与L1相比，L2要平滑得多，因此可以通过训练K取不同值，进而用带加权参数K的x′来弱化某些强关联属性的信息熵，以达到提高弱关联属性在决策树全局范围的分类能力。以下就C4.5-K算法通过训练K进而构建决策树的流程进行阐述。2.4改进算法的决策树构建过程在构建决策树[11-13]的过程中，C4.5-K算法首先需要取一初始K值，并判断所处理的属性是离散属性还是连续属性，若为离散属性则按照公式（1）得到相应的信息熵；若为连续属性，首先对连续属性的数据进行排序，通过公式（2）计算其信息熵，根据C4.5算法计算其信息增益，再采用公式（3）计算该属性的信息增益率。然后通过比对按不同属性计算的信息增益率值的大小，确定优先分裂的属性。按照上述步骤获得决策树后，当出现生成的决策树模型误差率大于指定阈值时，可通过调整加权参数K的取值，进行反复实验来使得生成的决策树模型和样本实际数据逐渐逼近，使训练误差率降到最低，最终达到提高决策树预测准确性的目的。其相应的流程图如图2所示。3实验与分析为了验证C4.5-K算法的准确性和有效性，以下将以鸡蛋期货历史数据为例进行训练建模。期货原始数据项主要包括合约种类、开盘价、收盘价、最高价、最低价、涨跌1、结算价、涨跌2、交易日期、持仓量、成交量等属性。3.1数据预处理为了方便后续的数据挖掘，首先需要对期货原始数据进行预处理[14-15]，有关处理内容

曲线,加权信息,曲线,决策树

2017，53（11）K≤0，这个取值区间正好与L1的取值区间[0,+∞）隔开且相邻。图1中分别显示了不同K值下L2的曲线图，从下到上，K的取值分别为-1、-0.7、-0.5、-0.3、-0.1。从图中可以看出K取值越接近于-1，曲线L2越陡峭，离L3越近；反之越趋近于0，曲线愈加平滑，离x轴愈近。从图1中也容易观察到曲线L2与L1相比，L2要平滑得多，因此可以通过训练K取不同值，进而用带加权参数K的x′来弱化某些强关联属性的信息熵，以达到提高弱关联属性在决策树全局范围的分类能力。以下就C4.5-K算法通过训练K进而构建决策树的流程进行阐述。2.4改进算法的决策树构建过程在构建决策树[11-13]的过程中，C4.5-K算法首先需要取一初始K值，并判断所处理的属性是离散属性还是连续属性，若为离散属性则按照公式（1）得到相应的信息熵；若为连续属性，首先对连续属性的数据进行排序，通过公式（2）计算其信息熵，根据C4.5算法计算其信息增益，再采用公式（3）计算该属性的信息增益率。然后通过比对按不同属性计算的信息增益率值的大小，确定优先分裂的属性。按照上述步骤获得决策树后，当出现生成的决策树模型误差率大于指定阈值时，可通过调整加权参数K的取值，进行反复实验来使得生成的决策树模型和样本实际数据逐渐逼近，使训练误差率降到最低，最终达到提高决策树预测准确性的目的。其相应的流程图如图2所示。3实验与分析为了验证C4.5-K算法的准确性和有效性，以下将以鸡蛋期货历史数据为例进行训练建模。期货原始数据项主要包括合约种类、开盘价、收盘价、最高价、最低价、涨跌1、结算价、涨跌2、交易日期、持仓量、成交量等属性。3.1数据预处理为了方便后续的数据挖掘，首先需要对期货原始数据进行预处理[14-15]，有关处理内容

【相似文献】