当前位置:主页 > 科技论文 > 软件论文 >

改进的C4.5算法在期货数据挖掘中的研究

发布时间:2019-11-01 02:34
【摘要】:在利用现有C4.5算法构建期货预测决策树时,往往出现预测准确率低的弊端,导致预测模型很难使用,为此提出了一种面向期货数据的C4.5-K算法。该算法的主要思想是通过在C4.5算法中引进新的参数K,调整属性度量标准信息增益率的取值范围,进而构建决策树预测模型进行预测。通过实验表明,该改进算法能有效提高期货预测能力。
【图文】:

曲线,加权信息,曲线,决策树


2017,53(11)K≤0,这个取值区间正好与L1的取值区间[0,+∞)隔开且相邻。图1中分别显示了不同K值下L2的曲线图,从下到上,K的取值分别为-1、-0.7、-0.5、-0.3、-0.1。从图中可以看出K取值越接近于-1,曲线L2越陡峭,,离L3越近;反之越趋近于0,曲线愈加平滑,离x轴愈近。从图1中也容易观察到曲线L2与L1相比,L2要平滑得多,因此可以通过训练K取不同值,进而用带加权参数K的x′来弱化某些强关联属性的信息熵,以达到提高弱关联属性在决策树全局范围的分类能力。以下就C4.5-K算法通过训练K进而构建决策树的流程进行阐述。2.4改进算法的决策树构建过程在构建决策树[11-13]的过程中,C4.5-K算法首先需要取一初始K值,并判断所处理的属性是离散属性还是连续属性,若为离散属性则按照公式(1)得到相应的信息熵;若为连续属性,首先对连续属性的数据进行排序,通过公式(2)计算其信息熵,根据C4.5算法计算其信息增益,再采用公式(3)计算该属性的信息增益率。然后通过比对按不同属性计算的信息增益率值的大小,确定优先分裂的属性。按照上述步骤获得决策树后,当出现生成的决策树模型误差率大于指定阈值时,可通过调整加权参数K的取值,进行反复实验来使得生成的决策树模型和样本实际数据逐渐逼近,使训练误差率降到最低,最终达到提高决策树预测准确性的目的。其相应的流程图如图2所示。3实验与分析为了验证C4.5-K算法的准确性和有效性,以下将以鸡蛋期货历史数据为例进行训练建模。期货原始数据项主要包括合约种类、开盘价、收盘价、最高价、最低价、涨跌1、结算价、涨跌2、交易日期、持仓量、成交量等属性。3.1数据预处理为了方便后续的数据挖掘,首先需要对期货原始数据进行预处理[14-15],有关处理内容

曲线,加权信息,曲线,决策树


2017,53(11)K≤0,这个取值区间正好与L1的取值区间[0,+∞)隔开且相邻。图1中分别显示了不同K值下L2的曲线图,从下到上,K的取值分别为-1、-0.7、-0.5、-0.3、-0.1。从图中可以看出K取值越接近于-1,曲线L2越陡峭,离L3越近;反之越趋近于0,曲线愈加平滑,离x轴愈近。从图1中也容易观察到曲线L2与L1相比,L2要平滑得多,因此可以通过训练K取不同值,进而用带加权参数K的x′来弱化某些强关联属性的信息熵,以达到提高弱关联属性在决策树全局范围的分类能力。以下就C4.5-K算法通过训练K进而构建决策树的流程进行阐述。2.4改进算法的决策树构建过程在构建决策树[11-13]的过程中,C4.5-K算法首先需要取一初始K值,并判断所处理的属性是离散属性还是连续属性,若为离散属性则按照公式(1)得到相应的信息熵;若为连续属性,首先对连续属性的数据进行排序,通过公式(2)计算其信息熵,根据C4.5算法计算其信息增益,再采用公式(3)计算该属性的信息增益率。然后通过比对按不同属性计算的信息增益率值的大小,确定优先分裂的属性。按照上述步骤获得决策树后,当出现生成的决策树模型误差率大于指定阈值时,可通过调整加权参数K的取值,进行反复实验来使得生成的决策树模型和样本实际数据逐渐逼近,使训练误差率降到最低,最终达到提高决策树预测准确性的目的。其相应的流程图如图2所示。3实验与分析为了验证C4.5-K算法的准确性和有效性,以下将以鸡蛋期货历史数据为例进行训练建模。期货原始数据项主要包括合约种类、开盘价、收盘价、最高价、最低价、涨跌1、结算价、涨跌2、交易日期、持仓量、成交量等属性。3.1数据预处理为了方便后续的数据挖掘,首先需要对期货原始数据进行预处理[14-15],有关处理内容

【相似文献】

相关期刊论文 前10条

1 香丽芸;浅谈数据挖掘及其应用[J];昌吉师专学报;2001年02期

2 郑雪燕,张杰明,岳洋;数据挖掘语言[J];计算机时代;2001年11期

3 刘明晶;数据挖掘[J];华南金融电脑;2001年04期

4 张伟;刘勇国;彭军;廖晓峰;吴中福;;数据挖掘发展研究[J];计算机科学;2001年07期

5 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期

6 朱建平,张润楚;数据挖掘的发展及其特点[J];统计与决策;2002年07期

7 傅岚;在数据海洋中打捞信息数据挖掘[J];科技广场;2002年11期

8 李峻;数据挖掘,企业洞察先机的“慧眼”[J];中国计算机用户;2002年48期

9 罗可,蔡碧野,卜胜贤,谢中科;数据挖掘及其发展研究[J];计算机工程与应用;2002年14期

10 ;2002数据挖掘研讨班[J];计算机工程;2002年06期

相关会议论文 前10条

1 史东辉;蔡庆生;张春阳;;一种新的数据挖掘多策略方法研究[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年

2 张弦;;数据挖掘在农业中的应用[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年

3 魏顺平;;教育数据挖掘:现状与趋势[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年

4 关清平;沉培辉;;概率网络在数据挖掘上的应用[A];科技、工程与经济社会协调发展——中国科协第五届青年学术年会论文集[C];2004年

5 丁瑾;;基于Web数据挖掘的综述[A];山西省科学技术情报学会学术年会论文集[C];2004年

6 聂茹;田森平;;Web数据挖掘及其在电子商务中的应用[A];中南六省(区)自动化学会第24届学术年会会议论文集[C];2006年

7 李菊;王军;;数据挖掘在客户关系管理的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年

8 肖阳;李启贤;;数据挖掘在中国钢铁行业中的应用[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

9 杨磊;王贵成;汪勇;张占胜;;SQL Server 2005在数据挖掘中的应用[A];2009年中国智能自动化会议论文集(第二分册)[C];2009年

10 谢中;邱玉辉;;面向商务网站有效性的数据挖掘方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年

相关重要报纸文章 前10条

1 □中国电信股份有限公司北京研究院 张舒博 □北京邮电大学计算机科学与技术学院 牛琨;走出数据挖掘的误区[N];人民邮电;2006年

2 《网络世界》记者 王莹;数据挖掘保险业的新蓝海[N];网络世界;2012年

3 刘俊丽;基于地理化的网络数据挖掘与分析提升投资有效性[N];人民邮电;2014年

4 ;数据挖掘:如何挖出效益?[N];中国计算机报;2004年

5 任中华;财务数据挖掘六步走[N];中国计算机报;2007年

6 电脑商报记者 谢涛;数据挖掘:未来政府信息化的重要环节[N];电脑商报;2007年

7 吴勇毅;软件选型:数据挖掘是重点[N];中国冶金报;2009年

8 本报特约撰稿 许丽萍;数据挖掘:软件应用的新境界[N];计算机世界;2009年

9 谢立宏博士;企业的“黄金眼”数据挖掘决策支持[N];中国计算机报;2002年

10 吴勇毅;危机下,数据挖掘与提供信息决策是关健[N];中国冶金报;2009年

相关博士学位论文 前10条

1 于自强;海量流数据挖掘相关问题研究[D];山东大学;2015年

2 张馨;全基因组SNP芯片应用于CNV和L0H分析的软件比对与数据挖掘[D];复旦大学;2011年

3 李秋虹;基于MapReduce的大规模数据挖掘技术研究[D];复旦大学;2013年

4 白晓明;基于数据挖掘的复合材料宏—细观力学模型研究[D];哈尔滨工业大学;2016年

5 吴贤;社会化数据挖掘中的若干问题研究[D];上海交通大学;2015年

6 杨博;基于GPU异构体系结构的大规模图数据挖掘关键技术研究[D];国防科学技术大学;2015年

7 冯骥;自然邻居思想概念及其在数据挖掘领域的应用[D];重庆大学;2016年

8 李荣;生物信息数据挖掘若干关键问题研究与应用[D];复旦大学;2004年

9 李玉华;面向服务的数据挖掘关键技术研究[D];华中科技大学;2006年

10 吴少智;时间序列数据挖掘在生物医学中的应用研究[D];电子科技大学;2010年

相关硕士学位论文 前10条

1 林仁红;基于数据挖掘的机遇识别与评价研究[D];首都经济贸易大学;2007年

2 张彦俊;游戏运营中的数据挖掘[D];复旦大学;2011年

3 焦亚召;基于多核函数FCM算法在数据挖掘聚类中的应用研究[D];昆明理工大学;2015年

4 王杰锋;物联网能耗数据智能分析及其应用平台设计[D];江南大学;2015年

5 戴阳阳;基于数据挖掘的金融时间序列预测研究与应用[D];江南大学;2015年

6 石思优;基于主题模型的医疗数据挖掘研究[D];广东技术师范学院;2015年

7 陈丹;移动互联网信令挖掘实现智慧营销的设计与实现应用研究[D];华南理工大学;2015年

8 陈思;基于数据挖掘的大学生客户识别模型的研究[D];昆明理工大学;2015年

9 位长帅;基于客户数据挖掘的电信客户关系管理研究[D];西南交通大学;2015年

10 言炯;数据挖掘在高考录取因素分析中的应用研究[D];苏州大学;2015年



本文编号:2553958

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/2553958.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户64ba8***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com