数据挖掘技术在股票分析与预测中的应用
发布时间:2020-07-05 10:56
【摘要】: 近年来,数据挖掘技术在各个领域得到广泛的应用。它在处理海量数据,知识发现方面具有其他技术不可比拟的优势。股票交易数据量巨大,在这些数据中存在着一些隐含的规律。由于人脑处理数据的能力有限,所以很难发现它们。而数据挖掘技术恰好可以弥补这个不足。本文尝试用数据挖掘技术来对股票进行分析和预测。 本文首先介绍了股票分析与预测的背景知识和方法,其次对数据挖掘理论做了深入细致的研究,然后着重从以下三个方面展开讨论。 首先,重点对股票的财务数据指标进行研究,选取有代表性的财务指标,把决策树分类ID3算法应用到股票财务数据的分析上。投资者利用测试结果可以对上市公司的经营情况和获利能力进行分析。 其次,利用关联规则挖掘股票间的连动规则。关联分析方法可以挖掘事务数据库中“项”与“项”之间的规则。股票数据是连续的数值型数据,而不是逻辑型的。本文应用事务间数值型关联规则挖掘算法E-QA来找出股票间的连动规则。 最后,利用时间序列相似性搜索方法,查找出与选定股票走势相似的历史股票数据,以此预测股票未来一段时间的走势。股票价格走势往往有很多规则,而这些规则经常反复的出现。如果能够找到和选定股票走势相似的历史数据,就可以以此作为投资的依据。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:F830.91;TP311.13
【图文】:
图 2-1 关于“每股收益”的决策树模型根据以上决策树模型,可以提取出如下 12 条规则:规则 1: If 净资产收益率 <0%Then 每股收益 <0.00 元规则 2: If 每股净资产 <0.00 元Then 每股收益 <0.00 元规则 3: If 每股净资产 >6.00 元Then 每股收益 >0.30 元规则 4: If 每股净资产 =[3.00 元,6.00 元]And 主营收入增长率 >60%Then 每股收益 >0.30 元规则 5: If 净资产收益率 =[30%,60%]Then 每股收益 >0.30 元规则 6: If 每股净资产 =[3.00 元,6.00 元]And 每股现金含量 >0.3 元- 24 -
图 4-1 Apriori 算法示例4.1.4 Apriori算法存在的问题及改进算法虽然 Apriori 算法能够很好的挖掘出隐藏在数据库中关联规则,但是用Apriori 算法进行关联规则的发现之前,需要进行最小支持度阈值和最小置信度阈值的确定,而它们是靠人们根据经验给出的,而且在进行关联规则的数据挖掘的过程中,是采用唯一的支持度阈值和置信度阈值,这样对我们的挖掘来说就存在以下问题[31]:(1)在支持度方面:(a)如果挖掘的最小支持度定的过高,那么覆盖较少数据但却有意义的关联规则将不能被发现。(b)如果最小支持度定的过低,那么大量的无实际意义的关联规则将充斥在数据挖掘过程中,大大降低数据挖掘的效率和挖掘结果的有效性。(2)在置信度方面:如果采用唯一的置信度,它的前提条件就是各个规则用于推理的强度非常相似,但在现实生活中这个条件很难成立。
本文编号:2742508
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:F830.91;TP311.13
【图文】:
图 2-1 关于“每股收益”的决策树模型根据以上决策树模型,可以提取出如下 12 条规则:规则 1: If 净资产收益率 <0%Then 每股收益 <0.00 元规则 2: If 每股净资产 <0.00 元Then 每股收益 <0.00 元规则 3: If 每股净资产 >6.00 元Then 每股收益 >0.30 元规则 4: If 每股净资产 =[3.00 元,6.00 元]And 主营收入增长率 >60%Then 每股收益 >0.30 元规则 5: If 净资产收益率 =[30%,60%]Then 每股收益 >0.30 元规则 6: If 每股净资产 =[3.00 元,6.00 元]And 每股现金含量 >0.3 元- 24 -
图 4-1 Apriori 算法示例4.1.4 Apriori算法存在的问题及改进算法虽然 Apriori 算法能够很好的挖掘出隐藏在数据库中关联规则,但是用Apriori 算法进行关联规则的发现之前,需要进行最小支持度阈值和最小置信度阈值的确定,而它们是靠人们根据经验给出的,而且在进行关联规则的数据挖掘的过程中,是采用唯一的支持度阈值和置信度阈值,这样对我们的挖掘来说就存在以下问题[31]:(1)在支持度方面:(a)如果挖掘的最小支持度定的过高,那么覆盖较少数据但却有意义的关联规则将不能被发现。(b)如果最小支持度定的过低,那么大量的无实际意义的关联规则将充斥在数据挖掘过程中,大大降低数据挖掘的效率和挖掘结果的有效性。(2)在置信度方面:如果采用唯一的置信度,它的前提条件就是各个规则用于推理的强度非常相似,但在现实生活中这个条件很难成立。
【引证文献】
相关硕士学位论文 前3条
1 马晓辉;关联规则在股票时间序列中的应用[D];广东工业大学;2011年
2 唐文慧;基于数据挖掘技术的股价预测实证分析[D];西南财经大学;2009年
3 周超良;基于关联规则的股市板块指数建模分析与算法研究[D];首都师范大学;2013年
本文编号:2742508
本文链接:https://www.wllwen.com/guanlilunwen/zhqtouz/2742508.html
最近更新
教材专著