基于股票时间序列数据的关联规则挖掘研究.doc 全文免费在线阅读
本文关键词:基于股票时间序列数据的关联规则挖掘研究,由笔耕文化传播整理发布。
文档介绍:
南昌大学 200 级硕士学位论文文献综述报告基于股票时间序列数据的关联规则挖掘研究 Study on Mining Association Rules from Stock Time Series Data 系别: 计算机科学与技术系专业: 计算机应用技术研究方向: 人工智能研究生: 汪廷华导师: 程从从(教授) 2005 年 0月一.引言随着计算机信息系统的日益普及,大容量存储技术的发展以及条形码等数据获取技术的广泛应用,人们在日常事务处理和科学研究中积累了大量的各种类型的数据。在这些数据中,有很大一部分是呈现时间序列( time series ) 类型的数据。所谓时间序列数据就是按时间先后顺序排列各个观测记录的数据集[1] , 如金融证券市场中每天的股票价格变化;商业零售行业中,某项商品每天的销售额;气象预报研究中,某一地区的每天气温与气压的读数;以及在生物医学中,某一症状病人在每个时刻的心跳变化等等。然而,我们应该注意到:时间序列数据不仅仅是历史事件的记录,更重要的是蕴藏这些数据其中不显现的、有趣的模式。随着时间推移和时间序列数据的大规模增长,如何对这些海量数据进行分析处理,挖掘(来源:[])其背后蕴藏的价值信息,对于我们揭示事物发展规律变化的内部规律,发现不同事物之间的相互关系,为人们正确认识事物和科学决策提供依据具有重要的实际意义。时间序列数据分析按照不同的任务有各种不同的方法,一般包括趋势分析、相似性搜索、与时间有关数据的序列模式挖掘、周期模式挖掘等[2] 。本综述是针对证券业中股票时间序列分析的, 试图通过列举、分析有关证券业中股票时间序列数据分析的原理、方法与技术,着重探讨数据挖掘中基于股票时间序列数据的关联规则挖掘的概念、原理技术、实施过程及存在的障碍和问题,以期能有新的发现和领悟。二.股票时间序列传统研究方法概述随着我国市场经济建设的发展,人们的金融意识和投资意识日益增强。股票市场作为市场经济的重要组成部分, 正越来越多地受到投资者的关注。目前股票投资已经是众多个人理财中的一种重要方式。不言而喻, 如果投资者能正确预测股票价格、选准买卖时机,无疑会给投资者带来丰厚的收益。于是,在股票的预测和分析方面出现了大量的决策分析方法和工具,以期能有效地指导投资者的投资决策。目(来源:[])前,我国股市用得较多的方法概括起来有两类[] :一类是基本分析和技术分析,另一类是经济统计分析。 1 .基本分析和技术分析在股票市场上,当投资者考虑是否投资于股票或购买什么股票时,一般可以运用基本分析的方法对股市和股票进行分析;而在买卖股票的时机把握上,一般可以运用技术分析的方法[4] 。基本分析指的是通过对影响股票市场供求关系的基本因素( 如宏观政治经济形势、金融政策、行业变动、公司运营财务状况等)进行分析,来确定股票的真正价值,判断未来股市走势,是长期投资者不可或缺的有效分析手段。技术分析是完全根据股市行情变化而加以分析的方法, 它通过对历史资料( 成交价和成交量) 进行分析, 来判断大盘和个股价格的未来变化趋势,探讨股市里投资行为的可能转折,从而给投资者买卖股票的信号, 适合于投资者作短期投资。目前技术分析常用的工具是各种各样的走势图(K 线图、分时图) 和技术指标( MA、 RSI 、 OBV 等)。 2 .经济统计学分析主要针对时间序列数据进行数学建模和分析。传统的时间序列数据分析(来源:[])已经是一个发展得相当成熟的学科,有着一整套分析理论和工具,是目前时间序列数据分析的主要方法,它主要用经济统计学的理论和方法对经济变量进行描述、分析和推算。传统时间序列数据分析的研究目的在于[5] : ●分析特定的数据集合,建立数学模型,进行模式结构分析和实证研究; ●预测时间序列的未来发展情况。传统的时间序列数据分析最基本的理论是 40 年代分别由 Norbor Wiener 和 Andrei Kolmogomor 提出的。 20 世纪 70 年代, G.P.Box 和 G.M.Jenkins 发表专著《时间序列分析: 预测和控制》, 对平稳时间序列数据提出了自回归滑动平均模型( ARMA ), 以及一整套的建模、估计、检验和控制方法, 使得时序数据分析得以广泛运用于各种工程领域。其基本思想是根据各随机变量间的依存关系或自相关性,从而由时间序列的过去值及现在值来预测出未来的值。该模型以证券市场为非有效市场为前提,当期的股票价格变化不仅受当期随机因素的冲击,而且受前期影响。换句话说,就是历史信(来源:[])息会对当前的股票价格产生一定程度的影响。采用的方法一般是在连续的时间流中截取一个时间窗口( 一个时间段), 窗口内的数据作为一个数据单元, 然后让这个时间窗口在时间流上滑动,以获得建立模型所需要的训练集[6] 。[7] 基于股票时间序列是一种混沌时间序列的认知, 提出一种新颖的非线性时间序列预测模型, 即滑动窗口二次自回归( MWDAR )模型,该模型使用部分的历史数据及其二次项构造自回归模型,模型参数用最小二乘法估计。其基本理论基础是:一个线性模型不能描述混沌时间序列的全局性特征,但在一个小的时间间隔内, 系统的行为却可以用某种线性模型近似。[8] 则提出了一种基于嵌入理论和确定集上的预测误差的混沌时间序列预测方法,并探讨了在股票价格预测上的应用。可以看出,经济统计学为问题的探索解决方案提供了有用而实际的框架;模型是经济统计学的核心,模型的选择和计算往往被认为是次要的,是建立模型的枝节。经济统计学本质上是从事“确定性”分析的,可以说统计方法是“目标驱动”的。但是, 在大量数据集中往往存在一(来源:[])些未被人们预期到但又具有价值的信息, 人们为发现大量数据中隐藏的规律和模式,就需要新的具有“探索性”的分析工具。显然,数据挖掘就是这样的一门工具。三.数据挖掘技术应用于股票时间序列分析的研究现状数据挖掘( DM, Data Mining ) ,也称为数据库中的知识发现( KDD , Knowledge Discovery in Database ) 是数据库技术和机器学习等人工智能技术相结合的产物, 是一门新兴的数据智能分析技术[9] 。 20 世纪 80年代末,随着数据库、互联网技术的迅速发展以及管理信息系统( MIS )和网络数据中心( IDC )的推广应用, 数据的存取、查询、描述统计等技术已日臻完善,但高层次的决策分析、知识发现等实用技术还很不成熟, 导致了“信息爆炸”但“知识贫乏”的现象。到了 90 年代, 人们提出在数据库基础上建立数据仓库, 应用
1
内容来自转载请标明出处.本文关键词:基于股票时间序列数据的关联规则挖掘研究,由笔耕文化传播整理发布。
,本文编号:240179
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/240179.html