基于改进K均值聚类理论的证券时间序列奇异点研究
发布时间:2014-08-10 14:43
第一章绪论
1.1课题背景
证券时间序列数据由不同时间的重复测量得到的值或时问的序列组成。这些值通常是在相等时叫间隔(例如每小时,每天,每周)测量。时问序列的数据量通常以每天(如股票的交易),甚至每分钟(如NASA空间计划)数字节的量级增长。怎样才能发现时间序列数据的相关性呢?怎样通过快速甚至联机的实时响应去分析如此巨大数量的时间序列数据,从而找到相似或者有规律的模式、趋势、突变(例如突然的明显变化)以及离群点呢?随着社会科学、经济和生活水平的高速发展,信息科技时代逐渐来临,大量的数据随着信息时代的发展也呈现爆炸式的增长。这种按照时间先后顺序出现,并且以此排序的数列集合,我们称之为时间序列[1]。时间序列是一类重要的复杂数据对象。通过对社会、经济、科学技术等领域中的时间序列做进一步分析与处理,便有可能揭示事物运动、变化和发展的内在规律,这无疑对社会经济和技术的发展有着极为重要的意义[2,3]。证券市场作为国家经济运行的核心,探求其变化规律、进行有效的金融管理、提高金融投资效率是管理者与投资者孜孜以求的目标之一[4]。证券时间序列是经济领域中最为重要的数据类型,对其进行分析和预测对人们分析市场走势有着至关重要的作用[5]。作为现代金融计量经济学理论中的重要内容,证券时间序列分析已应用到价格预测、投资决策、风险管理、客户分析等各金融机构业务中[6]。
.......
1.2国内外研究现状
在时间序列分析一是频谱分析,,任何没有趋势的时间序列都可以被分解成为一定数量的具有周期性的谱图。我们关心的是这些周期的长度,并且时间序列能够用这些周期来刻画。尽管我们利用这些频谱技术能够获得时间序列的一个可视化的印象,对描述时间序列也有一定的帮助,但对于预测样本期外的值却很不明确。第二类方法是经济学中最常用的,就是时域分析法,可以追溯到英国统计学家G.U.Yule于1927年提出的自回归模型。在时域分析法中,我们主要利用时间序列的数据是按照时间顺序依次被记录这一事实。在这种方法中,自相关函数非常的重要。对这一类时间序列分析方法,美国统计学家George E.P.Box和英国统计学家GwilymMJenkins的工作尤为重要,他们提出了较为完善的时间序列分析和建模的理论[i4],于1970年出版《时间序列分析一预测与控制》一书。此后,时间序列分析这一研究领域得到了广泛的扩展,从经济预测、气象预报到过程控制都得到应用。George E.P.Box和Gwilym M.Jenkins提出的时序分析模型被称作博克斯.詹金斯(Box-Jenkins)法。其基本模型有三种,自回归模型(AR)、移动平均模型(MA)和差分自回归移动平均模型(ARIMA) [15,16],这些方法对稳定的时间序列预测有着较好的结果。但是这些模型在理论上和应用上还存在着许多局限性,所以统计学家 始转向对非线性时间序列模型的研究。
........
第二章K均值算法、时间序列及奇异点理论基础
2.1 K均值聚类算法
国际数据挖掘大会在2006年12月,进行了一次评选。评选的结果是K均值聚类算法位列应用最广泛的10大算法中的第二位。由此可见K均值聚类算法的应用广泛性。K均值算法是一个应用广泛又实周的算法,该算法主要是把我们的研究对象集合分成若干个聚类,至于聚类个数k,可以人为的来指定。该聚类算法已经被很多的研究者发现并得以应用。K均值算法作为一种简单常用的聚类分析方法,己经被广泛的应用在许多数据聚类的问题中。K均值聚类算法是一种间接的利用聚类之间的相似性进行度量的方法。它的假设前提是:不相关样本数据要高于相关样本数据的相似度。该算法计算样本数据间的相似度一般都采用欧氏距离。K均值算法在应用的时候,并不需要研究者预先识别样本数据。而且,我们并不需要了解我们所研究的样本数据,我们只需要利用这个算法对数据进行聚类分析,然后分析实验结朵从而得出结论。在聚类分析方法之中,K均值算法是一种既简单又应用广泛的聚类方法,它是通过利用聚类间的相似性度量进行算法实现的一种分析方法。K均值聚类算法是一类简单的用于解决聚类问题的无监督学习算法。
.........
2.2时间序列理论基础
当今,越来越多的数据被存储在计算机上,如证券公司的系统里存储了海量的股票数据,军队的指挥系统里积累了大量作战信息,工矿企业的控制系统中保存了许多参数的历史数据,学校的计算机系统里存储了每位同学的信息数据,这些系统里存在大量的数据都可以按照时间次序依次列出,这就是时间序列,例如股票价格数据、某种产品月销售量、企业里各种参数的历史数据。对时间序列进行相应分析,就可以揭示事物的运动、变化及发展的内在规律。不论是经济领域里每年的生产总值、国民收入、某一商品在某一市场上的销售量、以及商品在市场上的价格变动等等。或者社会领域某一地区的人口数量、医院患者人数、铁路客流量等,还是在自然领域中的太阳黑子数、降水量、河流流量等等,都可以看做是时间序列。所有这些时间序列基本特点就是每个时间序列都囊括产生该时间序列的历史行为的特征信息。关键就在于怎样才能根据这些时间序列,较准确找出相应的内在统计特性以及事物的发展规律,尽可能多的从时间序列里提取我们所需要的准确信息。
.........
第3章改进的K均值聚类及实证研究..........25
3.1改进的K均值聚类..........25
3.2实验相关参数的选择标准..........29
3.3实例验证..........34
第4章基于改进K均值聚类对股票市场的奇异点检测及研究.......... 37
4.1引言..........37
4.2对股票市场股票收盘价和股票成交量的奇异点检测及研究.......... 39
4.3奇异点与信息因素的实证研究..........41
第5章总结与展望..........45
5.1本文总结..........45
5.2不足与展望..........50
第四章基于改进K均值聚类对股票市场的奇异点检测及研究
4.1引言
随着我国经济高逮发展及金融体蓋的五益完善证券时间序列作为经济与金融中最重要的数据类型,对其进行分析是现代金融学中重要的研究内容证券市场是具有高风险高收益的投资领域,众多投资者在追求最大化收益的同时也希望风险最小化,这就要求对其内在规律进行深入研究。投资股市,股民最关心的是获利,赚钱.要做到这点就必须把握股市的涨跌,提前做出较为准确的判断.描述股市涨跌有众多指标,其中最重要的是股票收盘价和股票成交量["]。下面我简要介绍这2个指标的概念及关系。股票收盘价是指某只股票在证券交易所一天交易活动结束前最后一笔交易的成交价格。如果当天没有进行相应的交易,那么我们就用上一次的成交价格来当做这只股票的收盘价。由于股票收盘价是当天证券市场行情的-个标准,同时也是下个交该只股票 盘价的依据,那么我们可以根据股票收盘价来对证券市场的未来行情做预测;因此当投资者需要对证券市场的行情做分析时,他们大多都会采用股票收盘价来当做分析的依据。但是目前沪深股市的股票收盘价并不完全是最后一笔交易的成交价格,而是一个加权平均价,也叫做已调整收盘价。上海证券交易所交易规则规定沪市收盘价为当日该证券最后一笔交易前一分钟所有交易的成交量加权平均价(含最后一笔交易)。
证券时间序列是经济中重要的数据类型,对其进行分析和预测对人们分析市场走势有着至关重要的作用。所以对证券时间序列分析和预测也就成为近年来国内外学者研究的热点问题。基于证券时间序列奇异点的研究,本文在基于聚类的奇异点检测思想下,与K均值聚类算法相结合,提出了一种改进的K均值聚类算法,然后利用该算法对华能国际和华夏银行这2只股票的股票收盘价和股票成交量进行实证分析,得出如下结论:1.通过对股票市场的股票收盘价和股票成交量的实证研究,验证了该算法能够有效的检测证券时间序列的奇异点。2.成交量是因,收盘价是果,成交量在先,收盘价在后。股票成交量对股票收盘价的变动具有解释作用,“价走量先行"。成交是交易的目的和实质,是市场存在的根本意义,股票成交量是股票市场的原动力,没有股票成交量配合的股票收盘价形同无本之木。因此,股票成交量是投资者分析判断市场行情并做出投资决策的重要依据.也是各种技术分析指标应用时不可或缺的参照。股票成交量的变化最能反映股市的大趋势。3.信息因素是产生奇异点的起因,股市投资者对股票价值有着自己的预期,最初股市处于均衡状态,当新信息到达市场时就会对投资者的预期产生影响,从而导致股票成交量奇异点的出现,又因为股票成交量与股票收盘价的关系,继而出现了股票收盘价的奇异点。
........
参考文献(略)
本文编号:8276
1.1课题背景
证券时间序列数据由不同时间的重复测量得到的值或时问的序列组成。这些值通常是在相等时叫间隔(例如每小时,每天,每周)测量。时问序列的数据量通常以每天(如股票的交易),甚至每分钟(如NASA空间计划)数字节的量级增长。怎样才能发现时间序列数据的相关性呢?怎样通过快速甚至联机的实时响应去分析如此巨大数量的时间序列数据,从而找到相似或者有规律的模式、趋势、突变(例如突然的明显变化)以及离群点呢?随着社会科学、经济和生活水平的高速发展,信息科技时代逐渐来临,大量的数据随着信息时代的发展也呈现爆炸式的增长。这种按照时间先后顺序出现,并且以此排序的数列集合,我们称之为时间序列[1]。时间序列是一类重要的复杂数据对象。通过对社会、经济、科学技术等领域中的时间序列做进一步分析与处理,便有可能揭示事物运动、变化和发展的内在规律,这无疑对社会经济和技术的发展有着极为重要的意义[2,3]。证券市场作为国家经济运行的核心,探求其变化规律、进行有效的金融管理、提高金融投资效率是管理者与投资者孜孜以求的目标之一[4]。证券时间序列是经济领域中最为重要的数据类型,对其进行分析和预测对人们分析市场走势有着至关重要的作用[5]。作为现代金融计量经济学理论中的重要内容,证券时间序列分析已应用到价格预测、投资决策、风险管理、客户分析等各金融机构业务中[6]。
.......
1.2国内外研究现状
在时间序列分析一是频谱分析,,任何没有趋势的时间序列都可以被分解成为一定数量的具有周期性的谱图。我们关心的是这些周期的长度,并且时间序列能够用这些周期来刻画。尽管我们利用这些频谱技术能够获得时间序列的一个可视化的印象,对描述时间序列也有一定的帮助,但对于预测样本期外的值却很不明确。第二类方法是经济学中最常用的,就是时域分析法,可以追溯到英国统计学家G.U.Yule于1927年提出的自回归模型。在时域分析法中,我们主要利用时间序列的数据是按照时间顺序依次被记录这一事实。在这种方法中,自相关函数非常的重要。对这一类时间序列分析方法,美国统计学家George E.P.Box和英国统计学家GwilymMJenkins的工作尤为重要,他们提出了较为完善的时间序列分析和建模的理论[i4],于1970年出版《时间序列分析一预测与控制》一书。此后,时间序列分析这一研究领域得到了广泛的扩展,从经济预测、气象预报到过程控制都得到应用。George E.P.Box和Gwilym M.Jenkins提出的时序分析模型被称作博克斯.詹金斯(Box-Jenkins)法。其基本模型有三种,自回归模型(AR)、移动平均模型(MA)和差分自回归移动平均模型(ARIMA) [15,16],这些方法对稳定的时间序列预测有着较好的结果。但是这些模型在理论上和应用上还存在着许多局限性,所以统计学家 始转向对非线性时间序列模型的研究。
........
第二章K均值算法、时间序列及奇异点理论基础
2.1 K均值聚类算法
国际数据挖掘大会在2006年12月,进行了一次评选。评选的结果是K均值聚类算法位列应用最广泛的10大算法中的第二位。由此可见K均值聚类算法的应用广泛性。K均值算法是一个应用广泛又实周的算法,该算法主要是把我们的研究对象集合分成若干个聚类,至于聚类个数k,可以人为的来指定。该聚类算法已经被很多的研究者发现并得以应用。K均值算法作为一种简单常用的聚类分析方法,己经被广泛的应用在许多数据聚类的问题中。K均值聚类算法是一种间接的利用聚类之间的相似性进行度量的方法。它的假设前提是:不相关样本数据要高于相关样本数据的相似度。该算法计算样本数据间的相似度一般都采用欧氏距离。K均值算法在应用的时候,并不需要研究者预先识别样本数据。而且,我们并不需要了解我们所研究的样本数据,我们只需要利用这个算法对数据进行聚类分析,然后分析实验结朵从而得出结论。在聚类分析方法之中,K均值算法是一种既简单又应用广泛的聚类方法,它是通过利用聚类间的相似性度量进行算法实现的一种分析方法。K均值聚类算法是一类简单的用于解决聚类问题的无监督学习算法。
.........
2.2时间序列理论基础
当今,越来越多的数据被存储在计算机上,如证券公司的系统里存储了海量的股票数据,军队的指挥系统里积累了大量作战信息,工矿企业的控制系统中保存了许多参数的历史数据,学校的计算机系统里存储了每位同学的信息数据,这些系统里存在大量的数据都可以按照时间次序依次列出,这就是时间序列,例如股票价格数据、某种产品月销售量、企业里各种参数的历史数据。对时间序列进行相应分析,就可以揭示事物的运动、变化及发展的内在规律。不论是经济领域里每年的生产总值、国民收入、某一商品在某一市场上的销售量、以及商品在市场上的价格变动等等。或者社会领域某一地区的人口数量、医院患者人数、铁路客流量等,还是在自然领域中的太阳黑子数、降水量、河流流量等等,都可以看做是时间序列。所有这些时间序列基本特点就是每个时间序列都囊括产生该时间序列的历史行为的特征信息。关键就在于怎样才能根据这些时间序列,较准确找出相应的内在统计特性以及事物的发展规律,尽可能多的从时间序列里提取我们所需要的准确信息。
.........
第3章改进的K均值聚类及实证研究..........25
3.1改进的K均值聚类..........25
3.2实验相关参数的选择标准..........29
3.3实例验证..........34
第4章基于改进K均值聚类对股票市场的奇异点检测及研究.......... 37
4.1引言..........37
4.2对股票市场股票收盘价和股票成交量的奇异点检测及研究.......... 39
4.3奇异点与信息因素的实证研究..........41
第5章总结与展望..........45
5.1本文总结..........45
5.2不足与展望..........50
第四章基于改进K均值聚类对股票市场的奇异点检测及研究
4.1引言
随着我国经济高逮发展及金融体蓋的五益完善证券时间序列作为经济与金融中最重要的数据类型,对其进行分析是现代金融学中重要的研究内容证券市场是具有高风险高收益的投资领域,众多投资者在追求最大化收益的同时也希望风险最小化,这就要求对其内在规律进行深入研究。投资股市,股民最关心的是获利,赚钱.要做到这点就必须把握股市的涨跌,提前做出较为准确的判断.描述股市涨跌有众多指标,其中最重要的是股票收盘价和股票成交量["]。下面我简要介绍这2个指标的概念及关系。股票收盘价是指某只股票在证券交易所一天交易活动结束前最后一笔交易的成交价格。如果当天没有进行相应的交易,那么我们就用上一次的成交价格来当做这只股票的收盘价。由于股票收盘价是当天证券市场行情的-个标准,同时也是下个交该只股票 盘价的依据,那么我们可以根据股票收盘价来对证券市场的未来行情做预测;因此当投资者需要对证券市场的行情做分析时,他们大多都会采用股票收盘价来当做分析的依据。但是目前沪深股市的股票收盘价并不完全是最后一笔交易的成交价格,而是一个加权平均价,也叫做已调整收盘价。上海证券交易所交易规则规定沪市收盘价为当日该证券最后一笔交易前一分钟所有交易的成交量加权平均价(含最后一笔交易)。
........
第五章总结与展望
5.1本文总结
证券时间序列是经济中重要的数据类型,对其进行分析和预测对人们分析市场走势有着至关重要的作用。所以对证券时间序列分析和预测也就成为近年来国内外学者研究的热点问题。基于证券时间序列奇异点的研究,本文在基于聚类的奇异点检测思想下,与K均值聚类算法相结合,提出了一种改进的K均值聚类算法,然后利用该算法对华能国际和华夏银行这2只股票的股票收盘价和股票成交量进行实证分析,得出如下结论:1.通过对股票市场的股票收盘价和股票成交量的实证研究,验证了该算法能够有效的检测证券时间序列的奇异点。2.成交量是因,收盘价是果,成交量在先,收盘价在后。股票成交量对股票收盘价的变动具有解释作用,“价走量先行"。成交是交易的目的和实质,是市场存在的根本意义,股票成交量是股票市场的原动力,没有股票成交量配合的股票收盘价形同无本之木。因此,股票成交量是投资者分析判断市场行情并做出投资决策的重要依据.也是各种技术分析指标应用时不可或缺的参照。股票成交量的变化最能反映股市的大趋势。3.信息因素是产生奇异点的起因,股市投资者对股票价值有着自己的预期,最初股市处于均衡状态,当新信息到达市场时就会对投资者的预期产生影响,从而导致股票成交量奇异点的出现,又因为股票成交量与股票收盘价的关系,继而出现了股票收盘价的奇异点。
........
参考文献(略)
本文编号:8276
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/8276.html