基于数据挖掘技术的股票预测与研究
本文关键词: 线性分段 相似性搜索 分段斜率 特征点 出处:《江苏科技大学》2012年硕士论文 论文类型:学位论文
【摘要】:现如今提到数据挖掘技术,相信大家都并不陌生,因为它已渐渐融入在我们生活的方方面面。当今社会的计算机技术的迅猛发展给我们的生活带来的各种便利,同时伴随着我们对数据的操作与研究的广度和深度的加深,,人们已经不再只满足对海量数据的表面性掌握,更希望获得到更多更有价值的信息,而数据挖掘技术就是帮助人们解决这一问题,即从海量数据中挖掘其背后的信息。 如今对于时间序列数据挖掘的研究有很多的方面,其中相似性挖掘和模式挖掘是时下比较流行也是受到国内外学者关注较多的研究。作为数据挖掘的一项基础研究,相似性挖掘对研究数据挖掘的各个方面有着重要的意义。而在相似性研究中面临的一个重要问题就是如何解决对时间序列数据的压缩与表示,在这方面人们也早已进行了系统而深入的研究,同时也提出了多种时间序列的表示方法来对数据量进行处理。本文以股票时间序列数据为对象,在对时间序列数据线性化的章节提出基于特征点与临界分段斜率比较的方法更好对数据进行线性划分,该方法从原始序列中提取特征点,以特征点来作为分段的界线,并通过比较临界分段斜率拟合数据。该方法在保证时间序列数据原有特征的基础上,并且对于时间序列的多种变形都不敏感。针对包含大量噪声并存在数据缺失的高维多元时间序列数据,本文提出的是一种基于斜率表示的时间序列相似性度量方法,该方法在对时间序列数据的分段线性化的基础上,对分段线段进行斜率的相似性度量,概念更清晰明确。并且以数据线性化和相似性度量方法为基础,对实际股票数据进行了预测与分析。
[Abstract]:I believe that data mining technology is no stranger to us now, because it has gradually integrated into all aspects of our lives. The rapid development of computer technology in today's society has brought us all kinds of conveniences in our lives. At the same time, with the deepening of the scope and depth of our data operation and research, people are no longer satisfied with the superficial grasp of massive data, but also want to obtain more and more valuable information. Data mining technology is to help people solve this problem, that is, mining the information behind it from massive data. Nowadays, there are many aspects in the research of time series data mining, among which similarity mining and pattern mining are popular and concerned by domestic and foreign scholars. Similarity mining is of great significance to the study of various aspects of data mining, and an important problem in similarity research is how to compress and represent time series data. In this respect, people have already carried out systematic and in-depth research, and at the same time put forward a variety of time series representation methods to deal with the amount of data. In the chapter of linearization of time series data, the method based on the comparison of feature points and critical segmental slope is proposed. The method extracts feature points from original sequences and takes feature points as segmentation boundaries. By comparing the critical slope fitting data, the method is based on the original features of the time series data. And it is not sensitive to many kinds of deformation of time series. In view of the high dimensional multivariate time series data which contains a lot of noise and the data is missing, this paper presents a method of measuring the similarity of time series based on slope representation. On the basis of the piecewise linearization of time series data, the concept of slope similarity measurement of segmented line segments is clearer and clearer, and the method is based on data linearization and similarity measurement. The actual stock data are forecasted and analyzed.
【学位授予单位】:江苏科技大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:F830.91;TP311.13
【参考文献】
相关期刊论文 前10条
1 肖辉,胡运发;基于分段时间弯曲距离的时间序列挖掘[J];计算机研究与发展;2005年01期
2 汤胤;;时间序列相似性分析方法研究[J];计算机工程与应用;2006年01期
3 贾澎涛;林卫;何华灿;;时间序列的自适应误差约束分段线性表示[J];计算机工程与应用;2008年05期
4 梁建海;张建业;杨峰;潘泉;;时间序列度量的斜率偏离距离方法研究[J];计算机工程与应用;2009年22期
5 詹艳艳;徐荣聪;陈晓云;;基于斜率提取边缘点的时间序列分段线性表示方法[J];计算机科学;2006年11期
6 毛红保;张凤鸣;冯卉;张亮;;基于特征点转换的时间序列符号化方法[J];计算机工程;2008年12期
7 李爱国,覃征;大规模时间序列数据库降维及相似搜索[J];计算机学报;2005年09期
8 喻高瞻;彭宏;胡劲松;郑启伦;;时间序列数据的分段线性表示[J];计算机应用与软件;2007年12期
9 陆珩tq;;数据挖掘技术在证券业中的应用[J];价值工程;2006年02期
10 武红江;赵军平;彭勤科;黄永宣;;基于波动特征的时间序列数据挖掘[J];控制与决策;2007年02期
相关硕士学位论文 前2条
1 徐峰;数据仓库与数据挖掘在证券业中的研究应用[D];山东大学;2005年
2 左新强;时间序列的相似性查找方法研究[D];清华大学;2007年
本文编号:1499928
本文链接:https://www.wllwen.com/guanlilunwen/zhqtouz/1499928.html