主成分分析与二维主成分分析之比较研究
发布时间:2017-07-26 10:00
本文关键词:主成分分析与二维主成分分析之比较研究
更多相关文章: 主成分分析 二维主成分分析 欧氏距离 马氏距离 高频数据
【摘要】:数据降维具有重要的意义,一方面高维数据无法在一些具体的算法中直接应用,降维可以解决“维数灾难”,降低数据复杂度,使一些算法可以正常使用;另一方面高维数据往往包含了大量的噪声和冗余,降维提炼出高维数据中人们感兴趣的数据结构呈现在低维空间中,以便更好地认知和理解研究对象。 主成分分析(PCA)和二维主成分分析(2DPCA)是两种不同的降维方法,均可用于对矩阵型数据进行降维。本文就两种重要的矩阵型数据:多元时间序列数据和高频金融数据,比较研究PCA和2DPCA这两种方法的表现,以期对涉及这两种数据的实际应用产生一些借鉴作用。 在多元时间序列数据的分类问题中,往往先通过降维方法对数据降维,再在低维空间中进行分类。为此,本文比较了PCA和2DPCA两种降维方法与欧式距离结合后的分类表现。此外,鉴于欧氏距离会受到量纲的影响,本篇论文提出2DPCA在二维主子空间上的马氏距离算法,并在5个真实世界多元时间序列数据集上与欧式距离的结果以及PCA的马氏距离结果进行全面比较,研究发现2DPCA在二维主子空间中的马氏距离是最佳的降维方法和分类距离的组合。 在高频金融数据的统计建模问题中,预测资产收益率的波动率具有重要的研究意义。对于包含多个资产的高频金融数据来说,每个交易日存在一个波动率的协方差矩阵,这样的矩阵往往具有较高的维度,如果直接预测波动率会产生大量的参数,所以预测波动率首先需要对高维矩阵进行降维,再对低维矩阵进行预测建模。本文对PCA和2DPCA这两种降维方法进行实证比较研究,用AR、ARMA、ARIMA等6个时间序列模型进行预测。实证研究结果表明,用2DPCA进行降维得到的低维数据,配合以上各个时间序列模型进行预测,,都比PCA降维后的数据有更好的预测效果。同时也发现2DPCA降维与VAR模型的组合是最佳的,最终计算出的平均重构误差最小。
【关键词】:主成分分析 二维主成分分析 欧氏距离 马氏距离 高频数据
【学位授予单位】:云南财经大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:C81
【目录】:
- 摘要3-4
- Abstract4-9
- 第一章 绪论9-13
- 第一节 引言9-10
- 第二节 本文创新点介绍10-11
- 第三节 研究思路与结构安排11-13
- 一、 研究思路11
- 二、 结构安排11-13
- 第二章 降维理论13-21
- 第一节 主成分分析方法理论介绍13-17
- 一、 主成分分析方法的基本含义13
- 二、 主成分分析的基本理论13-15
- 三、 主成分分析的最小误差模式15
- 四、 有关主成分分析的一些讨论15-17
- 第二节 二维主成分分析方法理论介绍17-19
- 第三节 线性判别分析19-20
- 第四节 本章小结20-21
- 第三章 主成分分析和二维主成分分析方法在分类问题中的实证比较研究21-34
- 第一节 主成分分析和二维主成分分析在分类问题上的研究状况21-22
- 第二节 主成分分析在分类问题中的研究22-26
- 一、 主成分分析在分类问题研究中的最小误差模式22
- 二、 主成分分析的计算方法22-23
- 三、 主成分分析在主子空间中的欧氏距离和马氏距离23-24
- 四、 算法24-26
- 第三节 二维主成分分析在分类问题中的研究26-29
- 一、 二维主成分分析的主要步骤26
- 二、 二维主成分分析的欧氏距离分类算法26-28
- 三、 二维主成分分析的马氏距离分类算法28-29
- 第四节 数据实验29-33
- 一、 数据集介绍29-31
- 二、 实验内容31-32
- 三、 实验结果32-33
- 第五节 本章小结33-34
- 第四章 主成分分析和二维主成分分析在高频金融数据中的实证比较研究34-66
- 第一节 主成分分析和二维主成分分析在高频金融数据统计建模中的研究状况34-37
- 一、 国外低频数据的研究状况34-35
- 二、 国外高频数据的研究状况35-36
- 三、 国内低频数据的研究状况36-37
- 四、 国内高频数据的研究状况37
- 第二节 预测波动率的三步法37-45
- 一、 降维方法38-41
- 二、 时间序列建模41-44
- 三、 逆线性重构44-45
- 第三节 数据实验45-64
- 一、 数据背景介绍45
- 二、 数据降维45-48
- 三、 时间序列建模48-64
- 四、 逆线性重构64
- 第四节 实证研究分析64-65
- 第五节 本章小结65-66
- 第五章 总结66-67
- 第一节 本文结论66
- 第二节 本文不足及未来展望66-67
- 参考文献67-71
- 致谢71-72
- 在读期间完成的研究成果72
【参考文献】
中国期刊全文数据库 前3条
1 邓传军;刘家悦;李轩;;沪市股票收益率的ARCH模型分析[J];当代经济(下半月);2007年11期
2 徐正国;张世英;;多维高频数据的“已实现”波动建模研究[J];系统工程学报;2006年01期
3 郭名媛;张世英;;基于高频金融数据的正交ARFIMA模型及应用[J];系统工程理论与实践;2008年11期
本文编号:575794
本文链接:https://www.wllwen.com/shekelunwen/shgj/575794.html
教材专著