具有信息复杂性的自适应多元时间序列建模及其在金融数据中的应用
发布时间:2020-08-31 13:45
VAR/VARX多元时间序列分析方法应用广泛,诸如应用于医药、金融、数据挖掘等领域。生产过程中同时多个变量发生的情况下会产生多元时间序列,因此不能仅仅分析单变量时间序列,需要同时分析多个变量之间的依赖关系。VARX模型允许存在内生和外生变量,而VAR模型仅允许存在内生变量。VAR/VARX包含多个变量,这些变量通过普通最小二乘或广义最小二乘回归方法建模,或者通过弹性网、Lasso VAR或稀疏VAR模型等数据挖掘技术建立模型。建模出现饱和/非限制模型的成本较高,特别是相对于大样本外预测更加明显,因此在预测未来值时,由于使用了变量的所有过去值,因此从时间跨度到样本充足性方面均提出了很高的挑战。模型拟合错误会导致模型设定错误出现偏差,目前大多通过P值或信息准则进行模型选择。如果VAR模型添加的参数较少,可能会导致参数估计量有偏或者低估真实的数据;如果为了提高该模型解释数据的能力,在模型中添加过多的参数,那么信息标准值最终会降低,但方差进而会增加并且导致数据的过度拟合。因此信息准则对偏差和方差之间进行了平衡。Akaike信息准则已经被广泛使用,并且几乎被普遍认为是最佳模型选择标准。该准则基于两个重要组成部分,它们衡量拟合模型与原始数据之间的拟合偏差,并惩罚偏差以实现模型简化的原则,而不考虑添加更多参数所带来的复杂性问题。因此,为了解决这一信息准则的缺陷,学界引入了 Bozdogan的信息复杂性(ICOMP)准则,通过惩罚模型的复杂性而不是计算惩罚参数的数量,以降低过度拟合数据的风险来弥补Akaike信息准则的缺陷。Bozdogan通过推广van Emden(1971)的熵或基于互信息的协方差复杂性指数来推动复杂性的度量,通过增加缺少拟合项(或两次负对数似然)来惩罚对数似然函数,通过加上一个惩罚项,惩罚增加的自由参数的复杂性(Bozdogan,2000)。ICOMP加强了模型解释数据的能力和模型复杂性之间的权衡,即模型拟合偏误和模型复杂性之间进行权衡,拟合偏差随着VAR/VARX的变量数增加而减少。但另一方面,模型的复杂性增加,因此应该在减少基础数据过度拟合的准则中添加复杂度的惩罚项。饱和VAR/VARX导致严重的过度参数化,因此变量选择长期以来一直是高维模型中的一个棘手问题,因为降维主要目标是在最大信息中找到最佳相关变量子集,以在多变量时间序列预测中获得高精度。伴随可变子集选择的不同模型评估技术已被广泛用于从VAR/VARX模型中检测和去除冗余不必要变量,因此在竞争模型组合中选择最合适的近似子集模型是主要方法。假设存在d个变量,那么应该估计2d(dk+1)个VAR模型对应不同的变量组合和截距,其中d是变量的数量,p是潜在的VAR模型的滞后数。因此选择最优的模型通过以最简单的方式解释数据并消除所有不必要的变量是主要目标之一,因为这些冗余变量会将噪声添加到其他重要的必要变量并降低自由度。模型评估标准是竞争模型的品质因数或绩效衡量标准。如果我们打算在可变子集选择之前继续拟合整个不受限制的VAR模型,那么估计2d(dk+1)会消耗大量的资源,从而消除“维度的诅咒”。针对以上问题,本文应用一种混合自适应多变量序列模型,该模型规避了向量自回归模型(VAR)的一些缺陷,基于稀疏主成分分析和多元最小二乘回归的数据处理方法,解决了模型内生性和非线性的情况,使用Coupla概率主成分分析方法进行降维。论文在不同的协方差结构下进行蒙特卡洛模拟,分析不同信息准则选择模型的有效性;运用信息理论复杂性度量(ICOMP)准则、稀疏主成分分析法以及在高斯误差分布下的多元正态回归模型构建智能的统计建模程序,建立了方便使用的三维混合方法。第一章是导言。介绍论文的研究背景和意义,研究框架和方法,文章的创新点和文献综述。第二章研究了多元高斯向量自回归(VAR)模型具有多种协方差结构情况下信息选择准则的有效性。考虑了模型误差项方差具有异质性和相关性结构,选择真实VAR模型中的滞后数。第二章进行了大量的蒙特卡罗模拟,研究估计逆Fisher信息矩阵(IFIM)的Akaike信息准则(AIC),Schwarz的贝叶斯准则(SBC)、Bozdogan的熵方法和ICOMP方法在不同情景和不同样本量下模型选择情况。结果显示了 ICOMP准则比其他传统信息准则对高维时间序列数据更加有效。此外,第二章提供了一个使用多元时间序列的实证例子,该研究使用VAR模型考虑了国内生产总值与货币供应量和国库券(三个月T-bill率)所显示的货币政策变量之间的相互依赖关系。它显示实际GDP和M1增加导致利率略有下降,货币供应量与以GDP衡量的经济增长之间存在显着的长期关系。并且在计算脉冲响应函数(IRF)和预测误差方差分解(FEVD)之后,从而可以注意到本文所使用的VAR模型是稳定的。第二个实证例子使用了相依回归或VAR(0)的资本资产定价模型,表明了除了GOOG之外,所有使用的资产都与市场显著相关。第三章考虑了向量自回归模型的混合方法。允许模型中含有内生和外生变量,从而使用多变量OLS回归,Tibshirani(1996)提出了用稀疏主成分分析(SPCA)方法降维以提高准确预测效果。我们首先使用SPCA作为我们的预处理方法来降维并且选择特征,而不是用于滞后阶选择。本文构建了一种易于使用的三向混合方法,通过基于复杂度的信息理论度量(ICOMP)标准的巧妙统计建模程序与稀疏主成分分析和具有高斯误差分布的多元正态回归模型相结合。在选择最佳VARX滞后参数时遵循Bozdogan的熵或信息理论测量估计的反Fisher信息矩阵(IFIM)的复杂度ICOMP标准,蒙特卡罗模拟显示中该标准优于传统信息标准。论文使用稀疏主成分分析(SPCA)作为最新的最精确的选择模型,减少了标准普尔500多变量时间序列的维数,并选择了属于六个行业的37种股票的最佳子集。此外,应用VARX模型来预测构建的投资组合的价格变动,其中标准普尔500指数被视为VARX模型的外生回归量;我们将单变量自回归分布滞后模型ADL应用于的房地产住房价格,阐明房地产泡沫的成因以及如何使用自回归(AR)和自回归分布滞后(ADL)模型来解决它。VARX在均方根误差(RMSE)标准方面优于ARX模型。第四章估计了四种不同股票收益价格之间的非线性相关性。使用copula模型来研究变量之间的依赖关系结构,Copula模型增强了降维能力并捕获了模型中的厚尾性,其中高斯假设未能解释尾部依赖性。通过考虑这些变量的联合和边际分布,将感兴趣的原始变量映射到更易于管理的变量,然后获得这些变量之间的相关结构。我们使用一致信息复杂度(CICOMP)标准以及其他AIC信息准则,应用于几个Copula模型拟合股票收益价格数据集的组合中,以选择最佳的Copula函数模型。在正确指定拟合模型的情况下,CICOMP主导了 AIC类型标准。第五章是全文的研究结论及对未来研究的展望。本论文的主要创新为:首次采用基于多变量OLS-VARX回归模型和信息复杂度ICOMP准则及SPCA混合参数方法进行参数降维和样本外预测。在正态分布假设下,SPCA方法结合信息复杂度ICOMP准则将用于降维和模型选择,因此在拟合和选择500 SP500股票价格的最优子集VARX前提下,分析得到VARX优于ARX模型,进而预测未来值;首次研究了不同协方差结构下的VAR/VARX模型中,信息复杂度ICOMP模型选择标准优于其他常规标准的效果;首次使用ICOMP作为选择最佳拟合Copula的模型选择标准,来将copula模型的非线性依赖性捕获到股票收益组合中。
【学位单位】:山东大学
【学位级别】:博士
【学位年份】:2019
【中图分类】:F224;F831.51
本文编号:2808884
【学位单位】:山东大学
【学位级别】:博士
【学位年份】:2019
【中图分类】:F224;F831.51
本文编号:2808884
本文链接:https://www.wllwen.com/jingjifazhanlunwen/2808884.html