基于函数型数据聚类分析的股票投资组合策略研究
发布时间:2021-04-06 09:20
自1990年我国上交所和深交所成立以来,我国股票交易市场发展迅速,并伴随着全球资本市场的一体化和风险不断的增加,如何规避市场波动,获得更大的回报,构建较优投资组合策略,已成为每个投资者所关注的问题。与此同时,金融数据呈爆发式增长,其波动复杂、高噪声。在面对日趋复杂且繁的数据时,传统分析方法将难以解决,而函数型数据分析方法作为一种较新的数据分析方法,能够处理海量复杂的数据,实现对无限维度数据的模式挖掘,挖掘出更多重要信息。本文以我国上证50指数中的43支成分股为研究对象,首先进行数据的收集、日收益率的计算,再进行数据预处理与函数型数据拟合,转换为函数型数据后,进行函数型数据描述性分析以及函数型数据主成分分析,再利用所得结果,采用K-means聚类方法对43支股票进行聚类,最后再以聚类结果构建不同投资组合策略,对组合收益效果进行验证,以期为投资者构建投资组合策略提供参考。本文的研究结果表明:(1)采用函数型数据分析方法能较好地挖掘出所研究股票的深度信息,并以此进行聚类,可将具有不同收益率走势特征的股票进行区分。(2)使用函数型数据分析方法进行数据重构拟合时,光滑参数λ综合考虑过拟合和过光滑...
【文章来源】:华侨大学福建省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
图3.14支股票日对数收益率
28加上内节点的个数l。本文中,内节点的个数l等于节点个数L减2,即l=L-2=4,而基函数的个数n等于内点个数l加基函数阶数m,即n=m+l=8。关于光滑参数λ选取,可自行挑选,也可利用上文提到的广义交叉验证,取其最小值。如有必要,可主观选择外加考虑广义交叉验证的结果,最后确定光滑系数。另外,如果没有粗糙惩罚,基函数的个数唯一决定光滑度。他们之间的关系是:所采用的基函数个数越多,曲线拟合度会越好,但其光滑度会越差;所采用的基函数个数越少,曲线的光滑度会越好,但其拟合度会越差。但是,如果结合粗糙惩罚法,则光滑度由光滑参数决定。他们之间的关系是:光滑参数越大,曲线的光滑度会越好,但其拟合度会越差;光滑参数越小,曲线拟合度会越好,但其光滑度会越差。此时,就和选取基函数的个数没有关系。因此,本文选择8个基函数构造函数型数据,并再选择合适的光滑参数是可行的。最终得到惩罚参数对数与GCV值之间的关系如图3.2,图中展示了GCV值随着光滑参数λ的对数值10logλ从-2到10的变化过程。可以发现,GCV的值刚开始随着对数值增加而保持不变,而当光滑参数的对数值10logλ超过5时,GCV的值开始急速下降,一直锐减到10logλ达到7,此时下降速度开始变慢。如果采取GCV最小的方法,则光滑参数λ取7.710,这时GCV取到最小值0.001261654。此方法所取的光滑参数虽然具有较好的光滑效果,但可能会导致所拟合的曲线过于光滑。简单的说,该方法的光滑效果可以除掉大部分的噪声,但去除噪声的同时,可能部分有用的收益率信息也将被过滤掉。图3.2广义交叉验证值图3.2和表3.4展现部分光滑参数λ和GCV值的对应关系。可以看出,光
29滑参数在510-7.710的范围内,增加光滑参数会降低GCV。其中,在6.410-6.510范围内,GCV下降幅度较大。但在6.910-710范围内,GCV下降幅度较校表3.4广义交叉验证具体数值光滑参数GCV值GCV差值6.4100.001263698754510×6.5100.0012631536.9100.001262414716310×7100.0012622517.7100.001261654NA图中两条曲线是第一支股票(浦发银行600000)分别在光滑参数710和7.710时,对1219个交易日对数收益率原始数据拟合后的函数曲线对比。红色曲线表示光滑参数710,黑色曲线表示光滑参数7.710。由图可知,光滑参数7.710拟合的黑色曲线过于光滑,没有太多的弯曲,导致不止将噪声去掉,还有可能把有用的真实信息也过滤掉。图3.3不同光滑参数下的拟合对比相比而言,光滑参数710拟合的红色曲线就没有出现过度光滑的问题,特别是在第200个交易日后体现出了日对数收益率数据的变化趋势。最后,经过判断外加考虑广义交叉验证的结果,确定使用光滑参数为710对日对数收益率数据进行函数性数据拟合。此时,GCV的值为0.001262251,比
【参考文献】:
期刊论文
[1]基于Copula-GH-CoVaR模型的风险溢出效应研究[J]. 张保帅,段俊,田盈. 重庆师范大学学报(自然科学版). 2019(04)
[2]函数型数据聚类分析研究综述与展望[J]. 王德青,朱建平,刘晓葳,何凌云. 数理统计与管理. 2018(01)
[3]熵池理论和风险平均分散化模型在投资组合分配中的应用[J]. 葛颖,程希骏,符永健. 中国科学技术大学学报. 2013(09)
[4]多阶段均值-绝对偏差投资组合优化研究[J]. 张鹏. 武汉科技大学学报. 2011(02)
[5]基于小波和多重分形的金融时间序列聚类[J]. 钟维年,高清维,陈燕玲. 系统工程. 2009(03)
[6]基于下偏矩风险的行为投资组合模型研究[J]. 彭飞,史本山,黄登仕. 管理科学学报. 2008(06)
[7]基于ICA的时间序列聚类方法及其在股票数据分析中的应用[J]. 郭崇慧,贾宏峰,张娜. 运筹与管理. 2008(05)
[8]函数性数据的统计分析:思想、方法和应用[J]. 严明义. 统计研究. 2007(02)
[9]基于方差波动多重分形特征的金融时间序列聚类[J]. 黄超,吴清烈,武忠,朱扬勇. 系统工程. 2006(06)
[10]金融市场的相关性分析——Copula-GARCH模型及其应用[J]. 韦艳华,张世英. 系统工程. 2004(04)
博士论文
[1]谱聚类方法研究及其在金融时间序列数据挖掘中的应用[D]. 苏木亚.大连理工大学 2011
硕士论文
[1]基于密度和距离自适应确定初始聚类中心的K-Prototypes算法的研究与应用[D]. 陈颖洁.吉林大学 2019
[2]时间序列挖掘方法及在投资组合中的应用[D]. 郑宇泉.厦门大学 2007
本文编号:3121190
【文章来源】:华侨大学福建省
【文章页数】:63 页
【学位级别】:硕士
【部分图文】:
图3.14支股票日对数收益率
28加上内节点的个数l。本文中,内节点的个数l等于节点个数L减2,即l=L-2=4,而基函数的个数n等于内点个数l加基函数阶数m,即n=m+l=8。关于光滑参数λ选取,可自行挑选,也可利用上文提到的广义交叉验证,取其最小值。如有必要,可主观选择外加考虑广义交叉验证的结果,最后确定光滑系数。另外,如果没有粗糙惩罚,基函数的个数唯一决定光滑度。他们之间的关系是:所采用的基函数个数越多,曲线拟合度会越好,但其光滑度会越差;所采用的基函数个数越少,曲线的光滑度会越好,但其拟合度会越差。但是,如果结合粗糙惩罚法,则光滑度由光滑参数决定。他们之间的关系是:光滑参数越大,曲线的光滑度会越好,但其拟合度会越差;光滑参数越小,曲线拟合度会越好,但其光滑度会越差。此时,就和选取基函数的个数没有关系。因此,本文选择8个基函数构造函数型数据,并再选择合适的光滑参数是可行的。最终得到惩罚参数对数与GCV值之间的关系如图3.2,图中展示了GCV值随着光滑参数λ的对数值10logλ从-2到10的变化过程。可以发现,GCV的值刚开始随着对数值增加而保持不变,而当光滑参数的对数值10logλ超过5时,GCV的值开始急速下降,一直锐减到10logλ达到7,此时下降速度开始变慢。如果采取GCV最小的方法,则光滑参数λ取7.710,这时GCV取到最小值0.001261654。此方法所取的光滑参数虽然具有较好的光滑效果,但可能会导致所拟合的曲线过于光滑。简单的说,该方法的光滑效果可以除掉大部分的噪声,但去除噪声的同时,可能部分有用的收益率信息也将被过滤掉。图3.2广义交叉验证值图3.2和表3.4展现部分光滑参数λ和GCV值的对应关系。可以看出,光
29滑参数在510-7.710的范围内,增加光滑参数会降低GCV。其中,在6.410-6.510范围内,GCV下降幅度较大。但在6.910-710范围内,GCV下降幅度较校表3.4广义交叉验证具体数值光滑参数GCV值GCV差值6.4100.001263698754510×6.5100.0012631536.9100.001262414716310×7100.0012622517.7100.001261654NA图中两条曲线是第一支股票(浦发银行600000)分别在光滑参数710和7.710时,对1219个交易日对数收益率原始数据拟合后的函数曲线对比。红色曲线表示光滑参数710,黑色曲线表示光滑参数7.710。由图可知,光滑参数7.710拟合的黑色曲线过于光滑,没有太多的弯曲,导致不止将噪声去掉,还有可能把有用的真实信息也过滤掉。图3.3不同光滑参数下的拟合对比相比而言,光滑参数710拟合的红色曲线就没有出现过度光滑的问题,特别是在第200个交易日后体现出了日对数收益率数据的变化趋势。最后,经过判断外加考虑广义交叉验证的结果,确定使用光滑参数为710对日对数收益率数据进行函数性数据拟合。此时,GCV的值为0.001262251,比
【参考文献】:
期刊论文
[1]基于Copula-GH-CoVaR模型的风险溢出效应研究[J]. 张保帅,段俊,田盈. 重庆师范大学学报(自然科学版). 2019(04)
[2]函数型数据聚类分析研究综述与展望[J]. 王德青,朱建平,刘晓葳,何凌云. 数理统计与管理. 2018(01)
[3]熵池理论和风险平均分散化模型在投资组合分配中的应用[J]. 葛颖,程希骏,符永健. 中国科学技术大学学报. 2013(09)
[4]多阶段均值-绝对偏差投资组合优化研究[J]. 张鹏. 武汉科技大学学报. 2011(02)
[5]基于小波和多重分形的金融时间序列聚类[J]. 钟维年,高清维,陈燕玲. 系统工程. 2009(03)
[6]基于下偏矩风险的行为投资组合模型研究[J]. 彭飞,史本山,黄登仕. 管理科学学报. 2008(06)
[7]基于ICA的时间序列聚类方法及其在股票数据分析中的应用[J]. 郭崇慧,贾宏峰,张娜. 运筹与管理. 2008(05)
[8]函数性数据的统计分析:思想、方法和应用[J]. 严明义. 统计研究. 2007(02)
[9]基于方差波动多重分形特征的金融时间序列聚类[J]. 黄超,吴清烈,武忠,朱扬勇. 系统工程. 2006(06)
[10]金融市场的相关性分析——Copula-GARCH模型及其应用[J]. 韦艳华,张世英. 系统工程. 2004(04)
博士论文
[1]谱聚类方法研究及其在金融时间序列数据挖掘中的应用[D]. 苏木亚.大连理工大学 2011
硕士论文
[1]基于密度和距离自适应确定初始聚类中心的K-Prototypes算法的研究与应用[D]. 陈颖洁.吉林大学 2019
[2]时间序列挖掘方法及在投资组合中的应用[D]. 郑宇泉.厦门大学 2007
本文编号:3121190
本文链接:https://www.wllwen.com/shoufeilunwen/benkebiyelunwen/3121190.html