当前位置:主页 > 经济论文 > 经济管理论文 >

基于GBDT等机器学习算法的新股量化策略研究

发布时间:2020-03-28 07:25
【摘要】:近年来量化投资领域逐渐受到广泛关注,成为一个十分热门的研究方向。利用数学、统计、机器学习等技术,量化投资充分挖掘各资产历史价格演变的规律,利用这些规律形成投资策略,获取高额收益。量化投资近年来受到了机构投资者以及个人投资者的广泛关注。量化投资兴起于二十世纪六十年代,当时随着计量工具的研究,不断有投资者尝试对市场价格进行定量化研究。而我国金融以及相关衍生品市场起步较晚,量化投资受到市场的广泛重视是2010年以后的事情。而且目前市场上量化相关的投资理财产品相对较少,同时由于市场交易规则限制,量化投资策略也不如欧美等国家丰富,因此量化投资策略的研究在我国市场具有巨大的发展空间。A股市场是我国目前较为成熟以及体量较大的市场,因此如何构建适合于我国股市的量化投策略具有重要的现实及理论意义。自2010年以来,新股具有较为明显的溢价发行的特征,上市后价格往往出现暴涨,因此出现了诸多打新股的策略。但是受到发行量的限制,新股往往一签难求。同时由于新股上市后出现的大波动现象,造成了新股在一段时间内的价格变动具有同其他股票不一样的特点,因此研究次新股的价格特点,寻找交易机会也具有较大的实际意义。从统计上看,经过上市初期的一轮暴涨后,新股往往会出现价格下跌回调,然后重新上涨的过程。同时也并非所有的新股都具有同样上涨的概率,经过统计发现30个交易日以后,超过50%的新股价格会出现下跌。因此如何构建一套针对次新股的量化交易策略,指导投资者在进行次新股交易时进行科学的选股便变得十分重要。近几年来机器学习发展迅速,很多研究都关注机器学习在量化投资中的应用。机器学习的很多算法,如支持向量机(Support Vector Machine,SVM)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)等算法对于非线性问题的预测都有较好的效果,而对于次新股的涨跌可以转化为机器学习中的分类问题。因此本文尝试使用SVM、GBDT等机器学习模型对次新股涨跌进行预测,并构建交易策略。本文采用定量化的研究方法,从聚宽、Tushare等开放数据库中提取了2006年1月1日到2017年12月31日的上市A股的行情数据。经过统计分析发现上市新股自上市后30个交易日内具有不同于其他股票的波动性。通过单因子测试发现总股本、总市值、换手率、市盈率、市净率、市销率等因子与新股上市后30个交易日的涨跌具有显著关系。通过建立SVM以及GBDT模型对上市新股进行预测,GBDT的预测AUC达到0.91,SVM的预测AUC达到0.77,均具有一定的预测能力,而GBDT的预测能力优于SVM模型。基于统计分析以及建模分析,构建了三组交易策略,包括短线回调交易策略、次新股多因子交易策略以及机器学习短线交易策略。短线回调交易策略的收益为423.9%,具有较好的效果。而基于次新股因子的交易策略收益率为14.7%,为对比多因子的效果,对单个因子的盈利能力进行了测试,发现如果单独使用独立因子进行选股,效果都相对较差,而使用多因子模型进行综合选股,在年化收益上有近15个百分点的提升。在基于机器学习的短息交易策略中,分别使用SVM以及GBDT进行决策。基于SVM的交易策略收益率为121.36%,但是资金收益曲线波动较大,最大回撤有35.6%。而基于GBDT的交易策略资金曲线平滑,收益率为128.7%,最大回撤为9.8%,对比基于SVM的交易策略收益上提高了7个百分点,而最大回撤降低了近26个百分点。本文通过对A股市场2010年以后的上市股票数据进行建模分析及实证回测后,结果表明GBDT及SVM模型对次新股具有一定的预测能力,回测的收益较为稳定。本文的方法为进一步构建量化策略提供了思路。
【图文】:

原理图,机器学习,原理图


2.3 机器学习介绍机器学习是在历史数据中寻找规律,用于对新数据的预测。机器学习的逻辑框架如图2-1所示,可以看到:假设G会产一系列的独立同分布样本(x1,y1),(x2,y2)…….(xn,yn),具有 F(y|x)的联合分布。定义式(2-4)的损失函数函数[48]:R( ) ( ( )) ( ) (式 2-4)机器学习目的是在这些样本中寻找某个最优的函数 f(x,v),该函数可以使得(2-4)的值最小。V 代表了广义的参数,, ( ( ))是预测误差又被称为损失函数,该函数根据具体的应用问题不同而不同。在分类问题中,如果学习函数的预测类别同真实类别不一致,则可以认为在该样本上,学习器错误。

曲线,线性可分,类别,问题


图 2-2 完全线性可分问题-2 所示,实心点与空心点分别代表不同的类别,比如 y=1 代表空心点。在平面上可以找到直线 L 对这些点做划分,则可以看做是 1,在 y 线以下可以看作是 0。而在一个平面条这种曲线,比如和 L 平行的直线 L1、L2。而确定使用哪便是寻找最优分类的问题。认为如果存在一条直线与 L 平行同时又使得 L1 和 L2 之间该直线便被认为是最优的分类直线,L1 和 L2 之间的距离,该距离越大,学习器的泛化能力越强。同理类推,在多的分类平面就是使得分类距离达到最大的平面。而支持向被最优分类平面对应的平面所经过的样本点,比如在图 经过的点。-2 的二维平面的分类问题中,决策函数是寻找能够划分样本,如下所示:
【学位授予单位】:西南财经大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F832.51;F224

【相似文献】

相关期刊论文 前10条

1 赵金涛;邱雪涛;何东杰;;基于GBDT的线上交易欺诈侦测研究[J];微型电脑应用;2017年10期

2 苏兴华;孙俊明;高翔;王敏;;基于GBDT算法的钻井机械钻速预测方法研究[J];计算机应用与软件;2019年12期

3 张重生;彭国雯;于珂珂;;基于GBDT和HOG特征的人脸关键点定位[J];河南大学学报(自然科学版);2018年02期

4 张洋;叶月;张宗翔;佘芳;陈析宇;;基于GBDT的学术会议替代计量学评价模型研究[J];情报学报;2019年11期

5 王立平;邓芳明;;基于小波包和GBDT的瓦斯传感器故障诊断[J];测控技术;2016年12期

6 王洪伟;孟园;;在线评论质量有用特征识别:基于GBDT特征贡献度方法[J];中文信息学报;2017年03期

7 郑凯文;杨超;;基于迭代决策树(GBDT)短期负荷预测研究[J];贵州电力技术;2017年02期

8 舒畅;李辉;;基于小波与GBDT的无人机传感器故障诊断[J];测控技术;2017年08期

9 王黎;廖闻剑;;基于GBDT的个人信用评估方法[J];电子设计工程;2017年15期

10 龚谊承;都承华;张艳娜;余力;;基于主成分和GBDT对血糖值的预测[J];数学的实践与认识;2019年14期

相关硕士学位论文 前10条

1 兰筱莉;基于GBDT等机器学习算法的新股量化策略研究[D];西南财经大学;2018年

2 张艳娜;互联网金融中基于GBDT的三类信用风险度量及其驱动的海萨尼转换[D];武汉科技大学;2019年

3 张潇;基于改进的GBDT的量化投资模型[D];广西大学;2018年

4 陈子之;基于GBDT的地方政府债务风险评级和预警研究[D];上海师范大学;2017年

5 王天华;基于改进的GBDT算法的乘客出行预测研究[D];大连理工大学;2016年

6 孙万龙;基于GBDT的社区问题标签推荐技术研究[D];哈尔滨工业大学;2015年

7 马姝;基于数据挖掘的消费者购买预测的研究[D];云南财经大学;2016年

8 连克强;基于Boosting的集成树算法研究与分析[D];中国地质大学(北京);2018年

9 赵中祥;显微视频细胞分割与跟踪方法研究[D];哈尔滨工业大学;2016年

10 李子玉;基于数据驱动的机场航站楼离港旅客托运行李需求预测研究[D];北京交通大学;2018年



本文编号:2604137

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/2604137.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c4cc1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com