基于集成学习的高送转股票研究
本文关键词: 高送转 集成学习 非平衡数据 投资组合 出处:《时代金融》2016年36期 论文类型:期刊论文
【摘要】:高送转预案公告发布前,高送转股票具有显著的累计正收益,因此预测高送转股票对于投资具有重要意义。高送转股票的预测是分类预测问题,本文利用上市公司三季度财报数据,采用3种集成学习算法:由K-近邻算法、决策树以及加lasso惩罚项的逻辑斯蒂回归算法构建预测模型——"组合"模型,经典的集成学习算法——Ada Boost算法以及随机森林算法进行建模。本文采用准确率以及G-mean作为模型评价标准,结果显示:"组合"模型的准确率最高,随机森林和"组合"模型的G-mean表现相当,均优于adaboost算法。由于每年高送转股票所占比例小于50%,数据可以看成是非平衡数据,为了改善"组合"模型较差的召回率,本文采用K-Means聚类的欠抽样方法,将此方法用在"组合"模型上,效果显著。最后分别对上面三种模型预测的股票构建投资组合,并以HS300指数做基准。结果显示:"组合"模型预测得到的高送转股票组合表现优于另外两种集成学习模型。
[Abstract]:Before the announcement of the high transmission plan announcement, the high transmission stock has significant accumulative positive income, so it is important to forecast the high transmission stock for investment. The forecast of the high transmission stock is the problem of classification forecast. In this paper, we use three integrated learning algorithms based on the third-quarter data of listed companies: the K-nearest neighbor algorithm. The decision tree and the logistic regression algorithm with lasso penalty term are used to construct the prediction model-" combination "model. The classical ensemble learning algorithm, Ada Boost algorithm and random forest algorithm, are modeled. In this paper, the accuracy and G-mean are used as the model evaluation criteria. The results showed that the accuracy of the "combination" model was the highest, and the G-mean performance of the random forest model and the "combined" model was the same. The data can be regarded as unbalanced data, in order to improve the poor recall rate of the "combination" model. In this paper, the K-Means clustering method of under-sampling is used in the "combination" model, and the effect is remarkable. Finally, the portfolio of stocks predicted by the above three models is constructed. The results show that the performance of the "portfolio" model is better than the other two integrated learning models.
【作者单位】: 华南理工大学数学学院;
【分类号】:F832.51
【正文快照】: 一、引言 所谓“高送转股票”是指上市公司大比例送红股或大比例以资本公积金转增股票,市场送转股比例超过0.5的股票为“高送转股票”。虽然上市公司送股、转增股票及不影响其当期现金流,也不影响其未来现金流,从而这种分红并不影响公司价值,但高送转事件向市场传递了公司发
【相似文献】
相关会议论文 前4条
1 关菁华;刘大有;贾海洋;;自适应多分类器集成学习算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
相关博士学位论文 前10条
1 阿里木·赛买提(Alim.Samat);基于集成学习的全极化SAR图像分类研究[D];南京大学;2015年
2 王永明;集成回归问题若干关键技术研究[D];华东师范大学;2015年
3 常征;基于混合集成学习的眼部与四肢交互动作建模与识别[D];北京科技大学;2016年
4 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
5 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
6 尹华;面向高维和不平衡数据分类的集成学习研究[D];武汉大学;2012年
7 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
8 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
9 侯勇;特征提取与集成学习算法的研究及应用[D];北京科技大学;2015年
10 李烨;基于支持向量机的集成学习研究[D];上海交通大学;2007年
相关硕士学位论文 前10条
1 高伟;基于半监督集成学习的情感分类方法研究[D];苏州大学;2015年
2 宋文展;基于抽样的集成进化算法研究[D];广西大学;2015年
3 汤莹;迁移与集成学习在文本分类中的应用研究[D];江苏科技大学;2015年
4 刘政;基于知识元和集成学习的中文微博情感分析[D];大连理工大学;2015年
5 丘桥云;结合文本倾向性分析的股评可信度计算研究[D];哈尔滨工业大学;2014年
6 秦海;融合非标记样本选择的集成学习研究[D];湘潭大学;2015年
7 李想;基于多示例的集成学习理论与应用研究[D];合肥工业大学;2014年
8 李震宇;基于集成学习的数字图像隐写定量分析[D];解放军信息工程大学;2014年
9 王希玲;基于选择性集成学习的网络入侵检测方法研究[D];青岛科技大学;2016年
10 陈范曙;基于信息整合的药物相关信息挖掘方法研究[D];华东师范大学;2016年
,本文编号:1448863
本文链接:https://www.wllwen.com/jingjilunwen/jinrongzhengquanlunwen/1448863.html