不均衡数据在股票研报分类中的应用
发布时间:2018-01-02 03:16
本文关键词:不均衡数据在股票研报分类中的应用 出处:《计算机应用研究》2017年03期 论文类型:期刊论文
更多相关文章: 不均衡数据 股票研报 CHI统计 SVM算法 层次欠采样
【摘要】:股票研报是由金融行业分析师对股票相关新闻作出的分析和评价,它从专业角度分析此类新闻是否会对某股票的未来走势产生影响,并提出专业投资建议,往往比论坛分析更具权威性。然而,各类别研报数量之间的严重不均衡性致使常规的SVM分类效果较差。为提高分类效果,提出一种新的不均衡数据分类方法。在文本特征项选择方面采用组合特征思想以选择更具语义信息的特征短语,并改进CHI统计以提高对少数类样本特征项的选择,然后设计一个基于SVM聚类的边界自适应层次欠采样算法对多数类样本进行层次欠采样。实验结果表明,该方法能够在不影响多数类分类的基础上对少数类的分类效果有较为明显的提升。
[Abstract]:Stock Research News is an analysis and evaluation of stock related news made by financial industry analysts. It analyzes whether such news will have an impact on the future trend of a certain stock from a professional point of view and puts forward professional investment suggestions. Often more authoritative than the analysis of the forum. However, the serious imbalance between the number of the various categories of research results in the poor performance of the conventional SVM classification, in order to improve the effectiveness of classification. In this paper, a new method of unbalance data classification is proposed. In the selection of text feature items, the idea of combining features is adopted to select feature phrases with more semantic information. And improve the CHI statistics to improve the selection of a small number of sample feature items. Then a boundary adaptive hierarchical under-sampling algorithm based on SVM clustering is designed to perform hierarchical under-sampling for most samples. This method can improve the classification effect of a few classes without affecting the classification of most classes.
【作者单位】: 武汉大学计算机学院;
【基金】:国家自然科学基金青年项目(164659)
【分类号】:F832.51;TP311.13
【正文快照】: 0引言股票市场是金融领域的重要组成部分,在现代市场经济中具有举足轻重的地位。一方面,随着国家对股票市场管理建设力度的加强,并实施一系列促进股票市场发展的相关政策后,越来越多的股民关注股票价格的走势并参与股票投资。另一方面,随着社交网络的快速发展,网络信息量急剧
【参考文献】
相关期刊论文 前3条
1 姜杨;闫相斌;;基于议程设置的新闻媒体报道对上市公司股票收益影响的实证研究[J];金融理论与实践;2015年06期
2 彭敏;汪清;黄济民;周李;胡鑫汇;;基于情感分析技术的股票研究报告分类[J];武汉大学学报(理学版);2015年02期
3 陶新民;张冬雪;郝思媛;付丹丹;;基于谱聚类欠取样的不均衡数据SVM分类算法[J];控制与决策;2012年12期
【共引文献】
相关期刊论文 前10条
1 朱琳琳;徐健;;网络评论情感分析关键技术及应用研究[J];情报理论与实践;2017年01期
2 毛文涛;田杨阳;王金婉;何玲;;面向贯序不均衡分类的粒度极限学习机[J];控制与决策;2016年12期
3 熊邦书;刘雨;莫燕;黄建萍;李新民;;基于SVM的直升机飞行状态识别[J];应用科学学报;2016年04期
4 杜红乐;张燕;;密度不均衡数据分类算法[J];西华大学学报(自然科学版);2015年05期
5 李新华;赵娟;袁振宇;王晨e,
本文编号:1367429
本文链接:https://www.wllwen.com/jingjilunwen/huobiyinxinglunwen/1367429.html