基于聚类算法对上市公司财务风险甄别的研究
发布时间:2020-10-30 09:39
中国证券市场经过三十年的发展,为我国企业提供了稳定的融资渠道,保障了股权改革的顺利进行,同时也为广大投资者提供了交易场所,吸引了大量的社会资金,为中国经济改革提供了润滑剂。随着股票市场规模不断扩大,上市公司不断增多,市场参与者的结构也逐渐呈现出多元化的趋势。然而,在经过了股市几轮起伏之后,不少投资者遭受亏损,这使得他们不得不开始关注股市的风险。为进一步促进金融市场良性发展,证券交易所在退市制度的基础上,出台了“风险警示”制度,并定期向投资人公布存在退市风险和其他财务风险的企业。因为交易所会在财务异常公司的名称前加上“ST”,即“特别处理”的英文缩写,所以“风险警示”制度一般也被公众称为“特别处理”制度。“特别处理”制度作为交易所管理上市公司风险的工具,一直都是学者关注的重点。前人文献对财务风险的研究多立足于财务指标的有监督模型,其优点在于直观且有效。其中,利用Logistic模型进行二元回归是最常见的做法。但是,现实中上市公司风险爆发的事件较少,有监督模型存在欠采样与过拟合的问题。同时,基于“风险警示”的单一事件,有监督学习模型在甄别财务风险时,存在数据不平衡的问题。近年来,越来越多的学者开始利用无监督模型来研究金融领域的问题。其中,除了最常见的主成分分析法之外,聚类算法也逐渐进入学者们的视野。聚类算法并不对数据进行严格的二元判别,而是通过数据的内部结构来给样本分组。无监督聚类算法的这个特点在研究财务风险问题时具有独特的优势,因为国内上市公司的财务风险数据存在不平衡的问题,而传统的有监督模型难以通过大样本的学习来建立风险判别模型。由于数据不足,有监督模型的训练通常基于人为筛选后的平衡数据集,这种训练方式会影响模型在现实世界中的适用性。本文分析了传统财务风险模型的优点和不足之处,结合2007年至2018年中国A股上市公司年度财务数据以及2008年至2019年的“特别处理”事件的公示数据,使用了K均值聚类算法与高斯混合聚类算法来对上市公司的财务风险进行甄别,并构建了高风险簇,把同类型的高风险公司从其他公司里区分出来。本文的模型构建和训练过程主要由以下两个部分组成。第一部分是K均值聚类算法对风险的甄别过程。首先,使用27个初始财务指标,从“特别处理”公司的财务数据中发掘特征,并以欧几里得距离作为度量风险公司相似性的标准,为K均值聚类算法筛选合适的特征变量。具体做法是通过排列组合,用27个指标构成若干个变量组合,每个组合的变量数最多为6个,再分别计算每个组合的欧氏距离,距离最短的组合为最优组合。然后,利用主成分分析法把数据降至二维,再进行两次K均值聚类分析,形成若干个簇,并把含有最多“特别处理”公司的簇标记为高风险簇。最后,通过召回率、精确率来评估K均值聚类算法对公司财务风险的甄别效果。第二部分是高斯混合聚类算法对风险的甄别过程。首先,利用高斯混合模型的簇去预测“特别处理”事件,并用F1分数作为筛选最优财务组合的标准。具体做法是分别把指标个数设置为2和3,再通过排列组合的方式筛选出~2_(27)+~3_(27)个财务变量组合。之后,用这些变量去预测次年的“特别处理”事件,再从F1分数最高的组合中筛选最优组合。最后,继续利用召回率和精确率来评估高斯混合模型对上市企业财务风险的甄别效果。本文主要得出以下主要结论:第一,在对“特别处理”公司财务数据进行挖掘后发现,若以距离来度量相似性,有形资产比率、现金资产比率、流动负债比率、非流动负债比率等资产结构的指标更能表示风险公司的共性,这与前人的研究略有不同;第二,由无监督聚类形成的高风险簇能够很好地体现风险的特征,簇内许多公司会于此后陆续出现“风险警示”事件,投资人应谨慎对待被划入高风险簇的公司;第三,以“特别处理”事件评估高斯混合模型的分类效果,其召回率和准确率在报表公示后的一年内分别为58.8%和38.5%,都显著高于K均值聚类模型的簇。
【学位单位】:江西财经大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:F832.51;F275
【部分图文】:
基于聚类算法对上市公司财务风险甄别的研究6进行优化,所以它对数据的拟合和预测也更精确。基于这个特点,机器学习算法非常适用于金融领域的研究。本文采用无监督分类算法对上市公司财务风险进行研究,具有启发性。首先,“特别处理”制度主要考量了上市公司盈利能力、股权结构、信息披露状况及法律风险,其中后两个方面具有随机性,难以通过财务指标事前预测。而至于前两个方面,监督机构能够通过公司的财务状况进行判断。然而,如果考察的指标趋于单一,那么该制度也会趋于僵化,这是该制度的一个缺点,因为上市公司能够采取各种方式使自己不满足“带帽”的条件。图1.1为中国A股市场2016年度及2017年度的净资产收益率(ROE)直方图,图中ROE在零点处有一个巨大的跳跃,这说明虽然大多数上市公司没有出现亏损,但是它们的盈利状况也不容乐观。这种争取微利的现象在世界上都很常见,但数据表明国内的上市公司“操纵”盈利的行为更为普遍,绝大多数企业对“亏损”二字避之不及。在国内A股市场中,有相当一部分的公司采用了盈余管理的手段来保持盈利,其目的是使自己不被列入“特别处理”的名单,这与前人研究结果一致。图1.1上市公司净资产收益率直方图其次,如果“特别处理”制度不足以向投资人警示上市公司的风险状况,那么我们能不能对现有的“特别处理”公司的财务数据进行挖掘,从而发现高财务风险公司的共性,为投资人提供其他的判断依据?我们假设被冠以“特别处理”的上市公司为确凿的高风险公司,而“特别处理”制度考虑的指标又不甚完美,那么必然有高风险公司侥幸逃脱惩罚,继续伪装为正常公司。在未来,可能只有偶发的负面事件才会把这些公司的风险彻底暴露出来。
2两种机器学习聚类的概述11(1)建立平面直角坐标系,把2项财务指标作为横纵坐标,绘制样本企业的散点图;(2)随机选取2个样本作为初始的质心,分别用不同颜色表示;(3)依据样本点到两个质心的距离,我们可以把样本分为A类和B类;(4)计算A类和B类企业的2项财务指标的平均值,得到和,以及和,并把结果作为新的质心;(5)不断重复流程(3)~(4),质心会逐步移动到各自群组的中心位置。图2.1K均值聚类算法的结果示意图经过以上过程,我们得以把样本企业分为下方的A类和上方的B类。如图2.1,与分别为标准化后的现金资产比率和流动负债比率。在后期比较了两类的财务状况后,我们可以发现B类公司的平均财务表现要优于A类公司。但是,K均值算法也存在一些不足。首先,使用欧氏距离作为优化标准的前提假设是聚类满足“凸性”(convex)和“各向同性”(isotropy)。如果样本数据在多维空间显示出长条形或其他不规则的复杂形状,那么K均值聚类可能并不适用。其次,K均值聚类存在“维度诅咒”现象。在维度给定的情况下,数值越低表示距离越近,数值越高表示距离远,但是在维度未知的情况下,欧氏距离也质心BX质心A
基于聚类算法对上市公司财务风险甄别的研究16图2.2P-R曲线示意图但是如果一条曲线无法包住另一曲线(如曲线A与曲线C),那么我们无法通过召回率与精确率直接判断模型的优劣。在这种情况下,我们通常可以引入一个综合指标。如图2.2所示,从原点出发的虚线与曲线相交,箭头所示的交点的位置就是综合考虑召回率与准确率的平衡点,该点可以用来判断模型优劣。基于这种思路,我们下面引入常用的F1分数指标,即二者的调和平均。1=2××+=2×2++(2.13)其一般型为如式(2.14)所示。=(1+2)××(2×)+(2.14)表示对召回率与精确率的偏好。当>1时,召回率对分数影响更大;当<1时,精确率对分数影响更大;当=1时,召回率与精确率对分数的影响一样。F1分数指标对召回率与精确率一视同仁,而本文的聚类分析对这两种指标没有特别的倾向,所以我们在下文里一律采用在研究中更为常用的F1分数指标。
【参考文献】
本文编号:2862296
【学位单位】:江西财经大学
【学位级别】:硕士
【学位年份】:2020
【中图分类】:F832.51;F275
【部分图文】:
基于聚类算法对上市公司财务风险甄别的研究6进行优化,所以它对数据的拟合和预测也更精确。基于这个特点,机器学习算法非常适用于金融领域的研究。本文采用无监督分类算法对上市公司财务风险进行研究,具有启发性。首先,“特别处理”制度主要考量了上市公司盈利能力、股权结构、信息披露状况及法律风险,其中后两个方面具有随机性,难以通过财务指标事前预测。而至于前两个方面,监督机构能够通过公司的财务状况进行判断。然而,如果考察的指标趋于单一,那么该制度也会趋于僵化,这是该制度的一个缺点,因为上市公司能够采取各种方式使自己不满足“带帽”的条件。图1.1为中国A股市场2016年度及2017年度的净资产收益率(ROE)直方图,图中ROE在零点处有一个巨大的跳跃,这说明虽然大多数上市公司没有出现亏损,但是它们的盈利状况也不容乐观。这种争取微利的现象在世界上都很常见,但数据表明国内的上市公司“操纵”盈利的行为更为普遍,绝大多数企业对“亏损”二字避之不及。在国内A股市场中,有相当一部分的公司采用了盈余管理的手段来保持盈利,其目的是使自己不被列入“特别处理”的名单,这与前人研究结果一致。图1.1上市公司净资产收益率直方图其次,如果“特别处理”制度不足以向投资人警示上市公司的风险状况,那么我们能不能对现有的“特别处理”公司的财务数据进行挖掘,从而发现高财务风险公司的共性,为投资人提供其他的判断依据?我们假设被冠以“特别处理”的上市公司为确凿的高风险公司,而“特别处理”制度考虑的指标又不甚完美,那么必然有高风险公司侥幸逃脱惩罚,继续伪装为正常公司。在未来,可能只有偶发的负面事件才会把这些公司的风险彻底暴露出来。
2两种机器学习聚类的概述11(1)建立平面直角坐标系,把2项财务指标作为横纵坐标,绘制样本企业的散点图;(2)随机选取2个样本作为初始的质心,分别用不同颜色表示;(3)依据样本点到两个质心的距离,我们可以把样本分为A类和B类;(4)计算A类和B类企业的2项财务指标的平均值,得到和,以及和,并把结果作为新的质心;(5)不断重复流程(3)~(4),质心会逐步移动到各自群组的中心位置。图2.1K均值聚类算法的结果示意图经过以上过程,我们得以把样本企业分为下方的A类和上方的B类。如图2.1,与分别为标准化后的现金资产比率和流动负债比率。在后期比较了两类的财务状况后,我们可以发现B类公司的平均财务表现要优于A类公司。但是,K均值算法也存在一些不足。首先,使用欧氏距离作为优化标准的前提假设是聚类满足“凸性”(convex)和“各向同性”(isotropy)。如果样本数据在多维空间显示出长条形或其他不规则的复杂形状,那么K均值聚类可能并不适用。其次,K均值聚类存在“维度诅咒”现象。在维度给定的情况下,数值越低表示距离越近,数值越高表示距离远,但是在维度未知的情况下,欧氏距离也质心BX质心A
基于聚类算法对上市公司财务风险甄别的研究16图2.2P-R曲线示意图但是如果一条曲线无法包住另一曲线(如曲线A与曲线C),那么我们无法通过召回率与精确率直接判断模型的优劣。在这种情况下,我们通常可以引入一个综合指标。如图2.2所示,从原点出发的虚线与曲线相交,箭头所示的交点的位置就是综合考虑召回率与准确率的平衡点,该点可以用来判断模型优劣。基于这种思路,我们下面引入常用的F1分数指标,即二者的调和平均。1=2××+=2×2++(2.13)其一般型为如式(2.14)所示。=(1+2)××(2×)+(2.14)表示对召回率与精确率的偏好。当>1时,召回率对分数影响更大;当<1时,精确率对分数影响更大;当=1时,召回率与精确率对分数的影响一样。F1分数指标对召回率与精确率一视同仁,而本文的聚类分析对这两种指标没有特别的倾向,所以我们在下文里一律采用在研究中更为常用的F1分数指标。
【参考文献】
相关期刊论文 前10条
1 金永红;韩立岩;陆星忠;;ST公司主动戴帽和市场操纵行为研究[J];管理科学;2015年04期
2 张海燕;陈晓;;投资者是理性的吗?——基于ST公司交易特性和价值的分析[J];金融研究;2008年01期
3 岳衡;陈溪;赵龙凯;;有限记忆与盈余数据的异常分布[J];金融研究;2007年11期
4 刘京军;秦宛顺;;上市公司陷入财务困境可能性研究[J];金融研究;2006年11期
5 杨宏峰;陈蔚;;基于神经网络——Logit回归的混合两阶段财务困境预测模型[J];统计与决策;2006年20期
6 刘京军;;ST制度能否作为一种选择机制吗?[J];南方经济;2006年05期
7 胡援成;田满文;;上市公司财务困境预测模型的再比较[J];经济学(季刊);2005年S1期
8 姜国华,王汉生;上市公司连续两年亏损就应该被“ST”吗?[J];经济研究;2005年03期
9 姜国华,王汉生;财务报表分析与上市公司ST预测的研究[J];审计研究;2004年06期
10 蔡红艳,韩立岩;上市公司财务状况判定模型研究[J];审计研究;2003年01期
相关硕士学位论文 前3条
1 杨成荣;基于支持向量机-R型聚类的上市公司被特别处理的预警研究[D];内蒙古农业大学;2019年
2 赵楠;商业银行个人信用风险评估模型研究[D];江西理工大学;2019年
3 李智林;基于混合模型的非均衡数据分类研究[D];南京邮电大学;2018年
本文编号:2862296
本文链接:https://www.wllwen.com/shoufeilunwen/jjglss/2862296.html