SCAD-FLR模型研究及应用

发布时间：2021-04-06 11:42

　　Firth Logistic模型最早是由D.Firth于1993年提出的,旨在解决极大似然估计产生的偏差问题。极大似然估计方法是Logistic模型估计系数的经典方法,但是估计存在渐近偏差,尤其在小样本的情况下。Logistic模型的似然函数加上基于信息矩阵的惩罚项,得到Firth Logistic模型,可以达到“事前”预防偏差产生的目的。自Firth Logistic模型提出至今,有两种主流应用,其一,存在稀少事件的场景下Logistic模型估计的系数偏差很大,往往会低估事件发生的概率;其二,数据存在分离的场景下,最常见的警告是估计概率至少有一个趋向于0或者1,甚至会出现似然函数呈现单调性,导致算法不收敛或即使达到了迭代次数,返回估计值,也可能会存在某些估计系数趋于无穷的情况,此时的系数估计不再可信。Firth Logistic模型可以有效应对稀少事件或分离数据,并且总是可以得到有限的系数估计。本文首先通过数值模拟,探索发现小样本或稀少事件才是致使Logistic模型失效的原因,而非样本比例或样本的不平衡程度。同时,模拟完全分离和拟完全分离两种特征的数据,证明Firth Logist...

【文章来源】：厦门大学福建省 211工程院校 985工程院校教育部直属院校

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

SCAD-FLR模型研究及应用

图２－２?Ｌｏｇｉｓｔｉｃ模型的这３估计情况分布图??同样的情况下，Ｆｉｒｔｈ?Ｌｏｇｉｓｔｉｃ也会出现偏差，但是估计值相对稳定很多

分布图,样本量,估计值,偏差

１００?２００?３００?５０Ｑ?８００?１０００?３０００?５０００?１００００??样本量??图２－２?Ｌｏｇｉｓｔｉｃ模型的这３估计情况分布图??同样的情况下，Ｆｉｒｔｈ?Ｌｏｇｉｓｔｉｃ也会出现偏差，但是估计值相对稳定很多。最大??的偏差（只有一个）也控制在１５左右，其他情况都不会超过１０。??〇??１０?＿??域?Ｔ—?＿?〇??￥?：?〇??｜?〇?§?Ｏ?０??１－?－Ｌ?－Ｌ?Ｘ?Ｘ?＾?ｘ??：?，￣￣！￣￣，?，￣￣：￣￣，?，＿：＿，?，＿＿！＿，?￣Ｔ?－９－??白早早ｆＴ?＾??。－?丄十卞??°?〇??〇??Ｉ?Ｉ?Ｉ?Ｉ?Ｉ?Ｉ?Ｉ?Ｉ?Ｉ??１００?２００?３００?５００?８００?１０００?３０００?５０００?１００００??样本量??图２－３?Ｆｉｒｔｈ?Ｌｏｇｉｓｔｉｃ模型的／？?３估计情况分布图??因为在样本量低于５００时，一般Ｌｏｇｉｓｔｉｃ回归的估计值偏差极大，即使将两种??估计值放在同一张图中，也只能看到一条直线，无法直观感知其中的差异。所以剔??除这３中样本量的情况

分布图,平衡样本,分布图,样本

图２－４?Ａ估计情况的对比分布图??由此，可以看出，在样本量不超过１０００时，两种方法估计效果的差异还比较明??

【参考文献】：
期刊论文
[1]Variable Selection for Structural Equation with Endogeneity[J]. FAN Qingliang,ZHONG Wei.  Journal of Systems Science & Complexity. 2018(03)
[2]Logistic模型对非平衡数据的敏感性:测度、修正与比较[J]. 魏瑾瑞,吕晓云.  统计研究. 2016(02)
[3]在SDSS DR8恒星光谱中自动搜寻稀有天体[J]. 司建敏,罗阿理,吴福朝,吴毅红.  光谱学与光谱分析. 2015(03)
[4]一种针对稀有类支持向量机的新算法[J]. 徐凤芳,高卫国.  复旦学报(自然科学版). 2013(02)
[5]稀有事件logistic回归在医学研究中的应用[J]. 赵晋芳,罗天娥,范月玲,曾平,仇丽霞,刘桂芬.  中国卫生统计. 2011(06)

本文编号：3121369

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/3121369.html

上一篇：中国“四化”协调发展格局及其影响因素研究——基于农业现代化视角
下一篇：基于混合免疫遗传算法的半在线三维装箱问题研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|