SCAD-FLR模型研究及应用
发布时间:2021-04-06 11:42
Firth Logistic模型最早是由D.Firth于1993年提出的,旨在解决极大似然估计产生的偏差问题。极大似然估计方法是Logistic模型估计系数的经典方法,但是估计存在渐近偏差,尤其在小样本的情况下。Logistic模型的似然函数加上基于信息矩阵的惩罚项,得到Firth Logistic模型,可以达到“事前”预防偏差产生的目的。自Firth Logistic模型提出至今,有两种主流应用,其一,存在稀少事件的场景下Logistic模型估计的系数偏差很大,往往会低估事件发生的概率;其二,数据存在分离的场景下,最常见的警告是估计概率至少有一个趋向于0或者1,甚至会出现似然函数呈现单调性,导致算法不收敛或即使达到了迭代次数,返回估计值,也可能会存在某些估计系数趋于无穷的情况,此时的系数估计不再可信。Firth Logistic模型可以有效应对稀少事件或分离数据,并且总是可以得到有限的系数估计。本文首先通过数值模拟,探索发现小样本或稀少事件才是致使Logistic模型失效的原因,而非样本比例或样本的不平衡程度。同时,模拟完全分离和拟完全分离两种特征的数据,证明Firth Logist...
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-2?Logistic模型的这3估计情况分布图??同样的情况下,Firth?Logistic也会出现偏差,但是估计值相对稳定很多
100?200?300?50Q?800?1000?3000?5000?10000??样本量??图2-2?Logistic模型的这3估计情况分布图??同样的情况下,Firth?Logistic也会出现偏差,但是估计值相对稳定很多。最大??的偏差(只有一个)也控制在15左右,其他情况都不会超过10。??〇??10?_??域?T—?_?〇??¥?:?〇??|?〇?§?O?0??1-?-L?-L?X?X?^?x??:?, ̄ ̄! ̄ ̄,?, ̄ ̄: ̄ ̄,?,_:_,?,__!_,? ̄T?-9-??白早早fT?^??。-?丄十卞??°?〇??〇??I?I?I?I?I?I?I?I?I??100?200?300?500?800?1000?3000?5000?10000??样本量??图2-3?Firth?Logistic模型的/??3估计情况分布图??因为在样本量低于500时,一般Logistic回归的估计值偏差极大,即使将两种??估计值放在同一张图中,也只能看到一条直线,无法直观感知其中的差异。所以剔??除这3中样本量的情况
图2-4?A估计情况的对比分布图??由此,可以看出,在样本量不超过1000时,两种方法估计效果的差异还比较明??
【参考文献】:
期刊论文
[1]Variable Selection for Structural Equation with Endogeneity[J]. FAN Qingliang,ZHONG Wei. Journal of Systems Science & Complexity. 2018(03)
[2]Logistic模型对非平衡数据的敏感性:测度、修正与比较[J]. 魏瑾瑞,吕晓云. 统计研究. 2016(02)
[3]在SDSS DR8恒星光谱中自动搜寻稀有天体[J]. 司建敏,罗阿理,吴福朝,吴毅红. 光谱学与光谱分析. 2015(03)
[4]一种针对稀有类支持向量机的新算法[J]. 徐凤芳,高卫国. 复旦学报(自然科学版). 2013(02)
[5]稀有事件logistic回归在医学研究中的应用[J]. 赵晋芳,罗天娥,范月玲,曾平,仇丽霞,刘桂芬. 中国卫生统计. 2011(06)
本文编号:3121369
【文章来源】:厦门大学福建省 211工程院校 985工程院校 教育部直属院校
【文章页数】:72 页
【学位级别】:硕士
【部分图文】:
图2-2?Logistic模型的这3估计情况分布图??同样的情况下,Firth?Logistic也会出现偏差,但是估计值相对稳定很多
100?200?300?50Q?800?1000?3000?5000?10000??样本量??图2-2?Logistic模型的这3估计情况分布图??同样的情况下,Firth?Logistic也会出现偏差,但是估计值相对稳定很多。最大??的偏差(只有一个)也控制在15左右,其他情况都不会超过10。??〇??10?_??域?T—?_?〇??¥?:?〇??|?〇?§?O?0??1-?-L?-L?X?X?^?x??:?, ̄ ̄! ̄ ̄,?, ̄ ̄: ̄ ̄,?,_:_,?,__!_,? ̄T?-9-??白早早fT?^??。-?丄十卞??°?〇??〇??I?I?I?I?I?I?I?I?I??100?200?300?500?800?1000?3000?5000?10000??样本量??图2-3?Firth?Logistic模型的/??3估计情况分布图??因为在样本量低于500时,一般Logistic回归的估计值偏差极大,即使将两种??估计值放在同一张图中,也只能看到一条直线,无法直观感知其中的差异。所以剔??除这3中样本量的情况
图2-4?A估计情况的对比分布图??由此,可以看出,在样本量不超过1000时,两种方法估计效果的差异还比较明??
【参考文献】:
期刊论文
[1]Variable Selection for Structural Equation with Endogeneity[J]. FAN Qingliang,ZHONG Wei. Journal of Systems Science & Complexity. 2018(03)
[2]Logistic模型对非平衡数据的敏感性:测度、修正与比较[J]. 魏瑾瑞,吕晓云. 统计研究. 2016(02)
[3]在SDSS DR8恒星光谱中自动搜寻稀有天体[J]. 司建敏,罗阿理,吴福朝,吴毅红. 光谱学与光谱分析. 2015(03)
[4]一种针对稀有类支持向量机的新算法[J]. 徐凤芳,高卫国. 复旦学报(自然科学版). 2013(02)
[5]稀有事件logistic回归在医学研究中的应用[J]. 赵晋芳,罗天娥,范月玲,曾平,仇丽霞,刘桂芬. 中国卫生统计. 2011(06)
本文编号:3121369
本文链接:https://www.wllwen.com/jingjilunwen/jingjiguanlilunwen/3121369.html