当前位置:主页 > 社科论文 > 社会学论文 >

高维分类问题的Logistic回归惩罚经验似然方法

发布时间:2017-09-09 12:41

  本文关键词:高维分类问题的Logistic回归惩罚经验似然方法


  更多相关文章: 分类问题 高维数据 Logistic回归模型 惩罚经验似然 SCAD


【摘要】:随着互联网和信息产业的快速发展、全球经济一体化格局的形成,以及中国经济的持续深入发展,全球数据量及数据维数出现爆炸式增长,人类社会进入大数据时代。大数据对经济社会的发展产生越来越广泛而深入的影响,成为现代经济活力的一个重要生产要素。在大数据背景下,高维数据扮演着重要角色,其广泛存在于社会各领域,尤其是基因组学、遥感图像处理、地理信息数据处理等领域。数据维数的增加,使得空间数据点变得更加孤立,参数空间的全局优化越来越困难,原始数据结构更复杂、隐蔽性更强,给统计推断带来维数灾祸。在这种情形下,区分有用的信息和无用的“垃圾”逐渐成为一大难题。为了筛选出有用信息,首先需要对所有信息进行分类。因此,高维数据的分类问题成为科学研究的一个重要问题,其具有重要的理论意义和广泛的应用价值,且极富挑战性。 对分类问题的研究可从统计分析与机器学习两个领域分别进行分析,常用的分类方法包括线性判别分析、Fisher判别分析、K最近邻分类、神经网络、支持向量机方法等。上述分类方法都是基于数据本身的,没有考虑数据的结构。Logistic回归模型分类方法是统计分析领域基于具体模型的分类方法,其在解决分类问题上非常有效。与其它分类方法相比有很多优点:一方面,与数据驱动的分类方法相比,该方法除了可以得到观测数据属于每一类别的概率,还能够对结果进行解释,得到类别的影响因素;另一方面,与其它线性模型分类方法相比,该方法不需要任何关于样本的先验知识和分布假设,对自变量类型也不做要求,其结果易于解释。因此,Logistic回归模型分析作为一种有效的数据分类方法广泛应用于各种领域,如生物医学,犯罪学,,生态工程,健康学,语言学和野生动物学等方面。Logistic回归模型用于分类问题时,还存在参数估计的问题。当数据分布未知时,用经验似然方法对Logistic回归模型的参数进行估计具有一定的优势。 基于以上背景,本文应用Logistic回归模型对高维数据分类问题进行研究,主要研究内容有:对高维数据分类问题建立Logistic回归模型;提出高维数据下基于Logistic回归模型的惩罚经验似然方法;证明了Logistic回归模型惩罚经验似然估计的大样本性质;给出分布假定正确和分布假定错误情形下高维分类问题的数值模拟例子,证明了Logistic回归模型的惩罚经验似然估计的优良性以及在解决分类问题上的有效性;将高维分类问题的Logistic回归模型的惩罚经验似然方法应用于具体实例的分析中,说明了本文所提出的Logistic回归模型的惩罚经验似然方法能较好地改进分类的效果。 本文按以下结构进行组织: 第一章介绍了在大数据时代,研究基于Logistic回归模型的分类问题的背景和重要意义,并对高维分类问题、Logistic回归模型、惩罚经验似然方法等统计方法的研究成果进行了综述。 第二章是本文理论部分的主体。构造了Logistic回归模型的惩罚经验似然函数;提出了高维数据下基于Logistic回归模型的惩罚经验似然方法;Logistic回归模型的惩罚经验似然估计方法选择的是局部二次近似算法,且确定了用调整的BIC准则作为正则参数的选择方法;并且证明了通过上述方法所得模型参数估计值具有0racle性质,并得到了其大样本性质。 第三章是模拟计算部分。通过分布假定正确和分布假定错误情形下高维分类问题的数值模拟例子,从参数估计的精度、模型的拟合优度以及分类的准确率三方面,与已有方法相比,说明所提出的Logistic回归模型的惩罚经验似然估计的优良性以及在解决分类问题上的有效性。 第四章是实例分析,分别研究了冠心病数据和乳腺肿瘤数据这两个实例,应用高维分类问题的Logistic回归模型的惩罚经验似然方法进行分析,通过与线性判别分类方法、最近压缩中心方法、Logistic回归模型的惩罚似然方法的比较,说明了本文所提出的Logistic回归模型的惩罚经验似然方法在分类中具有良好的性质。
【关键词】:分类问题 高维数据 Logistic回归模型 惩罚经验似然 SCAD
【学位授予单位】:浙江财经大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:C81
【目录】:
  • 摘要5-7
  • ABSTRACT7-10
  • 第1章 绪论10-21
  • 1.1 研究背景及意义10-12
  • 1.2 文献综述12-18
  • 1.3 本文研究内容与结构18-19
  • 1.4 本文主要创新点19-21
  • 第2章 高维分类问题的 Logistic 回归惩罚经验似然方法21-37
  • 2.1 模型建立21-25
  • 2.2 模型估计的算法25-27
  • 2.3 惩罚经验似然方法的大样本性质27-37
  • 第3章 模拟计算37-42
  • 3.1 分布假定正确的情形37-40
  • 3.2 分布假定错误的情形40-42
  • 第4章 实例分析42-48
  • 4.1 冠心病实例42-45
  • 4.2 乳腺肿瘤实例45-48
  • 第5章 总结和展望48-49
  • 参考文献49-54
  • 附录54-55
  • 致谢55-56

【参考文献】

中国期刊全文数据库 前7条

1 王承官,吴从p

本文编号:820509


资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shgj/820509.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8c9bc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com