当前位置:主页 > 社科论文 > 社会学论文 >

海量非平衡多分类数据的统计分析

发布时间:2017-06-25 00:01

  本文关键词:海量非平衡多分类数据的统计分析,由笔耕文化传播整理发布。


【摘要】:近年来,伴随着信息技术与互联网的飞速发展,人类进入了大数据时代。大容量数据的分析给传统的统计方法和计算带来了挑战。当数据量过大时,传统的统计估计方法难以在普通的计算机上得以实现,例如数据量超出内存或无法在可容忍的时间内得到计算结果,这些障碍极大地限制了高级统计技术的应用。应对海量数据分析的挑战,业界主要通过在大型计算机集群上布置Hadoop或Spark等分布式处理系统,然后基于MapReduce算法实现并行计算,这种方式对普通用户来说代价昂贵;另一个途径是子抽样方法,即用一个合理抽取的较小规模的子样本来代替海量的全部数据进行分析,从而达到节约计算成本的目的。在分类问题里,当数据呈现非平衡特性时,这种抽样是一个具有挑战性的问题,通常的均匀随机抽样方法存在严重的问题,这是由于类别之间的严重的分布不平衡,均匀抽出的子样本里只含极少量的少数类别样本,甚至可能根本就缺少某些类别的样本,对于这样得到的子样本,直接应用通常的分类算法都将不再有效。本文研究了对海量非平衡多分类数据以及多项Logistic回归模型的有效子抽样策略,我们证明了此时同样需要根据抽样概率比对截距项参数进行纠偏,我们给出了纠偏公式并利用统计数值模拟研究了子抽样策略的有效性。我们的主要工作如下:1.针对非平衡分类数据的多项回归模型,提出了一种基于Case-Control的子抽样方法,并给出了估计纠偏的公式。我们应用统计数值模拟比较了新方法与通常的均匀随机抽样方法的效果。2.针对超多分类的非平衡数据下的多项回归模型,提出了一种结合Case-Control抽样并将多项回归化为多个二项回归模型进行估计得新方法,并应用随机模拟方法研究了其针对海量数据和超多分类场合的有效性。3.通过统计模拟研究了多种抽样方法下估计的有效性,并比较了子抽样相对全样本下的效率损失。
【关键词】:非平衡数据 Logistic回归 子抽样 多分类
【学位授予单位】:深圳大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:O212;C81
【目录】:
  • 摘要4-5
  • Abstract5-8
  • 第1章 导引8-12
  • 1.1 研究背景8-9
  • 1.2 分类与非平衡数据9-11
  • 1.3 研究内容与意义11
  • 1.4 论文结构11-12
  • 第2章 多分类数据的均衡抽样12-21
  • 2.1 二项Logistic回归模型简介12-14
  • 2.2 多项回归模型简介14-16
  • 2.3 多项回归模型的均衡抽样策略与估计16-18
  • 2.4 计算模拟18-21
  • 第3章 超多分类数据的子抽样策略与快速估计方法21-29
  • 3.1 超多类别数据的子抽样策略与估计方法21-22
  • 3.2 计算模拟22-29
  • 第4章 总结29-30
  • 4.1 本文结论29
  • 4.2 不足之处29-30
  • 参考 文献30-32
  • 致谢32-33

【参考文献】

中国期刊全文数据库 前1条

1 杨明;尹军梅;吉根林;;不平衡数据分类方法综述[J];南京师范大学学报(工程技术版);2008年04期


  本文关键词:海量非平衡多分类数据的统计分析,由笔耕文化传播整理发布。



本文编号:479966

资料下载
论文发表

本文链接:https://www.wllwen.com/shekelunwen/shgj/479966.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户26bba***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com