多源数据融合统计新方法及其应用研究
发布时间:2024-11-02 14:18
多源数据融合是解决很多现实问题的一种重要方法,已被用于解决医学、地理科学等多个研究领域。多源数据融合方法起源于20世纪60年代,可以将不同来源的数据整合到一起,再对整合后的数据进行统计分析。相较于单一数据源模型,多源数据模型具有更多的原始信息,在数据推断方面表现更加优良。文献中的方法考虑到生物医药学等领域研究中所受到的经费等因素限制,大多是将多源小规模数据进行融合,其不能适应多源大数据背景下的很多实际问题。另一方面,目前对于多源数据融合的假设检验问题的研究相对较少,并且已有的方法在不同样本量以及各节点方差的情形下表现不够稳健。因此,本文将结合统计机器学习算法,着力于解决前述的两个问题。随着数据挖掘技术的不断提升,数据越来越容易获取,因此文章结合子抽样(Subsampling)方法考虑了多源大数据融合方法的构造问题。本文考虑到大规模数据分析面对的高昂计算成本和存储代价,基于均匀抽样和杠杆得分(Leverage Score)重要性抽样等方法,提出了一种多源大数据的子抽样融合方法,并借助Monte Carlo方法与单节点推断方法进行了比较研究,验证了本文所提出方法的优越性。其次,本文借助参数b...
【文章页数】:36 页
【学位级别】:硕士
【部分图文】:
本文编号:4009640
【文章页数】:36 页
【学位级别】:硕士
【部分图文】:
第三章多源大数据的子抽样融合方法研究16图3-1两种情形下的子抽样与全样本模型的的MSE3.2.4小结本节提出了在大数据下的多源数据融合中使用子抽样方法,以便减少计算量以及降低存储代价。与不进行数据融合的模型相比,抽样后再融合的模型的估计更优,且杠杆值抽样的模型比均匀抽样的模型计....
第四章多源数据融合问题的bootstrap检验19方法来与文献[/]中使用卡方分布来作为检验统计量近似分布的检验方法比较,提高检验的可靠性。图4-1检验统计量取值的频数直方图对比4.1.2参数bootstrap检验参数bootstrap方法需要用参数估计值来代替未知参数,得到估计....
第四章多源数据融合问题的bootstrap检验21图4-2共享所有系数时的接受率对比折线图图4-2是共享所有系数情形下,本节提出的参数bootstrap方法与文献[/]中所使用的方法计算的接受率的对比的折线图,红色的折线表示使用参数bootstrap方法计算的接受率,蓝色的折线则....
第四章多源数据融合问题的bootstrap检验22=0.5O×O+0.5O×O0.2O×L0.2L×O0.8L×L+0.2L×L1,是单位阵,是元素全为1的8×8维矩阵。分别设置了两个节点的误差项/<sup>¢</sup>0,/4£,4<sup>¢</sup>0,44£。具体地:....
本文编号:4009640
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4009640.html
最近更新
教材专著