当前位置:主页 > 科技论文 > 软件论文 >

海量数据相关性判别算法研究及应用

发布时间:2021-03-16 09:51
  数据增长速度比以往任何时候都快,到2020年,地球上的每个人每秒创造大约1.7兆字节的新信息。检测大数据集中变量之间的关系在基因组学,物理学,政治学和经济学领域变得越来越普遍,这使得发现变量之间的关系成为一个日益严峻的挑战。一般而言,在样本量足够大的情况下,我们希望能够找到变量之间广泛的关联,不仅限于特定的函数(如线性),而应该是所有的函数关系。我们希望找到在不同类型的关系中具有相同噪音下的相似的分数度量。在对基因数据的研究中,检测与疾病关联的致病基因的研究占有重要地位,是人们研究的重点问题。然而现有的大部分方法检测手段时间长、代价大,因此希望通过其他手段对致病基因做出检测。而传统的计算方法对于非线性的函数检测效果差,为此,本文针对这两点提出新的解决方法。本文的主要研究成果有:1.最大信息系数(MIC)是一种有效的探索数据关系的工具。MIC在将变量划分成网格时穷尽所有划分方法,并且该过程决定了MIC算法的时间在大数据集中计算复杂。我们通过提出一种新的近似算法,对MIC在大数据集中的应用做出了重大改进,称为CDMIC(使用Cluster Division的最大信息系数)。首先,我们使用快... 

【文章来源】:黑龙江大学黑龙江省

【文章页数】:56 页

【学位级别】:硕士

【部分图文】:

海量数据相关性判别算法研究及应用


计算MICFigure2-1ComputingMIC上面的介绍过于抽象,下面我们举例说明最大信息系数是如何计算的

海量数据相关性判别算法研究及应用


点集Figure2-2.Pointset我们以该点集的一种划分方法为例说明MIC方法的计算

海量数据相关性判别算法研究及应用


点集划分Figure2-3Pointsetdivision对于灰色的区域,概率计算如下所示


本文编号:3085850

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3085850.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户ea5c4***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com