最大信息系数的算法分析及改进
发布时间:2021-08-21 19:49
在如今这个信息爆炸的时代,海量数据已经成为当今世界最显著的特征之一,研究数据之间的关联性成为科学界的研究热点。为了衡量事物之间是否关联以及如何关联,统计相关性分析应运而生。其中使用较为广泛的有皮尔逊(Pearson)系数,斯皮尔曼系数(Spearman)和肯德尔(Kendall)系数等,但是这些相关性分析方法由于自身的局限性,并不能对广泛的关系类型做出检测。因此,2011年Reshef等人引入了一种新的相关性分析方法——最大信息系数(the maximal information coefficient,MIC),该方法一经提出便在科学界引起了广泛的讨论。最大信息系数相较其他的统计量而言,拥有两个优良性质——广泛性和均匀性。但是作为计算机密集型(computer-intensive)方法,最大信息系数的精确解计算难度非常大,为了能够得到变量之间最大信息系数的近似解,Reshef等人提出了两变量MIC近似算法。本文主要针对Reshef等人提出的两变量最大信息系数的定义及近似算法进行分析,并对其存在的缺陷不足做出改进。首先,结合相关文献,本文分析研究了统计相关性领域的背景及国内外研究现状,...
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
相关系数时间轴
第一章 绪论7图1.2 全文组织结构本文共有五个章节。第一章的绪论,主要介绍了统计相关性的研究背景,国内外研究现状以及面临的问题和挑战,之后进行了本文主要工作,文章组织结构安排和创新点的简单介绍。第二章介绍了现下对于大数据中相关关系的挖掘主要使用的主流方法,并对其中的最大信息系数进行了重点介绍,之后考虑并引入“粗粒度”的概念来解释最大信息系数的本质,并借此阐述何谓归一化处理,最后进一步给出网格划分优劣评判原则,最后对于最大信息系数的两个良好特性——广泛性和均匀性进行了分析。第三章首先介绍了根据定义的两变量之间 MIC 的理想化算法并通过算例进一步介绍了理想下两变量之间的 MIC 该如何计算,分析了理想化的两个变量之间 MIC 的精确解的计算难度,之后对现有的能够快速得到两个变量之间 MIC 近似解的两变量 MIC 近似算法进行了详细介绍
也可以采用斯皮尔曼相关系数,而不必去考虑样本容量,样本总体分布等因素。图2.1 两个随机变量的散点图(3)Kendall 相关系数在统计学中,Kendall[13]相关系数的主要思想是根据两个变量之间序对的一致性来判断其相关性, 一般用希腊字母τ来表示。假设两个随机变量分别为 和 (也可以看作两个集合),它们的元素个数均为 ,两个随机变量取的第 (1 ≤ ≤ )个值记为 和 。 和 中对应元素组成一个元素对集合 ,其包含的元素为( , ),(1 ≤ ≤ )。当集合中任意两个元素( , )和( , )的排行相同时,即 > 且 > 或者 < 且 < 这两个元素就被认为是一致的,而当 > 且 < 或者 < 且 > ,认为不一致,其余情况 = 或者 =
【参考文献】:
期刊论文
[1]统计相关性分析方法研究进展[J]. 樊嵘,孟大志,徐大舜. 数学建模及其应用. 2014(01)
[2]相关系数含义的理解[J]. 陈永秀. 中国考试. 2011(07)
博士论文
[1]基于最大信息系数的复杂疾病全基因组关联算法研究[D]. 刘汉明.电子科技大学 2015
本文编号:3356230
【文章来源】:西安电子科技大学陕西省 211工程院校 教育部直属院校
【文章页数】:80 页
【学位级别】:硕士
【部分图文】:
相关系数时间轴
第一章 绪论7图1.2 全文组织结构本文共有五个章节。第一章的绪论,主要介绍了统计相关性的研究背景,国内外研究现状以及面临的问题和挑战,之后进行了本文主要工作,文章组织结构安排和创新点的简单介绍。第二章介绍了现下对于大数据中相关关系的挖掘主要使用的主流方法,并对其中的最大信息系数进行了重点介绍,之后考虑并引入“粗粒度”的概念来解释最大信息系数的本质,并借此阐述何谓归一化处理,最后进一步给出网格划分优劣评判原则,最后对于最大信息系数的两个良好特性——广泛性和均匀性进行了分析。第三章首先介绍了根据定义的两变量之间 MIC 的理想化算法并通过算例进一步介绍了理想下两变量之间的 MIC 该如何计算,分析了理想化的两个变量之间 MIC 的精确解的计算难度,之后对现有的能够快速得到两个变量之间 MIC 近似解的两变量 MIC 近似算法进行了详细介绍
也可以采用斯皮尔曼相关系数,而不必去考虑样本容量,样本总体分布等因素。图2.1 两个随机变量的散点图(3)Kendall 相关系数在统计学中,Kendall[13]相关系数的主要思想是根据两个变量之间序对的一致性来判断其相关性, 一般用希腊字母τ来表示。假设两个随机变量分别为 和 (也可以看作两个集合),它们的元素个数均为 ,两个随机变量取的第 (1 ≤ ≤ )个值记为 和 。 和 中对应元素组成一个元素对集合 ,其包含的元素为( , ),(1 ≤ ≤ )。当集合中任意两个元素( , )和( , )的排行相同时,即 > 且 > 或者 < 且 < 这两个元素就被认为是一致的,而当 > 且 < 或者 < 且 > ,认为不一致,其余情况 = 或者 =
【参考文献】:
期刊论文
[1]统计相关性分析方法研究进展[J]. 樊嵘,孟大志,徐大舜. 数学建模及其应用. 2014(01)
[2]相关系数含义的理解[J]. 陈永秀. 中国考试. 2011(07)
博士论文
[1]基于最大信息系数的复杂疾病全基因组关联算法研究[D]. 刘汉明.电子科技大学 2015
本文编号:3356230
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3356230.html