数据挖掘中并行离散化数据准备优化研究
发布时间:2021-08-08 15:49
随着大数据(Big Data)的广泛应用,数据挖掘(Data mining)与机器学习(Machine learning)作为处理数据的重要手段,已然成为当今研究的一个热点问题。许多数据挖掘的算法得以进行的先决条件就是所要处理的属性值是离散值。所以如何使用好的离散化对数据进行预处理更是重中之重。并且在离散化步骤中,没有任何离散化算法可以适用于任何环境下,需要根据数据集的特点和学习环境等选择合适的离散化方法。本文通过对中外数据离散化技术现状的深入研究,分析了根据数据集的统计特性检测以确定其分布模型,以及对不同离散化方法之间选比判定依据,设计了一种最优离散化方法自动选择机。研究提出了一种针对环境的并行比较并获得最优离散化的数据准备算法(Auto Optimize Algorithm,AOA),针对不同数据集,算法首先进行对数据集的统计特性检测以获得数据集的分布特性,根据分布特性进行数据集的异常值检测和剔除。其次,并行完成与分布特性适配的离散化。最后,通过比较不同离散化方法的熵、方差指数、稳定性这三个参数所构成的最小欧氏距离(Minimum Euclidian distance,MED),根...
【文章来源】:昆明理工大学云南省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
均匀分布
昆明理工大学硕士学位论文10平均值:μ=n*p方差:Var(X)=npq2.1.4正态分布正态分布[43]也称“常态分布”,又名高斯分布(Gaussiandistribution),代表了宇宙中大多数情况的运转状态,大量的随机变量被证明是正态分布[]。对正态分布的特征做以下总结:(1)分布的平均值、中位数和模式一致。(2)分布曲线是钟形的,关于线x=μ对称。(3)曲线下的总面积为1。(4)有一半的值在中心的左边,另一半在右边。遵循正态分布的随机变量X的概率由下式给出:f(x)=1√2{12()2},∞<<∞(2-5)正态分布的随机变量X的均值和方差由下式给出:均值:E(X)=μ方差:Var(X)=σ^2其中,μ(平均)和σ(标准偏差)是参数。随机变量XN(μ,σ)的图如下所示。图2.5不同参数下的正态分布标准正态分布定义为E(X)=0,Var(X)=1的分布:f(x)=1√22/2,∞<<∞(2-6)其概率密度函数如下图所示。
昆明理工大学硕士学位论文12图2.7低均值泊松分布随着均置增加,分布会产生一点偏移,如下图所示。图2.8高均值泊松分布由以上两图可以看出,随着E(X)的逐渐增加,曲线向右移动。泊松分布中X的均值和方差定义为:均值:E(X)=μ方差:Var(X)=μ2.1.6指数分布指数分布[45](也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程,这是伽马分布的一个特殊情况,它是几何分布的连续模拟,它具有无记忆的关键性质[]。为了便于理解,举以下几例:(1)地铁到达时间间隔(2)到达加油站的时间(3)空调的寿命指数分布广泛用于生存分析。从各类物件的使用时间预期到各种生物生存的时间预期,指数分布都能成功地提供结果。具有的指数分布的随机变量X:
【参考文献】:
期刊论文
[1]数据挖掘中并行离散化数据准备优化[J]. 刘云,袁浩恒. 四川大学学报(自然科学版). 2018(05)
[2]距离估计修正的定位算法优化研究[J]. 刘云,袁浩恒. 云南大学学报(自然科学版). 2017(06)
[3]基于密度的异常数据检测算法GSWCLOF[J]. 李少波,孟伟,璩晶磊. 计算机工程与应用. 2016(19)
[4]基于K-means聚类的WSN异常数据检测算法[J]. 费欢,李光辉. 计算机工程. 2015(07)
[5]分布式并行关联规则挖掘算法研究[J]. 王智钢,王池社,马青霞. 计算机应用与软件. 2013(10)
[6]基于项集依赖的最小关联规则挖掘[J]. 孟军,王蓬,张静,王秀坤. 计算机科学. 2013(01)
[7]基于三段式编码GA的连续属性关联规则挖掘方法[J]. 张志锋,马军霞. 科学技术与工程. 2012(26)
[8]简谈几种“箱线图绘制”的描述[J]. 查如琴. 读与写(教育教学刊). 2012(07)
[9]数据挖掘技术在精细化温度预报中的应用[J]. 段文广,周晓军,石永炜. 干旱气象. 2012(01)
[10]基于遗传算法-支持向量机模型在热带气旋强度预报中的应用[J]. 顾锦荣,刘华强,刘向陪,吕庆平. 海洋预报. 2011(03)
博士论文
[1]关联规则挖掘在分类数据领域的扩展性研究[D]. 毛宇星.复旦大学 2010
硕士论文
[1]基于支持向量机的气象预报方法研究[D]. 汪春秀.南京信息工程大学 2011
[2]基于关联规则和聚类分析的异常天气挖掘[D]. 郑忠平.电子科技大学 2011
本文编号:3330239
【文章来源】:昆明理工大学云南省
【文章页数】:75 页
【学位级别】:硕士
【部分图文】:
均匀分布
昆明理工大学硕士学位论文10平均值:μ=n*p方差:Var(X)=npq2.1.4正态分布正态分布[43]也称“常态分布”,又名高斯分布(Gaussiandistribution),代表了宇宙中大多数情况的运转状态,大量的随机变量被证明是正态分布[]。对正态分布的特征做以下总结:(1)分布的平均值、中位数和模式一致。(2)分布曲线是钟形的,关于线x=μ对称。(3)曲线下的总面积为1。(4)有一半的值在中心的左边,另一半在右边。遵循正态分布的随机变量X的概率由下式给出:f(x)=1√2{12()2},∞<<∞(2-5)正态分布的随机变量X的均值和方差由下式给出:均值:E(X)=μ方差:Var(X)=σ^2其中,μ(平均)和σ(标准偏差)是参数。随机变量XN(μ,σ)的图如下所示。图2.5不同参数下的正态分布标准正态分布定义为E(X)=0,Var(X)=1的分布:f(x)=1√22/2,∞<<∞(2-6)其概率密度函数如下图所示。
昆明理工大学硕士学位论文12图2.7低均值泊松分布随着均置增加,分布会产生一点偏移,如下图所示。图2.8高均值泊松分布由以上两图可以看出,随着E(X)的逐渐增加,曲线向右移动。泊松分布中X的均值和方差定义为:均值:E(X)=μ方差:Var(X)=μ2.1.6指数分布指数分布[45](也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程,这是伽马分布的一个特殊情况,它是几何分布的连续模拟,它具有无记忆的关键性质[]。为了便于理解,举以下几例:(1)地铁到达时间间隔(2)到达加油站的时间(3)空调的寿命指数分布广泛用于生存分析。从各类物件的使用时间预期到各种生物生存的时间预期,指数分布都能成功地提供结果。具有的指数分布的随机变量X:
【参考文献】:
期刊论文
[1]数据挖掘中并行离散化数据准备优化[J]. 刘云,袁浩恒. 四川大学学报(自然科学版). 2018(05)
[2]距离估计修正的定位算法优化研究[J]. 刘云,袁浩恒. 云南大学学报(自然科学版). 2017(06)
[3]基于密度的异常数据检测算法GSWCLOF[J]. 李少波,孟伟,璩晶磊. 计算机工程与应用. 2016(19)
[4]基于K-means聚类的WSN异常数据检测算法[J]. 费欢,李光辉. 计算机工程. 2015(07)
[5]分布式并行关联规则挖掘算法研究[J]. 王智钢,王池社,马青霞. 计算机应用与软件. 2013(10)
[6]基于项集依赖的最小关联规则挖掘[J]. 孟军,王蓬,张静,王秀坤. 计算机科学. 2013(01)
[7]基于三段式编码GA的连续属性关联规则挖掘方法[J]. 张志锋,马军霞. 科学技术与工程. 2012(26)
[8]简谈几种“箱线图绘制”的描述[J]. 查如琴. 读与写(教育教学刊). 2012(07)
[9]数据挖掘技术在精细化温度预报中的应用[J]. 段文广,周晓军,石永炜. 干旱气象. 2012(01)
[10]基于遗传算法-支持向量机模型在热带气旋强度预报中的应用[J]. 顾锦荣,刘华强,刘向陪,吕庆平. 海洋预报. 2011(03)
博士论文
[1]关联规则挖掘在分类数据领域的扩展性研究[D]. 毛宇星.复旦大学 2010
硕士论文
[1]基于支持向量机的气象预报方法研究[D]. 汪春秀.南京信息工程大学 2011
[2]基于关联规则和聚类分析的异常天气挖掘[D]. 郑忠平.电子科技大学 2011
本文编号:3330239
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3330239.html