当前位置:主页 > 管理论文 > 营销论文 >

多尺度聚类挖掘方法

发布时间:2017-06-14 22:13

  本文关键词:多尺度聚类挖掘方法,由笔耕文化传播整理发布。


【摘要】:聚类挖掘是数据挖掘研究领域的一个重要研究分支,在语音识别、图像分割、市场营销、金融保险、电子商务等诸多领域广泛应用。聚类挖掘的实质是旨在将样本集按其自身属性聚成若干类,以保证类内样本相似度尽可能高,而类间样本相似度尽可能低。多尺度聚类是典型的跨学科课题,其本质是利用聚类技术多尺度、多层次地剖析研究客体的客观构成,研究尺度转换引起的尺度效应现象和各尺度间的函数关系。多尺度理论已在聚类挖掘领域取得了可观的进展,提出了一些多尺度聚类挖掘的理论和方法,但研究多局限于空间、图像数据,限制了多尺度科学在聚类技术上的应用和推广。论文结合多尺度科学与聚类挖掘各自领域特点,进一步研究面向一般数据集的多尺度理论与多尺度聚类挖掘方法。在聚类挖掘领域引入多尺度科学的相关理论与方法,提出以概念分层为基准的广义尺度定义,分析尺度转换和尺度效应实质,构建多尺度聚类挖掘系统结构,最终形成多尺度聚类挖掘理论体系;以多尺度聚类挖掘理论与方法为指导思想,结合无偏最优估计的克里格方法,提出多尺度聚类挖掘的尺度上推挖掘算法和尺度下推挖掘算法,实现数据聚类的多尺度化;最后,提出基于信息熵的多尺度聚类尺度转换结果评价指标,为最终的多尺度聚类挖掘结果提供了理论和方法支持。本文立足聚类挖掘,借助多尺度科学理论,探索构建多尺度聚类挖掘理论体系,研究多尺度聚类尺度转换方法以及尺度转换结果评价指标。主要研究内容包括以下几个方面:1)探讨构建多尺度聚类挖掘理论体系传统的聚类挖掘未对数据的多尺度特性进行深入研究,并且已有的多尺度聚类挖掘理论和方法多局限于空间、图像数据。针对存在的问题,从多尺度数据集、尺度转换、尺度效应和多尺度聚类挖掘系统结构四个方面研究多尺度聚类挖掘理论体系。首先,提出基于概念分层的数据尺度、尺度划分和多尺度数据集以及多尺度数据集之间祖孙、父子、兄弟和上下层关系的定义,确立理论基础;其次,分析多尺度聚类挖掘核心——尺度转换的定义、原因、分类和途径;再次,归纳多尺度聚类尺度效应的定义及其影响;最后,在传统数据挖掘过程的基础上,提出多尺度聚类挖掘系统结构,为多尺度聚类的后续研究提供理论支撑和实现思路。2)提出多尺度聚类挖掘算法多尺度聚类挖掘理论体系为尺度转换提供了理论基础,结合尺度转换过程,构造多尺度聚类挖掘算法框架;分析克里格法可用于一般数据集的本质;通过分析目前地学、图像学、生物学等学科较为成熟的尺度转换方法思想,基于块状克里格法BK(Block Kriging)提出多尺度聚类挖掘尺度上推算法MSCSUA(Multi-Scale Clustering Scaling Up Algorithm),并基于回归面到点克里格法ATPRK(Area To Point Regression Kriging)提出多尺度聚类挖掘尺度下推算法MSCSDA(Multi-Scale Clustering Scaling Down Algorithm)。算法实现了聚类挖掘知识的多尺度化,与传统聚类算法直接在目标尺度进行聚类的结果进行比对,并对算法的正确性和可行性进行分析。3)提出多尺度聚类有效性指标多尺度聚类有效性指标是对多尺度聚类尺度上推和下推结果的定量评估,是对尺度转换算法直观的分析评价。论文结合多尺度领域尺度转换精度评价指标和聚类有效性指标,引入信息熵度量不同聚类有效性指标下聚类结果尺度效应的不确定程度,并将信息熵结果归一化后作为各聚类有效性指标的权重,加权集成得到多尺度聚类有效性指标MSCVI(Multi-Scale Clustering Validity Index),以便更好地适于不同实际应用。4)验证多尺度聚类挖掘算法和多尺度聚类有效性指标针对提出的多尺度聚类挖掘算法及多尺度聚类有效性指标应用于多个UCI公用数据集和真实数据H省全员人口数据进行测试分析。实验结果表明本文算法相比传统聚类算法正确率高,运行时间短,是可行的聚类算法;本文有效性指标也较传统聚类有效性指标正确率有较大提升,对高维数据集也表现出良好的评价效果。
【关键词】:多尺度聚类挖掘 尺度转换 尺度效应 克里格法 信息熵
【学位授予单位】:河北师范大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-6
  • Abstract6-12
  • 1 绪论12-19
  • 1.1 选题背景及研究意义12-13
  • 1.2 国内外研究现状13-16
  • 1.2.1 聚类挖掘13-14
  • 1.2.2 多尺度聚类挖掘14-15
  • 1.2.3 尺度转换15-16
  • 1.3 论文主要研究内容16-18
  • 1.4 论文组织与结构18-19
  • 2 聚类挖掘19-36
  • 2.1 聚类数据挖掘19-22
  • 2.1.1 聚类挖掘定义19-20
  • 2.1.2 类内相似性度量20-21
  • 2.1.3 类间距离测度21-22
  • 2.2 聚类算法与分类22-30
  • 2.2.1 基于划分的聚类挖掘算法24-25
  • 2.2.2 基于层次的聚类挖掘算法25-27
  • 2.2.3 基于密度的聚类挖掘算法27-28
  • 2.2.4 基于网格的聚类挖掘算法28-29
  • 2.2.5 其它聚类挖掘算法29-30
  • 2.3 聚类算法衡量标准及比较30-31
  • 2.4 聚类有效性评价31-35
  • 2.4.1 外部评价指标32-33
  • 2.4.2 内部评价指标33-34
  • 2.4.3 相对评价指标34
  • 2.4.4 模糊评价指标34-35
  • 2.5 本章小结35-36
  • 3 多尺度聚类挖掘理论36-47
  • 3.1 尺度与多尺度数据集36-39
  • 3.1.1 尺度36-37
  • 3.1.2 尺度划分37-38
  • 3.1.3 多尺度数据集38-39
  • 3.2 尺度转换39-42
  • 3.2.1 多尺度聚类尺度转换定义40
  • 3.2.2 尺度转换原因40
  • 3.2.3 尺度转换分类40-41
  • 3.2.4 尺度转换途径41-42
  • 3.3 尺度效应42
  • 3.4 多尺度聚类挖掘系统结构42-46
  • 3.4.1 数据预处理44
  • 3.4.2 构建多尺度数据集44
  • 3.4.3 基准尺度聚类挖掘44-45
  • 3.4.4 尺度转换45
  • 3.4.5 模式评估45
  • 3.4.6 可视化表示45-46
  • 3.5 本章小结46-47
  • 4 多尺度聚类挖掘算法47-64
  • 4.1 多尺度聚类挖掘算法框架47-48
  • 4.2 克里格法可用于一般数据集的本质48-49
  • 4.3 多尺度聚类尺度上推算法MSCSUA49-52
  • 4.3.1 块状克里格法BK50-51
  • 4.3.2 MSCSUA算法实现51-52
  • 4.4 多尺度聚类尺度下推算法MSCSDA52-56
  • 4.4.1 回归面到点克里格法ATPRK52-56
  • 4.4.2 MSCSDA算法步骤56
  • 4.5 实验分析与验证56-63
  • 4.5.1 实验数据集57
  • 4.5.2 聚类评价指标57-58
  • 4.5.3 尺度上推实验分析58-61
  • 4.5.4 尺度下推实验分析61-63
  • 4.6 本章小结63-64
  • 5 多尺度聚类有效性指标64-73
  • 5.1 信息熵65
  • 5.2 多尺度聚类有效性指标MSCVI65-68
  • 5.2.1 Xie_Beni有效性指标XB66
  • 5.2.2 S.H.Kown有效性指标VK66-67
  • 5.2.3 Rezaee.M有效性指标VW67
  • 5.2.4 Sun.H有效性指标PBMF67-68
  • 5.2.5 MSCVI68
  • 5.3 实验分析与验证68-72
  • 5.3.1 实验数据集69
  • 5.3.2 实验结果分析69-72
  • 5.4 本章小结72-73
  • 6 总结与展望73-76
  • 6.1 总结73-75
  • 6.2 展望75-76
  • 参考文献76-84
  • 致谢84-85
  • 攻读学位期间取得的科研成果清单85

【相似文献】

中国期刊全文数据库 前10条

1 李勇;王新颖;;聚类挖掘在电子商务中的应用[J];商场现代化;2007年25期

2 时念云;孔静;;基于语义和领域相关的聚类挖掘方法研究[J];微计算机应用;2008年11期

3 刘洪伟;石雅强;梁周扬;肖岳;;面向聚类挖掘的局部旋转扰动隐私保护算法[J];广东工业大学学报;2012年03期

4 陈平;宋玉蓉;蒋国平;;基于多维聚类挖掘的异常检测方法研究[J];计算机技术与发展;2012年07期

5 张文华;王新颖;;聚类挖掘在远程教育中的应用[J];唐山师范学院学报;2007年05期

6 王新颖;王向丽;张文华;;基于关联规则的聚类挖掘在远程教育中的应用[J];现代远距离教育;2008年04期

7 关莉莉;;银行卡客户群体聚类挖掘研究[J];微计算机信息;2008年30期

8 韩存鸽;;聚类挖掘在高校图书馆管理系统中的应用[J];重庆理工大学学报(自然科学);2012年11期

9 王东;罗可;;基于变异粒子群的聚类挖掘[J];计算机工程与应用;2011年21期

10 尹云飞,钟智;一种聚类挖掘软件数据的方法[J];河南科技大学学报(自然科学版);2004年02期

中国重要会议论文全文数据库 前2条

1 张德辉;唐世渭;杨冬青;马秀莉;姜力争;;一种在OLAP中保持聚类挖掘结果的有效方法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年

2 金妮;;一种基于数据仓库和OLAP技术的聚类挖掘系统[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年

中国博士学位论文全文数据库 前2条

1 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年

2 刘兵;时间序列与聚类挖掘相关技术研究[D];复旦大学;2006年

中国硕士学位论文全文数据库 前10条

1 王玉雷;面向大数据的聚类挖掘算法研究[D];南京邮电大学;2015年

2 韩玉辉;多尺度聚类挖掘方法[D];河北师范大学;2016年

3 李雄;面向大数据的聚类挖掘算法研究[D];南京邮电大学;2014年

4 刘宇;基于云计算的聚类挖掘算法及其应用研究[D];南京邮电大学;2014年

5 江哲雅;聚类挖掘在电信客户分类中的研究与应用[D];上海交通大学;2013年

6 董玮;可视化空间聚类挖掘算法的研究与应用[D];吉林农业大学;2012年

7 徐鹏;零售业顾客忠诚度的模型研究与聚类挖掘[D];大连交通大学;2008年

8 苏东海;基于加权向量提升的多尺度聚类挖掘算法[D];河北师范大学;2014年

9 管明君;Ramsey理论在聚类挖掘中的应用研究及实现[D];云南大学;2014年

10 颜小林;基于本体的Web页面聚类挖掘[D];太原理工大学;2007年


  本文关键词:多尺度聚类挖掘方法,由笔耕文化传播整理发布。



本文编号:450693

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/yingxiaoguanlilunwen/450693.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c675c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com