当前位置:主页 > 科技论文 > 软件论文 >

非独立同分布下的K中心点算法研究

发布时间:2021-10-21 22:48
  随着科技的不断发展,数据挖掘成为当下帮助用户从大量的数据中提取出有效信息的重要手段,与此同时,作为数据挖掘中重要分支的聚类分析也越来越受到各方面的关注。K-中心点算法是聚类分析中具有代表性的算法之一,克服了K-均值算法对于孤立点较为敏感的缺点,具有较强的鲁棒性,但是K-中心点算法仍在某些方面存在缺陷,例如,算法中的相似性度量大多采用距离的度量方式,这种方式均假设数据对象及属性之间是独立同分布的,但实际情况中,数据对象及属性之间是非独立同分布的,因此,K-中心点算法的相似性度量方式有待改进;除此之外,K-中心点算法本身时间复杂度较大,初始中心点的选取对算法而言尤为重要。为提高算法的聚类效果与运行效率,本文对此进行了如下改进:针对K-中心点算法的度量方式为假设数据对象及属性之间是独立同分布的缺点,本文引入了无监督学习中的名义耦合相似性计算方法,用非独立同分布计算公式对传统欧氏距离计算相似度方法进行了替换,同时,由于此公式主要计算依据为属性值的频率,但数值型数据对于频率并不敏感,因此,针对数值型数据,本文在引入公式之前,将数值型数据按属性列根据欧氏距离进行聚类与替换,设计了NI-PAM算法,... 

【文章来源】: 韩冰 齐鲁工业大学

【文章页数】:75 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
    1.3 论文研究工作
        1.3.1 论文的内容组织
第2章 聚类分析技术与非独立同分布概述
    2.1 数据挖掘技术概述
        2.1.1 数据挖掘系统的主要功能
        2.1.2 数据挖掘的步骤
    2.2 聚类分析技术概述
    2.3 聚类的主要过程
    2.4 主要聚类方法的分类
        2.4.1 基于层次的聚类方法
        2.4.2 基于划分的聚类方法
        2.4.3 基于密度的聚类方法
        2.4.4 基于网格的聚类方法
        2.4.5 基于模型的聚类方法
        2.4.6 其它热点聚类算法
    2.5 现有聚类分析技术的挑战
    2.6 非独立同分布学习
    2.7 非独立同分布思想的典型应用
    2.8 非独立同分布层次介绍
    2.9 K-中心点算法中的耦合关系
    2.10 本章小结
第3章 NI-PAM算法的设计与分析
    3.1 PAM算法介绍
    3.2 现有相似性度量计算方法
    3.3 非独立同分布下的耦合相似度
        3.3.1 内部耦合相似度
        3.3.2 外部耦合相似度
        3.3.3 总体耦合相似度
        3.3.4 数据对象间耦合相似度
    3.4 非独立同分布环境下的NI-PAM算法
    3.5 NI-PAM算法步骤
    3.6 实验结果与分析
        3.6.1 实验数据集介绍
        3.6.2 实验结果对比
        3.6.3 实验结果分析
    3.7 本章小结
第4章 NI-PAM算法的优化
    4.1 PAM算法缺陷
    4.2 NI-PAM算法的初始中心点选择方法改进
        4.2.1 相似度矩阵的建立
        4.2.2 邻域半径
    4.3 改进后NI-PAM算法步骤
    4.4 实验结果与分析
        4.4.1 实验数据集介绍
        4.4.2 实验结果对比
        4.4.3 实验结果分析
    4.5 本章小结
第5章 N-NI-PAM算法的设计与分析
    5.1 非独立同分布下的数值型耦合相似度
        5.1.1 修改后的斯皮尔曼等级相关系数
        5.1.2 属性内耦合相似性
        5.1.3 属性外耦合相似性
        5.1.4 数据对象之间的耦合相似性
    5.2 N-NI-PAM算法步骤
    5.3 实验结果与分析
        5.3.1 实验数据集介绍
        5.3.2 实验结果对比
        5.3.3 实验结果分析
    5.4 本章小结
第6章 总结与展望
    6.1 本文总结
        6.1.1 论文的创新点
    6.2 未来展望
参考文献
致谢
在学期间主要科研成果
    一、发表学术论文
    二、其他科研成果
    三、获奖


【参考文献】:
期刊论文
[1]GPU加速的改进PAM聚类算法研究与应用[J]. 周恩波,毛善君,李梅,孙振明.  地球信息科学学报. 2017(06)
[2]基于距离不等式的K-medoids聚类算法[J]. 余冬华,郭茂祖,刘扬,任世军,刘晓燕,刘国军.  软件学报. 2017 (12)
[3]一种MapReduce架构下基于遗传算法的K-Medoids聚类[J]. 赖向阳,宫秀军,韩来明.  计算机科学. 2017(03)
[4]非独立同分布推荐系统:推荐范式转换的综述和框架[J]. Longbing Cao.  Engineering. 2016(02)
[5]不确定数据聚类的U-PAM算法和UM-PAM算法的研究[J]. 何云斌,张志超,万静,李松.  计算机科学. 2016(06)
[6]密度峰值优化初始中心的K-medoids聚类算法[J]. 谢娟英,屈亚楠.  计算机科学与探索. 2016(02)
[7]基于稠密区域的K-medoids聚类算法[J]. 赵湘民,陈曦,潘楚.  计算机工程与应用. 2016(16)
[8]基于宽度优先搜索的K-medoids聚类算法[J]. 颜宏文,周雅梅,潘楚.  计算机应用. 2015(05)
[9]基于递减概率初始点选择K中心点进化算法[J]. 路浩,倪世宏,查翔,张鹏.  计算机仿真. 2014(09)
[10]一种改进的基于粒子群的粗糙K-medoids算法[J]. 杨志,罗可.  计算机工程与应用. 2014(20)

博士论文
[1]非独立同分布推荐系统研究[D]. 李方方.北京理工大学 2014

硕士论文
[1]聚类分析及聚类结果评估算法研究[D]. 陈衡岳.东北大学 2006



本文编号:3449866

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3449866.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户03069***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com