当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于网格点密度估计的聚类算法研究

发布时间:2020-05-16 03:27
【摘要】:机器学习算法的研究是人工智能领域中的一个重要分支,它涉及到众多学科的交叉融合。机器学习算法的研究对象是怎样模拟人类的行为以学习新的知识从而更新知识结构、改善自身的性能。机器学习领域的研究在近些年来已经取得了很大的进展,各种各样的机器学习算法也被提了出来。机器学习算法通常情况下可以被分为三大类:有监督学习算法、无监督学习算法和半监督学习算法。聚类分析算法是其中最具有代表性的一种无监督机器学习算法。该类算法依据数据点的某种属性将数据集中相似的数据点划分到同一个类簇中而把非相似的数据点划分到不同的类簇。尽管各种各样的聚类算法已经被提出,但是大多数传统的聚类方法只能适用于球形类簇的聚类并且算法的聚类结果可能会受到参数设置和初始化的影响。此外,当数据集中数据点数量和数据维度的规模变得非常大时,聚类算法的效率将受到时间复杂性和空间复杂性的限制。因此,本论文中提出了一种快速稳定基于网格的能够识别任意形状类簇的聚类方法,该算法还能够稳定地应对大数据集的聚类。改进的方法中,首先该方法运用给定的公式自动化确定网格的划分区间数目,然后算法计算划分网格中网格节点处的密度值而非传统方法中的网格密度。最后,算法依据网格节点的密度值采用经典的广度优先搜索算法进行聚类操作。在多个人工数据集和真实数据集上的实验结果表明,该方法比传统的聚类方法更加有效。此外,聚类算法结果的评价通常需要计算聚类评价指标的值,传统的点对比较方法对于大数据集的评价指标计算效率比较低。本论文中给出了利用混淆矩阵计算聚类结果评价指标的方法,实验结果表明该方法能够明显地提高获取评价指标值的效率。
【图文】:

标签,数据集,聚类,实验结果


兰州大学硕士学位论文 基于网格点密度估计的聚类算法研究n 为数据点的总数目。 √ (3-1)该公式中还有一个值得注意的地方是数据集所有维度的 K 值之乘积为 n,,这与文章[33]中所提出的思想有类似之处。实验过程中由于 K-means 算法的结果具有一定的波动性,故而进行了多次实验取其结果的均值以增强结果的可靠性。实验过程中运用了几个真实的公开数据集进行验证,数据集的详细介绍将在第四章中详细说明。该方法得到的实验结果如图 3-1 所示。

示意图,网格节点,网格,示意图


如图3-2 所示:图 3-2 网格与网格节点示意图传统的方法中,网格里面包含的数据点个数即为该网格的密度值。而在改进的聚类算法中,密度值的计算不是统计网格中数据点的个数而是计算如上图所示网格节点的密度值。首先,该方法中的数据集需要进行归一化处理,该方法对数据集进行变换使得其结果的值域位于[0,1]之间。其归一化处理的函数如 3-2 所示: (3-2)其中 X 代表原始数据集的值,MIN 和 MAX 分别代表数据集中该维度的数据点值的最小值和最大值,经过该函数的变化可以得到归一化处理的结果[36]。归一化处理完成后,数据点需要被划分到网格中。设算法中划分网格的数目大小为 k,则可以运用式子 3-3 对数据点进行划分操作。
【学位授予单位】:兰州大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 王晓东;解非线性0-1规划的一个算法及其在结构优化中的应用[J];数值计算与计算机应用;1988年01期

2 章淑贞;;算法“双刃剑”[J];新闻与写作;2018年09期

3 王天宇;孙宇军;;智能情报算法体系的构建[J];中华医学图书情报杂志;2018年07期

4 林耿;;一种求解厌恶型p-中位问题的混合进化算法[J];浙江大学学报(理学版);2018年01期

5 马慧;吴彦鸿;王宏艳;;基于贪婪搜索的RC-LDPC编码序列打孔算法研究[J];通信技术;2018年05期

6 陈树;袁欣琪;;一种改进的基于PEG算法构造QC-LDPC码的方法[J];科技展望;2015年22期

7 汪靖;刘桂元;;基于动态步长变化的萤火虫算法[J];计算机工程与设计;2019年04期

8 段丹青;卫宏儒;;对MIBS算法的碰撞攻击[J];计算机科学;2018年02期

9 吴尚智;任小康;;用加速逃逸时间算法构造Julia集图形[J];计算机应用与软件;2006年05期

10 李卓;李文霞;巨玉祥;陈晓明;何晓平;;混合蚁群算法求解带软时间窗的车辆路径问题[J];武汉理工大学学报(交通科学与工程版);2019年04期

相关会议论文 前1条

1 徐蔚然;张洪刚;郭军;;基于语法、语义信息的银行票据二值化算法的构造[A];2001年中国智能自动化会议论文集(下册)[C];2001年

相关博士学位论文 前5条

1 杨远;非线性状态空间模型贝叶斯估计中的高效粒子MCMC算法[D];厦门大学;2017年

2 向函;复杂交通场景下车牌检测算法的研究[D];贵州大学;2019年

3 康文洁;基于F-范数最小化的稀疏近似逆预处理方法[D];清华大学;2017年

4 李冬冬;基因组序列标注的算法与理论研究[D];国防科学技术大学;2004年

5 李睿智;基于局部搜索策略的若干组合优化问题求解算法研究[D];东北师范大学;2017年

相关硕士学位论文 前10条

1 王磊;基于网格点密度估计的聚类算法研究[D];兰州大学;2019年

2 宋明展;两类保结构算法研究及其应用[D];国防科学技术大学;2016年

3 陈威;基于推荐窗口与关键点匹配的行人检测算法研究[D];湖南大学;2016年

4 肖怀远;基于Spark的高效用项集挖掘算法研究[D];河南大学;2018年

5 孔涛;基于改进细菌觅食算法的配电网故障定位研究[D];山东理工大学;2017年

6 朱腾云;基于密度的增量动态社区发现算法研究[D];福州大学;2017年

7 燕亚娟;有限维Hilbert空间中框架的构造及其算法[D];福州大学;2017年

8 林道玲;一类DC优化的加速邻近算法及其收敛性分析[D];暨南大学;2018年

9 唐伟聪;大规模MIMO系统中高效DOA算法的研究[D];广东工业大学;2018年

10 张东;自适应抽样算法及其R包开发[D];华东师范大学;2017年



本文编号:2666096

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2666096.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户89053***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com