当前位置:主页 > 科技论文 > 软件论文 >

非均衡数据处理算法的研究与应用

发布时间:2023-04-16 22:03
  近年来,随着计算机科学和电子通信技术的发展,人们已经进入了大数据时代。原始数据的数据量以及数据种类的爆炸式增长,使各行各业对数据处理技术的需求极为迫切,为数据挖掘和机器学习提供了巨大的机遇。传统的算法都建立在数据集类分布均衡以及误分代价相等的基础之上,但在实际任务场景中,我们需要处理的绝大部分数据都是非均衡的,例如指纹识别、面部识别、面部年龄估计等。因此对非均衡数据分类算法的研究已成为机器学习和数据挖掘领域的热点。本文主要研究非均衡数据的处理算法,并且从以下三个方面开展研究工作:首先,传统算法在处理非均衡数据时通常仅考虑数据的空间分布而忽略空间距离,针对这一不足,本文提出基于K-means和改进MaxDistance规则的集成方法。该方法结合了原始数据的空间分布和空间距离的特点,在不丢失任何有用信息、不增加任何人造数据的条件下将二类非均衡问题转化成均衡问题。与现有的二类非均衡数据处理算法相比,实验证明了此方法在处理相同的标准公开数据集时具有更好的分类效果。其次,本文提出一种基于特征权重和聚类方法相结合的欠采样算法—Uscfk算法。该方法针对二类非均衡数据,通过将对分类结果影响较大的特征...

【文章页数】:67 页

【学位级别】:硕士

【文章目录】:
摘要
Abstract
第一章 绪论
    1.1 课题背景与研究意义
    1.2 国内外研究现状
    1.3 本文主要工作
    1.4 本文组织结构
第二章 相关背景知识介绍
    2.1 特征选择算法
        2.1.1 过滤式特征选择算法
        2.1.2 包裹式特征选择算法
        2.1.3 嵌入式特征选择算法
    2.2 聚类算法
        2.2.1 划分法
        2.2.2 层次法
        2.2.3 密度聚类法
        2.2.4 网格聚类法
        2.2.5 模型聚类法
    2.3 集成学习算法
        2.3.1 Bagging算法
        2.3.2 Boosting算法
    2.4 分类算法性能评估指标介绍
    2.5 本章小结
第三章 基于K-means和改进MaxDistance规则的集成方法
    3.1 机器学习相关算法介绍
        3.1.1 机器学习算法分类
        3.1.2 常见的机器学习算法介绍
    3.2 基分类器
        3.2.1 支持向量机(SVM)
        3.2.2 支持向量聚类(SVC)
        3.2.3 支持向量机中的核函数
        3.2.4 本章采用的基分类器
    3.3 提出的算法
    3.4 实验设计及结果分析
        3.4.1 实验数据集
        3.4.2 实验结果及分析
    3.5 本章小结
第四章 基于特征权重和聚类方法相结合的欠采样方法
    4.1 采样算法介绍
    4.2 提出的算法
        4.2.1 数据特征权重的选取
        4.2.2 基于特征权重的聚类
    4.3 实验设计及结果分析
        4.3.1 实验数据集
        4.3.2 实验过程设置
        4.3.3 实验参数及实验评估方法设置
    4.4 本章小结
第五章 本文算法在葡萄酒分类中的应用
    5.1 葡萄酒分类的研究背景与意义
    5.2 实验数据集
    5.3 实验设计及结果分析
    5.4 本章小结
总结与展望
    总结
    展望
参考文献
攻读学位期间发表的论文
致谢



本文编号:3791965

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3791965.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e4454***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com