非均衡数据处理算法的研究与应用

发布时间：2023-04-16 22:03

　　近年来,随着计算机科学和电子通信技术的发展,人们已经进入了大数据时代。原始数据的数据量以及数据种类的爆炸式增长,使各行各业对数据处理技术的需求极为迫切,为数据挖掘和机器学习提供了巨大的机遇。传统的算法都建立在数据集类分布均衡以及误分代价相等的基础之上,但在实际任务场景中,我们需要处理的绝大部分数据都是非均衡的,例如指纹识别、面部识别、面部年龄估计等。因此对非均衡数据分类算法的研究已成为机器学习和数据挖掘领域的热点。本文主要研究非均衡数据的处理算法,并且从以下三个方面开展研究工作:首先,传统算法在处理非均衡数据时通常仅考虑数据的空间分布而忽略空间距离,针对这一不足,本文提出基于K-means和改进MaxDistance规则的集成方法。该方法结合了原始数据的空间分布和空间距离的特点,在不丢失任何有用信息、不增加任何人造数据的条件下将二类非均衡问题转化成均衡问题。与现有的二类非均衡数据处理算法相比,实验证明了此方法在处理相同的标准公开数据集时具有更好的分类效果。其次,本文提出一种基于特征权重和聚类方法相结合的欠采样算法—Uscfk算法。该方法针对二类非均衡数据,通过将对分类结果影响较大的特征...

【文章页数】：67 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第一章绪论
    1.1 课题背景与研究意义
    1.2 国内外研究现状
    1.3 本文主要工作
    1.4 本文组织结构
第二章相关背景知识介绍
    2.1 特征选择算法
        2.1.1 过滤式特征选择算法
        2.1.2 包裹式特征选择算法
        2.1.3 嵌入式特征选择算法
    2.2 聚类算法
        2.2.1 划分法
        2.2.2 层次法
        2.2.3 密度聚类法
        2.2.4 网格聚类法
        2.2.5 模型聚类法
    2.3 集成学习算法
        2.3.1 Bagging算法
        2.3.2 Boosting算法
    2.4 分类算法性能评估指标介绍
    2.5 本章小结
第三章基于K-means和改进MaxDistance规则的集成方法
    3.1 机器学习相关算法介绍
        3.1.1 机器学习算法分类
        3.1.2 常见的机器学习算法介绍
    3.2 基分类器
        3.2.1 支持向量机(SVM)
        3.2.2 支持向量聚类(SVC)
        3.2.3 支持向量机中的核函数
        3.2.4 本章采用的基分类器
    3.3 提出的算法
    3.4 实验设计及结果分析
        3.4.1 实验数据集
        3.4.2 实验结果及分析
    3.5 本章小结
第四章基于特征权重和聚类方法相结合的欠采样方法
    4.1 采样算法介绍
    4.2 提出的算法
        4.2.1 数据特征权重的选取
        4.2.2 基于特征权重的聚类
    4.3 实验设计及结果分析
        4.3.1 实验数据集
        4.3.2 实验过程设置
        4.3.3 实验参数及实验评估方法设置
    4.4 本章小结
第五章本文算法在葡萄酒分类中的应用
    5.1 葡萄酒分类的研究背景与意义
    5.2 实验数据集
    5.3 实验设计及结果分析
    5.4 本章小结
总结与展望
    总结
    展望
参考文献
攻读学位期间发表的论文
致谢

本文编号：3791965

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3791965.html

上一篇：昆明市财经商贸学校教师教学评价系统的研究与分析
下一篇：基于IFML的物联网前端用户界面建模与Android平台模型转换的研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|