当前位置:主页 > 科技论文 > 软件论文 >

基于AP聚类的不完备数据处理方法的研究与实现

发布时间:2023-04-01 02:43
  随着大数据时代的到来,数据挖掘逐渐成为创新研究的热点。数据挖掘,是在大数据中发现数据的潜在关系,从而实现价值评估和决策指导的技术。然而高质量的决策评估很大程度上取决于高质量的数据,所以数据挖掘之前的预处理工作就显得尤为重要。在实际应用中,各种数据质量问题增加了预处理工作的难度,其中数据不完备问题更是无法避免。本文主要研究预处理工作中数据不完备问题的处理,主要的研究工作如下。1)针对数据不完备问题的随机缺失模式,本文提出了基于增量式AP聚类的K最近邻的填补算法(IAPSKNNI)。首先分析数据不完备问题的原因和常用的处理方法,进而确定聚类填补的处理策略。根据动态处理数据不完备问题的需求,基于AP聚类的稳定聚类表现,使用增量式AP聚类动态更新聚类结果,来充分利用数据的完备信息。同时改进K最近邻填补使其能在不设定K值的情况下,将填补值快速收敛。最后通过实验仿真,验证了 IAPSKNNI算法的良好的填补性能,当缺失率越高,同类信息越少时,相对于其他K最近邻填补算法,能获得更好的填补效果。2)基于IAPSKNNI算法,针对电商数据,搭建了数据预处理的系统模块。首先分析数据预处理工作的工作内容,并...

【文章页数】:78 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 国外研究现状
        1.2.2 国内研究现状
    1.3 本文主要工作
    1.4 论文组织结构
第二章 背景知识
    2.1 数据不完备问题
        2.1.1 数据不完备问题的原因
        2.1.2 数据不完备问题的分类
        2.1.3 数据不完备问题的处理
    2.2 聚类算法
        2.2.1 聚类算法的介绍
        2.2.2 聚类算法的分类
        2.2.3 相似性的确定
        2.2.4 类数目的确定
        2.2.5 聚类评估
    2.3 AP聚类
        2.3.1 AP聚类的算法描述
        2.3.2 AP聚类的算法分析
    2.4 增量式AP聚类
        2.4.1 增量学习
        2.4.2 增量式AP聚类算法
    2.5 K最近邻填补
        2.5.1 K最近邻填补的介绍
        2.5.2 K最近邻填补的缺陷
    2.6 本章小结
第三章 基于增量式AP聚类的K最近邻填补
    3.1 不完备数据的处理
        3.1.1 相似性度量
        3.1.2 算法设计
        3.1.3 增量式聚类
        3.1.4 自适应K最近邻填补
        3.1.5 算法流程
    3.2 实验仿真
        3.2.1 实验环境
        3.2.2 实验设计
        3.2.3 实验数据
        3.2.4 实验分析
        3.2.5 综合分析
    3.3 本章小结
第四章 面向电商的数据预处理模块设计与实现
    4.1 数据预处理
        4.1.1 数据预处理的必要性
        4.1.2 数据预处理的方法
        4.1.3 数据预处理的任务划分
        4.1.4 面向电商数据的预处理
    4.2 模块架构设计
        4.2.1 需求分析
        4.2.2 功能框架
    4.3 模块功能实现
        4.3.1 模块架构技术
        4.3.2 功能实现
        4.3.3 模块展示
    4.4 本章小结
第五章 总结和展望
    5.1 本文工作总结
    5.2 进一步工作展望
参考文献
致谢



本文编号:3776301

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3776301.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8aeb5***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com