当前位置:主页 > 科技论文 > 软件论文 >

基于模糊聚类的数据库空值估计研究

发布时间:2017-08-14 13:03

  本文关键词:基于模糊聚类的数据库空值估计研究


  更多相关文章: 关系数据库 模糊聚类 空值 表间关联信息 多元线性回归


【摘要】:随着数字时代的来临,数据的存储和处理工作越来越得到重视。数据挖掘技术作为一种数据处理方法需要对数据进行有效的预处理,而预处理过程中对存储在数据库中的缺失数据进行推导并填补已经成为一个亟待解决的热点研究问题。普通FCM算法仍然存在初始聚类中心的选择具有随机性以及收敛较慢等问题。针对初始聚类中心的选择,结合k维树和空间划分树,分别提出了改进的FCM算法。该算法能够有目的地找到一组优化的初始聚类中心从而减少迭代次数和运行时间。针对数据库中的空值问题,给出一种基于FCM关系数据库单空值估计方法。算法通过相关降维技术获得一组较为客观的空值属性的依赖属性。在此基础上利用改进的FCM算法对数据集进行聚类。针对每一个聚类中情况的不同,分别使用多元线性回归的方法得到一个近似的拟合函数。实验表明该方法能够提高空值估计的准确性,得出的估计值具有较高的准确率。大多数空值估计方法仅仅基于空值所在数据表的信息,而忽视了关系数据库中数据表之间的关联关系。针对这一问题,利用数据表间的外键传递关系,引入多表间的关联关系以扩充空值所在数据表的信息。根据数据库中空值所在表和其他表的关联关系的不同模式,提出三种不同模式下扩充空值所在数据表信息的方法。对数据表中多个属性上同时存在的空值,以往常用的方法忽视了空值之间的依赖关系,更没有注意到空值估计的顺序问题。对此研究了表内空值间的相关关系,给出了空值的选取与转化方法以及空值的估计优先级。在两者基础上提出一种基于多表关联信息的数据库多空值估计方法。实验表明该方法与本文提出的基于FCM的数据库单空值估计方法以及其他常用的空值估计方法相比,具有更高的准确率。
【关键词】:关系数据库 模糊聚类 空值 表间关联信息 多元线性回归
【学位授予单位】:南京航空航天大学
【学位级别】:硕士
【学位授予年份】:2016
【分类号】:TP311.13
【目录】:
  • 摘要4-5
  • ABSTRACT5-11
  • 注释表11-12
  • 缩略词12-13
  • 第一章 绪论13-19
  • 1.1 研究背景13-14
  • 1.2 国内外研究现状14-17
  • 1.3 本文的主要研究内容17-18
  • 1.4 文章组织结构18-19
  • 第二章 数据库空值估计的相关技术19-28
  • 2.1 空值估计的粗糙集方法19-22
  • 2.1.1 粗糙集理论的基本概念19-21
  • 2.1.2 基于粗糙集的空值估计方法21-22
  • 2.2 空值估计的云模型方法22-25
  • 2.2.1 云模型的基本概念22-23
  • 2.2.2 云模型的分群算法23-24
  • 2.2.3 利用云发生器生成空值的估计值24-25
  • 2.3 基于优化算法的空值估计方法25-27
  • 2.3.1 遗传算法相关概念25
  • 2.3.2 遗传算法基本流程25-26
  • 2.3.3 基于遗传算法的空值估计方法26-27
  • 2.4 本章小结27-28
  • 第三章 改进的FCM算法28-48
  • 3.1 常用聚类算法28-31
  • 3.1.1 k-means聚类算法28-29
  • 3.1.2 层次聚类算法29
  • 3.1.3 FCM聚类算法29-31
  • 3.2 基于k维的FCM算法(kdFCM)31-34
  • 3.2.1 k维树31-32
  • 3.2.2 改进的FCM算法(kdFCM)32-34
  • 3.3 基于空间划分树的FCM算法(spFCM)34-39
  • 3.3.1 空间划分树34-38
  • 3.3.2 改进的FCM算法(spFCM)38-39
  • 3.4 kdFCM算法与spFCM算法时间复杂度分析39-41
  • 3.4.1 kdFCM算法时间复杂度分析39-40
  • 3.4.2 spFCM算法时间复杂度分析40-41
  • 3.5 实验与分析41-46
  • 3.5.1 实验数据集41-42
  • 3.5.2 实验结果和分析42-46
  • 3.6 本章小结46-48
  • 第四章 基于FCM的数据库空值估计48-59
  • 4.1 相关定义48-51
  • 4.1.1 多元线性回归48-49
  • 4.1.2 模糊集及相关运算49-50
  • 4.1.3 基于粗糙集的属性约简50-51
  • 4.2 基于FCM的数据库空值估计方法(SNEF)51-54
  • 4.2.1 算法描述51-54
  • 4.2.2 算法分析54
  • 4.3 SNEF方法的实验结果和分析54-58
  • 4.3.1 实验数据54-55
  • 4.3.2 实验结果与分析55-58
  • 4.4 本章小结58-59
  • 第五章 基于多表关联关系的关系数据库多空值估计59-73
  • 5.1 表间关联关系及处理59-64
  • 5.1.1 星型关系模式59-61
  • 5.1.2 雪花型关系模式61-62
  • 5.1.3 星座型关系模式62-64
  • 5.2 空值间相关关系及处理64-66
  • 5.2.1 空值的选取与转化64-65
  • 5.2.2 空值的估计优先排序65-66
  • 5.3 基于多表关联关系的数据库空值估计方法(MNEMT)66-68
  • 5.3.1 算法描述66-68
  • 5.3.2 算法分析68
  • 5.4 MNEMT方法的实验和分析68-71
  • 5.4.1 实验数据68-69
  • 5.4.2 实验结果与分析69-71
  • 5.5 本章小结71-73
  • 第六章 总结与展望73-75
  • 6.1 总结73-74
  • 6.2 展望74-75
  • 参考文献75-79
  • 致谢79-80
  • 在学期间的研究成果及发表的学术论文80


本文编号:672778

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/672778.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户e7310***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com