分类型矩阵数据的孤立点检测算法研究
发布时间:2021-11-28 06:57
孤立点检测是数据挖掘中的一个重要问题,旨在发现隐藏在大型数据集中的有用的异常对象和异常模式,并已广泛应用于信用卡欺诈检测、网络监测、电子商务、故障检测、恶劣天气预报和卫生系统监测等领域。现有的孤立点检测算法输入的数据集是包含9)个对象的集合且每个对象对应一条记录,但是在实际应用中,一个对象通常对应多条记录,本文中称包含多条记录的对象为矩阵对象,包含矩阵对象的数据集为矩阵数据集。目前,还没有有效的算法可以检测矩阵数据集中的孤立点,如果使用现有的孤立点检测算法来处理矩阵数据,最直接的方法是压缩和转换数据,但是,在数据压缩和转换的过程中通常会有大量信息被丢失,不足以完全反映用户的真实行为。因此,本文针对分类型矩阵数据集中的孤立点检测进行了深入细致的研究和探讨,主要工作如下:(1)由于矩阵数据集中的对象包含多条记录,所以可以把每个矩阵对象看作一个小数据集,通过给出一种矩阵对象自身的内聚度和该矩阵对象与其他矩阵对象之间的耦合度,定义矩阵对象的孤立因子,提出了一种基于信息熵的孤立点检测算法。(2)数据属性之间通常有复杂的相互作用,所以还需要考虑属性间相互作用对矩阵数据集孤立点检测的影响。因此在计算...
【文章来源】:山西大学山西省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
二维数据集中的孤立点
人类心电图中的集合异常
图 3.1 预处理后的 Market basket 数据集分布生成的数据集用'+'和'*'表示,符号'+'表示的对到这些符号'+'表示的对象属性值出现频率很低 data
本文编号:3523939
【文章来源】:山西大学山西省
【文章页数】:56 页
【学位级别】:硕士
【部分图文】:
二维数据集中的孤立点
人类心电图中的集合异常
图 3.1 预处理后的 Market basket 数据集分布生成的数据集用'+'和'*'表示,符号'+'表示的对到这些符号'+'表示的对象属性值出现频率很低 data
本文编号:3523939
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3523939.html