当前位置:主页 > 科技论文 > 软件论文 >

不确定数据集中离群点检测技术的研究

发布时间:2022-02-12 11:28
  近些年来,随着数据库技术的蓬勃发展,需要在数据库中存储和处理的数据量日益增加,如何从海量数据中挖掘出潜在的甚至未被发现的价值信息已经成为当下数据库研究领域的热点问题之一。离群点检测技术可以帮助用户发现异常但有价值的数据信息,其在医疗诊断、金融诈骗、环境监测等领域中已经有着广泛的应用。目前,传统数据库领域中的离群点检测技术已经取得了许多优秀的研究成果。然而,随着人们对数据采集和数据处理理解的不断深入,人们逐渐认识到不确定数据在生产和生活中普遍存在。但是,在这新兴的不确定数据库领域中现有的离群点检测方法具有一定的局限性,不能切实有效的满足现实应用的需求。为此,本文对不确定数据中和不确定数据流中的离群点检测问题展开了研究。具体地,本文的主要贡献如下:1.提出了不确定数据集中的快速离群点检测算法FODU(Fast Outlier Detection Algorithm on Uncertain Data Sets)。首先,采用分层次划分思想给出了索引的构建策略,这种索引结构即克服传统索引对多维数据管理的局限性又避免了空间冗余的产生。然后,提出了全新的过滤方法,该方法包括批量过滤与单点过滤两个过... 

【文章来源】:大连海事大学辽宁省211工程院校

【文章页数】:71 页

【学位级别】:硕士

【部分图文】:

不确定数据集中离群点检测技术的研究


图2.?1不确定数据集中的离群点示例??Fig.?2.1?Example?of?outliers?in?uncertain?data?sets??

索引,示例,概率,数据


1??罄???馨??0.9-???PU?鲁%:?K?¥??〇?8?-?尸丨5?b,?p\9?/>???0.7?????A書參參???^?/?7?W?A?P2\p2i?Plf??-t?A??b2?P'、P、',h*?bv??〇.4???丨?蠡??? ̄代7;??0?:-?[?Z?^??0J'#????????0丨,??/,!????凡?hi?h3?*?b4??〇?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?I卡唯??图2.?2分层次划分索引构建的示例??Fig.?2.2?Example?of?hierarchically?indexed?build??表2.?4图2.?2中数据点的概率信息??Tab.?2.4?Probability?information?of?data?points?in?Figure?2.2??不确定数据点?存在概率?不确定数据点?存在概率?不确定数据点?存在概率??划分子块6!?划分子块h?划分子块A3??Pi?0.9?pi?0.8?p6?0.9??Pa?0.7?pi?0.4?ps?0.3??划分子块仏?划分子块h?划分子块66??P35?0.7?/?30?0.8?P9?0.6??P33,?0.7?/?3i?0.7?p\〇?0.6??P32?0.6?P29?0.7?尸11?0.4??/?34?0.3?/?27?0.6?P%?0.3??P28?0.1?pi?0.3??划分子块67?划分子块心?划分子块心??P]2?0.9?P24?0.6?p'

索引,生成树,示例,数据


?不确定数据集中离群点检测技术的研究???续表2.4??不确定数据点?存在概率?不确定数据点?存在概率?不确定数据点?存在概率??划分子块67?划分子块如?划分子块如??pi4?0.7?pa?0.5?p2〇?0.7??f>15?0.7?P25?0.4?P16?0.4??pi6?0.3?/>i7?0.3??具体地,图2.3是图2.2的索引生成树。从图2.3中可以看出划分索引树的叶子节点??中包含了不确定数据集合P中的所有数据点,并且叶子节点之间不存在相互重叠的关??系,集合户中的任意不确定数据点;^也只能被映射在唯一的叶子节点中。??根节点—??子节点?|?| ̄子节点??I???1? ̄???b'?b2?节点?子节点?? ̄ ̄ ̄?丨子士点|?|子“点?|子结点??1?I?1??^4?^5?^6?b-y?bfi?be)??图2.?3分层次划分索引的生成树示例??Fig.?2.3?Example?of?a?spanning?tree?that?divides?the?index?hierarchically??首先,本小节中给出了不确定数据集中分层划分索引的构建方法。然后,给出了具??体示例进行说明。总结起来,本文设计的分层次划分索引结构在数据过滤方面具有两大??优势:一、可以使得相对稀疏的数据点被索引到匕旦的划分子块中,因??此容易确定划分子块内的数据点是否为离群点;二、可以使得相对较为密集的数据点被??索引到匕腳n>M旦以Mr的划分子块中,因此,容易确定这种划分子块内的数据点是??否为非离群点。同时,对比传统索引结构,本文采

【参考文献】:
期刊论文
[1]基于多种支撑点的度量空间离群检测算法[J]. 许红龙,唐颂,毛睿,沈婧,刘刚,陈国良.  计算机学报. 2017(12)
[2]BOD:一种高效的分布式离群点检测算法[J]. 王习特,申德荣,白梅,聂铁铮,寇月,于戈.  计算机学报. 2016(01)
[3]基于距离的不确定离群点检测[J]. 于浩,王斌,肖刚,杨晓春.  计算机研究与发展. 2010(03)
[4]不确定性数据管理技术研究综述[J]. 周傲英,金澈清,王国仁,李建中.  计算机学报. 2009(01)



本文编号:3621636

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3621636.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c2e4f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com