一种基于k近邻图的稀有类检测算法
本文关键词:一种基于k近邻图的稀有类检测算法
更多相关文章: 稀有类检测 k邻近图 数据分布 变化系数 入度
【摘要】:稀有类检测的目标是为无类别标签的数据集中的每个类,特别是仅含少量数据样本的稀有类,寻找到至少一个数据样本以证明数据集中存在这些类.该技术在金融欺诈检测及网络入侵检测等现实问题中具有广泛的应用场景.但是,现有的稀有类检测算法往往存在以下问题:(1)时间复杂度比较高;或(2)对原始数据集需要一定的先验知识,如数据集中各类数据样本所占比例等.提出了一种基于k邻近图的无先验快速稀有类检测算法KRED,通过利用稀有类数据样本在小范围内紧密分布所造成的与周边数据分布的不一致性来定位稀有类.为此,KRED将给定数据集转化为k邻近图,并计算图中各顶点入度和边长的变化.最后,将以上变化最大的顶点对应的数据样本作为稀有类的候选样本.实验结果表明:KRED有效提高了发现数据集中各个类的效率,明显缩短了算法运行所需时间.
【作者单位】: 武汉大学计算机学院;武汉大学中南医院;武汉大学国际软件学院;
【关键词】: 稀有类检测 k邻近图 数据分布 变化系数 入度
【基金】:国家自然科学基金(61502347,61272275,61202033,61070013,U1135005) 中央高校基本科研业务费专项资金(2042015kf0038) 武汉大学人才计划/引进人才科研启动经费~~
【分类号】:TP301.6
【正文快照】: 稀有类检测旨在发现无类别标签数据集中存在哪些类,特别是哪些稀有类.这是因为这些稀有类虽然数据样本较少,但往往比占据数据集数据样本绝大多数的主要类更具有现实意义,更值得被进一步研究[1].例如:在海量金融交易记录中,有时隐藏着少量利用金融系统的漏洞或采取欺诈手段进行
【相似文献】
中国期刊全文数据库 前10条
1 袁茵;;数据分布服务推动了注重数据的系统发展[J];电子技术;2006年11期
2 夏军;庞征斌;张峻;李永进;;一种基于0-1整数规划的全局数据分布优化方法[J];国防科技大学学报;2009年04期
3 郑胜;郝毫毫;;基于贝努利大数定律的数据分布算法[J];计算机工程;2009年19期
4 丁莹;几种数据分布设计方法的比较与进一步探讨[J];计算机时代;1994年04期
5 丁莹;几种数据分布设计方法的探讨[J];微型电脑应用;1994年04期
6 武继刚,,庞淑萍;堆上的数据分布与堆选择算法[J];计算技术与自动化;1995年04期
7 陈楠;分布式数据库系统数据分布策略分析[J];计算机时代;1998年10期
8 钱旭明;;数据分布规划的数学模型[J];宁波大学学报(理工版);1992年02期
9 王于同;一种以负载平衡为目标的分布式数据分布算法[J];杭州电子工业学院学报;1995年02期
10 王秀坤,吴月堂,张盛;一种有效的数据分布算法[J];计算机工程与应用;2000年12期
中国重要会议论文全文数据库 前10条
1 胥永康;岳筱玲;潘泽友;;基于数据分布的劳动力市场信息系统[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 李宏;;港口企业信息系统数据分布技术[A];全国飞机与船舶通信导航学术研讨会论文集(下)[C];2000年
3 陈楠;;分布式数据库系统的数据分布策略研究[A];信息科学与微电子技术:中国科协第三届青年学术年会论文集[C];1998年
4 王e
本文编号:950289
本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/950289.html