异常点挖掘及证券行业应用实例研究
发布时间:2020-06-12 06:15
【摘要】:在数据挖掘研究领域,异常点挖掘一直是学者和研究人员关注的热点问题,从一开始作为聚类分析的副产品,发展到各类挖掘算法层出不穷,已经成为数据挖掘领域的一个独立且重要的命题。随着金融、保险和电信行业对风险管理的要求加大,异常点挖掘在风险监测方面的优势得到了极大的发挥。另一方面,,随着网络技术的发展、计算机计算能力的提高,异常点挖掘和其他数据挖掘技术一样得到了充分的发展。 以往对异常点挖掘的研究都是以挖掘算法作为对象,以数理统计、集合论、离散数学和计算机科学等手段进行研究,往往忽略了如何运用异常点挖掘,并与实际问题结合这一问题。随着异常点挖掘不断用于风险探测,如何把异常点挖掘的理论和实际的行业背景结合,成为了一个重要的课题。 本文首先简单回顾已有的数据挖掘生命周期模型以及异常点基本概念和挖掘算法。对国内外的研究现状作了说明,并解释了一些相关概念和专业术语。 然后将关注点放在异常点挖掘生命周期上,从七个方面描述了整个挖掘过程,在讨论中配以一个算例作为辅助说明。 其次本文实现了异常点挖掘最常用的两类基于距离的算法:DKP最近邻算法和基于LOF密度的算法。为课题研究提供了工具和算法实现上的准备。 最后,全文以一个实际课题为例,把前文研究内容贯穿于案例中,详细说明了异常点挖掘和证券行业结合解决客户交易异常侦测的全过程,并对挖掘结果进行了分析,提出相应的建议对策。从而使论文提出的观点兼具一定的理论意义和实践价值。
【图文】:
计算时变量(维)的选择很难把握,往往需要反复计算、取舍、比较来得到满意的变量(维)组合;根据数据范围不同,可以识别全局异常点和局部异常点,如图2.5所示,如果说ol是一个全局异常点,o2可以看作是一个局部异常点,两者在挖掘方法上有所不同;根据数据类型不同,又可以分为分类型和数值型(离散型和连续型)异常点。尽管以上分类不很完备,但侧面反映了数据集中异常点类型的多样性,因此,有效发现数据集中的异常点并不是一件容易的工作,需要采用有效的策略和算法。
且应该适当的把k的值设的大一些。上述结论从M.B~i梦8]等人在研究LoF算法时所做的实验中也得到了验证。图3.1表示了一个500个点组成的样本数据,该样本符合高斯分布(正态分布),对其进行基于LOF密度计算,得到的LOF值和k(图3,1右图中的MinPts)取值的关系图。从图3.1的右图中可以看到,当k(MinPts)<6时,LOF的最大值偏离其均值很多,导致LOF的波动很大
【学位授予单位】:同济大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:F830.91;F224
本文编号:2709114
【图文】:
计算时变量(维)的选择很难把握,往往需要反复计算、取舍、比较来得到满意的变量(维)组合;根据数据范围不同,可以识别全局异常点和局部异常点,如图2.5所示,如果说ol是一个全局异常点,o2可以看作是一个局部异常点,两者在挖掘方法上有所不同;根据数据类型不同,又可以分为分类型和数值型(离散型和连续型)异常点。尽管以上分类不很完备,但侧面反映了数据集中异常点类型的多样性,因此,有效发现数据集中的异常点并不是一件容易的工作,需要采用有效的策略和算法。
且应该适当的把k的值设的大一些。上述结论从M.B~i梦8]等人在研究LoF算法时所做的实验中也得到了验证。图3.1表示了一个500个点组成的样本数据,该样本符合高斯分布(正态分布),对其进行基于LOF密度计算,得到的LOF值和k(图3,1右图中的MinPts)取值的关系图。从图3.1的右图中可以看到,当k(MinPts)<6时,LOF的最大值偏离其均值很多,导致LOF的波动很大
【学位授予单位】:同济大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:F830.91;F224
【引证文献】
相关硕士学位论文 前2条
1 孔淑慧;流数据时序模式依赖挖掘在股市行情分析中的应用[D];北京交通大学;2008年
2 林翠香;基于数据挖掘的葡萄酒质量识别[D];中南大学;2010年
本文编号:2709114
本文链接:https://www.wllwen.com/guanlilunwen/zhqtouz/2709114.html
最近更新
教材专著