基于离群点检测的医保欺诈检测研究
发布时间:2020-07-03 04:24
【摘要】:随着医疗保险的普及和覆盖范围的日益扩大,我国的参保人数在不断增加,医保业务也愈加繁杂。但是,在我国医疗保险事业取得长足发展的同时,也存在着各种各样的医保欺诈问题,这些不法行为已对我国医保基金运营造成了很大的危害。目前国内对于医保欺诈行为检测主要靠人工制定审查规则和人工审核,面对日益增大的医保业务量,仅靠人工审核已经明显无法满足需求,这时就需要用信息化技术来辅助审核人员完成检查工作。随着我国医疗保险行业的发展,医保信息系统也得到了迅速的应用与发展,并且积累了大量的相关医保数据。这为将离群点检测技术应用于医保数据分析提供了必要条件。离群点检测可以发现医疗保险数据中潜在的有意义的信息,用于辅助决策。在银行、证券交易所等金融机构的欺诈检测中已经有了许多应用案例,并且具有很好的性能。因此,本文希望能够将离群点检测技术应用于我国的医疗保险欺诈检测中,找出其中的可疑数据,辅助工作人员的决策。本文主要以医疗保险欺诈检测中的费用异常和用药异常两个问题作为切入点。通过研究原始医疗保险数据,分析其特点,进行了医保数据预处理。之后就具体的费用异常与用药异常问题,分别分析其数据集的数据特征,提出了基于聚类的ODC离群点检测算法与基于剪枝的OAP离群点检测算法。经过实验对比,发现其均优于原有算法,在实际医疗保险数据集的运用中表现出良好性能。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F842.684;TP311.13
【图文】:
图4-3逦时肺源性心脏病数据聚类结果逡逑Fig.邋4 ̄3邋k=S邋Pulmonary邋Heart邋Disease邋Data邋Clustering逡逑上图4-3表示的是当时肺源性心脏病数据聚类的结果,8个聚类簇中的数逡逑据数目分别为邋175,邋419,邋35,邋285,邋402,邋158,邋69,邋348。逡逑>逦kmeans.resultSsize逡逑175邋419邋35邋235邋402邋153邋69邋343逡逑>#异常值的行号逡逑>逦print(outliers)逡逑[1]逦143逦1432逦1153逦234逦535逦531逦983逦1497逦1316逦96逦306逦1694逦1259逦32逡逑[15]逦1294逦327逦946逦1234逦1527逦459逦600逦935逦1131逦450逦1836逦233逦1416逦1297逡逑{23]逦924逦12逦414逦1709逦1627逦1580逦579逦1056逦1674逦759逡逑>逦print(DATAI[outliers,])逡逑药品费哥报销药品费逦住院费一般检查费大型检查费逦治疗费逡逑[1
图4-5值变化时检出率趋势图逡逑Fig.邋4 ̄5邋p=2,邋A邋Trend邋Map邋of邋the邋Detection邋Rate邋When邋The邋K邋Value邋Changes逡逑如上图4-5所示对肺炎、肺源性心脏病、慢性气管炎三类病例数据分别进行实逡逑验,当确定p值不变时,变换A:值所得检出率变化趋势。肺炎和慢性气管炎的检逡逑出率都在聚类数目为6时达到最大值82%和76%,即当it为6时检测出了最多逡逑的21和15个可疑数据。而肺源性心脏病则是在聚类数目为8时,达到检出率最逡逑高值。这是因为肺炎和慢性气管炎的数据量少于肺源性心脏病病例的数据量,因逡逑此当A:值变大时,簇的数目变多,阚值不变的情况下,离群点就变得较难提取。逡逑总体来说,0DC离群点检测算法对于现实的医保数据具有良好的表现,对于逡逑肺炎、肺源性心脏病、慢性气管炎三类病种的检出率分别能达到82%,86%,76%。逡逑在接下来的实验中
本文编号:2739182
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:F842.684;TP311.13
【图文】:
图4-3逦时肺源性心脏病数据聚类结果逡逑Fig.邋4 ̄3邋k=S邋Pulmonary邋Heart邋Disease邋Data邋Clustering逡逑上图4-3表示的是当时肺源性心脏病数据聚类的结果,8个聚类簇中的数逡逑据数目分别为邋175,邋419,邋35,邋285,邋402,邋158,邋69,邋348。逡逑>逦kmeans.resultSsize逡逑175邋419邋35邋235邋402邋153邋69邋343逡逑>#异常值的行号逡逑>逦print(outliers)逡逑[1]逦143逦1432逦1153逦234逦535逦531逦983逦1497逦1316逦96逦306逦1694逦1259逦32逡逑[15]逦1294逦327逦946逦1234逦1527逦459逦600逦935逦1131逦450逦1836逦233逦1416逦1297逡逑{23]逦924逦12逦414逦1709逦1627逦1580逦579逦1056逦1674逦759逡逑>逦print(DATAI[outliers,])逡逑药品费哥报销药品费逦住院费一般检查费大型检查费逦治疗费逡逑[1
图4-5值变化时检出率趋势图逡逑Fig.邋4 ̄5邋p=2,邋A邋Trend邋Map邋of邋the邋Detection邋Rate邋When邋The邋K邋Value邋Changes逡逑如上图4-5所示对肺炎、肺源性心脏病、慢性气管炎三类病例数据分别进行实逡逑验,当确定p值不变时,变换A:值所得检出率变化趋势。肺炎和慢性气管炎的检逡逑出率都在聚类数目为6时达到最大值82%和76%,即当it为6时检测出了最多逡逑的21和15个可疑数据。而肺源性心脏病则是在聚类数目为8时,达到检出率最逡逑高值。这是因为肺炎和慢性气管炎的数据量少于肺源性心脏病病例的数据量,因逡逑此当A:值变大时,簇的数目变多,阚值不变的情况下,离群点就变得较难提取。逡逑总体来说,0DC离群点检测算法对于现实的医保数据具有良好的表现,对于逡逑肺炎、肺源性心脏病、慢性气管炎三类病种的检出率分别能达到82%,86%,76%。逡逑在接下来的实验中
【参考文献】
相关期刊论文 前1条
1 薛安荣;姚林;鞠时光;陈伟鹤;马汉达;;离群点挖掘方法综述[J];计算机科学;2008年11期
相关硕士学位论文 前5条
1 袁小冬;基于关联规则的临床行为异常检测的应用研究[D];江苏大学;2010年
2 刘江超;数据挖掘算法在医保数据上的应用研究[D];国防科学技术大学;2009年
3 杨峻;机器学习技术在医疗保险决策知识获取中的应用[D];国防科学技术大学;2010年
4 郑甜;临床序列异常检测模型[D];江苏大学;2009年
5 黄晶晶;数据挖掘技术在医院医保费用分析中的研究与应用[D];南方医科大学;2009年
本文编号:2739182
本文链接:https://www.wllwen.com/jingjilunwen/bxjjlw/2739182.html