当前位置:主页 > 医学论文 > 医卫管理论文 >

基于医保数据的智能审核研究与应用

发布时间:2020-09-15 14:50
   目前医疗保险行业存在大量的医保记录数据,为了更好的保障医疗保险基金合法使用,需要优化对欺诈骗保的审查手段,加大对医保基金的监管力度。本文基于大规模的医保数据,研究改进聚类及分类算法,将聚类及分类算法应用于医保数据集,设计并实现医保智能审核模型。本文主要研究内容如下:1.为了更有效地利用医保无标签数据,本文首先采用聚类算法对无标签医保数据进行聚类分析。由于传统K-Means存在容易陷入局部最优的问题,本文提出了改进的蚁狮优化与K-Means相结合的聚类模型ALO-KM。该模型首先通过蚁狮优化算法帮助K-Means选择初始簇中心,在迭代过程中再利用蚁狮优化算法更新样本簇的簇中心,削弱了K-Means对初始簇中心的敏感程度。然后提出了基于高斯分布的改进随机游走策略,能够更加全面地搜索解空间,实现对蚁狮优化算法搜索能力的提高。实验证明本文提出的模型在多个指标上都提高了医保无标签样本的划分纯度和聚类效果,有效地解决了医保无标签数据利用率低以及K-Means易陷入局部最优的问题。2.为了更有效地同时利用医保数据中的无标签样本和有标签样本,提高对骗保行为的分辨能力,本文设计了K-Means与逻辑回归相结合的KM-LR模型。首先提出K-Means迭代训练中特征距离向量的概念,在K-Means训练后将特征距离向量映射为逻辑回归模型的回归系数;然后通过逻辑回归训练后学习到的模型对样本进行划分,并分别求得划分后两类的簇中心,再进行下一次整体的迭代。这种交互式的训练模式紧密地连接了聚类与分类两个部分,有效地提高了医保数据的利用率。通过实验证明了KM-LR算法有效地优化了对医保数据的分辨能力,在多种评价指标上均较大地提升了分类精度,达到了同时利用医保无标签样本与有标签样本的目的。3.为了给医保智能化审核与信息化监管提供现代技术支撑,本文构建了基于大数据的医保智能审核系统。该系统可以利用医保数据进行多种模型训练,包括本文提出的ALO-KM与KM-LR,可以由用户上传需要审核的数据样本进行医保防骗审核,可以通过不同的统计图表进行对比分析,最后提供了可视化界面为用户展示各个功能模块的结果。
【学位单位】:电子科技大学
【学位级别】:硕士
【学位年份】:2019
【中图分类】:R197.1;TP311.13
【部分图文】:

流程图,优化算法,流程,簇中


图 3-1 蚁狮优化算法流程3.3 蚁狮优化算法与 K-Means 的结合模型研究3.3.1 蚁狮优化算法与 K-Means 的结合模型设计K-Means 由于对初始聚类簇中心较敏感,常陷入局部最优的情况,因此本章提出蚁狮优化算法与 K-Means 相结合的聚类模型,利用蚁狮优化算法设置初始簇中心,减少 K-Means 对初始簇中心的敏感程度,优化医保无标签样本的聚类效果。(1)蚁狮与蚂蚁的数据结构设计由于每一只蚁狮都代表解空间中一种可能的解,且 K-Means 最后划分结果的解就是输出 k 个簇中心,也就是说对于利用蚁狮优化算法选择 K-Means 的初始簇中心来说,即表示每一种解就是 k 个初始簇中心,所以在本章提出的结合算法中,蚁狮和蚂蚁的结构均以 k 个簇中心表示,即 k*n 向量,n 为样本的特征维数。(2)适应度函数设计群智能优化算法中,适应度是促进迭代更新的动力,以生物进化的视角看,

曲线,样本数,指数,曲线


表 3-4 多种算法不同样本数时 Calinski-Harabasz 分数对比进的 ALO-KM、3.3 节的 ALO-KM、传统 K-Means 以及 BIRCHBouldin 指数结果,分别如图 3-2 与表 3-5。如图 3-2 所示的 Davie分析,改进的 ALO-KM 大约提升了 3%。当医保无标签样本数逐渐 ALO-KM 的 Davies-Bouldin 指数上升得较慢并且上升幅度不剧烈法的 Davies-Bouldin 指数上升得较快且幅度较大。当样本数达到,此时的指数下降表示找到了更优的划分,且划分效果显著。样本数2000 4000 6000 8000 LO-KM 6365.087339 15525.054033 24464.883892 37579.489150 461-KM 6315.031131 15117.802761 22963.439460 37091.090331 442eans 6315.013096 15114.393566 22961.902583 36999.838004 440CH 6302.375281 15332.554205 23618.230416 37086.756532 441

柱状图,柱状图,指数,医保


电子科技大学硕士学位论文表 3-5 不同样本数时 Davies-Bouldin 指数的详细情况说明 Fowlkes-Mallows Index 与 Accuracy 两种评价指标需要样本具有才能计算,所以接下来的实验使用有标签的医保数据集进行验证9000 条有医保样本,如图 3-3。样本数2000 4000 6000 8000 O-KM 0.09870322 0.11477331 0.09896026 0.10658814 -KM 0.09987791 0.12300884 0.12018901 0.12366127 eans 0.09942566 0.12301509 0.12039113 0.12310640 CH 0.09997259 0.11674069 0.11871264 0.11584019

【参考文献】

相关期刊论文 前4条

1 赵振基;;医保控费,引爆PBM大市场[J];中国药店;2015年05期

2 高宪超;陈一铭;俞志维;季彤;;基于数据挖掘技术的老年口腔癌患者围术期并发症发生概率评估系统的建立[J];中国口腔颌面外科杂志;2013年02期

3 沈培;张吉凯;;聚类分析在医疗费用数据挖掘中的应用[J];华南预防医学;2012年01期

4 高臻耀;张敬谊;林志杰;熊峗;朱扬勇;;一个医保基金风险防控平台中的数据挖掘技术[J];计算机应用与软件;2011年08期

相关博士学位论文 前2条

1 杨春梅;基因表达数据聚类分析算法研究和应用[D];天津大学;2006年

2 罗可;数据库中数据挖掘理论方法及应用研究[D];湖南大学;2005年

相关硕士学位论文 前10条

1 李璇;K-means算法参数优化方法研究[D];山东科技大学;2017年

2 吉昱虹;基于云环境的医疗疫苗大数据系统的设计与实现[D];吉林大学;2016年

3 马可;基于Storm的流数据聚类挖掘算法的研究[D];南京邮电大学;2016年

4 田园;基于大数据的医保报销费用决策模型研究与实现[D];电子科技大学;2016年

5 俞丽颖;基于规则的医保智能审核系统的研究[D];电子科技大学;2016年

6 邵笑笑;基于医保费用的分析与异常检测研究[D];电子科技大学;2016年

7 马宗帅;基于深度学习的心脑血管疾病预测方法研究[D];西安建筑科技大学;2015年

8 杨超;基于BP神经网络的健康保险欺诈识别研究[D];青岛大学;2014年

9 郭鹏妮;岭回归与分位数回归的研究及结合应用[D];哈尔滨工业大学;2014年

10 李群山;基于视频的人数计数系统算法设计[D];电子科技大学;2013年



本文编号:2819106

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/2819106.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户71f6a***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com